最新の機械学習ツールにより、データサイエンティストはより多くのエンジニアリング機能やビジネス機能を実行できる

最新の機械学習ツールにより、データサイエンティストはより多くのエンジニアリング機能やビジネス機能を実行できる

データ サイエンスは急速に進化しており、機械学習の役割はデータ サイエンスのハイブリッドな役割から、エンジニアリングや分析指向の役割へと移行しています。この変化を推進している要因は次のとおりです。

  • 機械学習モデルは実稼働システムでますます使用されるようになっており、データ サイエンティストにはこれまで以上に高度な技術スキルが求められています。
  • ビジネス製品とユーザー行動の変化のペースが加速し、自動化の必要性が高まっています。
  • さらに、データのコンプライアンスと規制要件により、予測と意思決定のためのデータの追跡可能性と説明可能性の必要性が高まっています。

[[332279]]

これらの変化する要因により、データ サイエンティストが使用するツールも変化しました。これにより、クラウド、自動化、説明可能性、反復可能なプロセスの活用を促進する方向に発展することができます。

クラウドベースの機械学習。クラウド インフラストラクチャと Kubernetes により、データ サイエンティストの機械学習へのアプローチ方法が変わりました。事前に構築されたソリューションを Saas アプリケーションとして使用できるようになることから、Kubernetes 上で完全な機械学習スタックを実行できるようになることまで。

AutoML とオーケストレーション。 AutoML はトレーニング モデルを簡素化し、データ準備、機能エンジニアリング、ハイパーパラメータの最適化、モデル選択への自動化されたアプローチを提供します。

説明可能かつ再現可能な ML。過去数年間で、モデルの予測とその背後にある重みを理解し、意味づけするのに役立つライブラリやツールがいくつか登場しました。 whatiftools、Lime、Shap、Manifold などのツールは、データ サイエンティストがこれを実現するのに役立ちます。

クラウドベースの機械学習

クラウドとKubernetesへの移行は昨今の大きなトレンドであり、機械学習エンジニアのDevOpsやデータ操作機能に対するニーズが高まっています。

ディープラーニングの急速な発展は機械学習の進歩を促進してきましたが、ディープラーニングにはより多くのコンピューティング リソースが必要であり、その使用率はワークロードによって大きく異なるため、より弾力性とスケーラビリティに優れたインフラストラクチャをサポートするには、Tensorflow エグゼキューターを Kubernetes 上で実行する必要があります。

もう 1 つの要因は、実稼働環境における機械学習の重要性が高まっていることです。この変化により、AWS SageMaker や Google Cloud ML Engine などのさまざまなクラウド プラットフォームの助けを借りて、プロトタイピング スタックと本番環境を緊密に統合する必要性が高まっています。これらのツールは、モデルのデプロイメントや API 構成などの機能を提供し、モデルを本番環境にプッシュするプロセスを簡素化します。

AutoML と機械学習ワークフロー

実稼働機械学習システムの重要性が増すにつれ、トレーニングから展開まで、機械学習バリューチェーン全体にわたる自動化の必要性が加速しています。自動化により、モデルの反復と改善が高速化されます。

AutoML は、モデルのトレーニング プロセスの周りに自動化レイヤーを提供し、反復的なタスクの一部を処理できます。ハイパーパラメータの最適化、機能およびモデルの選択などのタスクを処理できます。 Tpot や AutoKeras などのライブラリ、およびほとんどのクラウド プロバイダーが提供するサービスとしての機械学習には、現在、AutoML がソリューションの一部として含まれています。

自動化の必要性が高まるにつれて、さまざまな部分を調整するためのツールの必要性も高まります。 Airflow、Kubeflow、MLFlow、MetaFlow などのワークフロー ツールは、これを実現するために使用される主要なツールの一部です。機械学習プロセス全体をパイプラインとして処理し、データ取得からモデル提供までのエンドツーエンドのプロセスを調整する役割を担います。

説明可能かつ再現可能なML

コンプライアンスと規制は、機械学習モデルの構築方法に影響を与えます。解釈可能かつ再現可能なモデルを推進します。

説明可能性の面では、データ サイエンティストがモデルから意味を引き出すのに役立つさまざまなツールが登場しています。これらのツールは、さまざまなシナリオを評価し、変数の相互作用を分析し、モデル予測の解釈に役立つダッシュボードを提供します。 whatiftools、Lime、Shap、または Manifold は、このチャレンジのためのツールです。

モデルをデバッグするための信頼性の高い方法を提供するという利点に加えて、複製可能性は規制によって影響を受けるもう 1 つの側面です。ワークフロー ツールを使用して再現可能な機械学習パイプラインを作成することは常に可能でしたが、プロセスを簡素化するための特定のツールもいくつか登場しました。

DVC、Dolt、Weight and Biases (WANDB)、Dags Hub は、繰り返し可能な方法でモデルを簡単に構築できる特殊なツールの一部です。 DVC はモデルとデータセットの両方のバージョン管理を担当しますが、Dolt はデータセット自体に厳密に制限されています。 WANDB と Dags Hub は、モデルの構築/トレーニングの重みと結果を追跡することに重点を置いています。

要約する

機械学習ツールは、いくつかの予測ライブラリと Jupyter ノートブックを活用することに制限されなくなりました。現在、データ サイエンスを実行するには、クラウド、ワークフロー ツール、解釈、バージョン管理ツールを含む、より広範なツールセットを習得する必要があります。これらの追加された最新ツールは、データ サイエンスがより多くのエンジニアリング機能やビジネス機能を担うのに役立つはずです。

<<:  フロスト&サリバンは、倉庫管理用の自律配送ロボットの市場が2025年までに272億ドルに達すると予測している。

>>:  垂直型AIスタートアップと水平型AIスタートアップ: 異なる製品ルートの選択

ブログ    

推薦する

「ハードコア」AIが私たちの家庭に導入されるまでにはどれくらいの時間がかかるのでしょうか? 最先端技術には依然としてブレークスルーが必要

お腹が空いたら、キッチンロボットがミシュランレストランの基準に匹敵するステーキを調理します。運転した...

新しいインフラの登場により、自動運転のビジネスチャンスはどこにあるのでしょうか?

まだ「投資段階」にある自動運転業界にとって、「新しいインフラ」は単なる概念ではなく、実際のビジネスチ...

...

人工知能の時代では、ロボットがあらゆる面で人間に取って代わっている

ロボットは私たちの都市生活を変えています。この記事では、交通、物流、検知、食品、安全の 5 つの側面...

...

モデルの解釈可能性に関する詳細な考察: それはどこから来て、どこに向かうのか?

この記事の著者である Cody Marie Wild は、機械学習分野のデータ サイエンティスト (...

脳と機械の統合の時代が到来し、人類の文明は急速に発展するだろう

著者: ホン・タオ、オットー・マック著者は全員ジョージア工科大学の博士研究員である。人類の歴史におい...

メタは商業用人工知能に注力するためタンパク質折り畳みチームを解散すると報道

フィナンシャル・タイムズによると、8月8日、ソーシャルメディア大手のMeta(旧Facebook)は...

...

LeCun はもう一つの有名な引用を残しました: ChatGPT?犬ほども良くない!それは言語モデルによって供給されるだけである

チューリング・ビッグスリーの一人であるルカン氏は昨日、もう一つの名言を残した。 「知能の面では、Ch...

責任あるAIの未来を探る

テクノロジーが進歩するにつれ、組織は倫理、透明性、説明責任のバランスを取りながら AI の可能性を活...

...

人工知能が「骨董品鑑定」の分野に参入、人間の職業に再び影響が及ぶか?

データの「食料」が増え続け、入手が容易になるにつれ、現在の人工知能は機械学習、言語処理、対話機能にお...

...