データ サイエンスは急速に進化しており、機械学習の役割はデータ サイエンスのハイブリッドな役割から、エンジニアリングや分析指向の役割へと移行しています。この変化を推進している要因は次のとおりです。
これらの変化する要因により、データ サイエンティストが使用するツールも変化しました。これにより、クラウド、自動化、説明可能性、反復可能なプロセスの活用を促進する方向に発展することができます。 クラウドベースの機械学習。クラウド インフラストラクチャと Kubernetes により、データ サイエンティストの機械学習へのアプローチ方法が変わりました。事前に構築されたソリューションを Saas アプリケーションとして使用できるようになることから、Kubernetes 上で完全な機械学習スタックを実行できるようになることまで。 AutoML とオーケストレーション。 AutoML はトレーニング モデルを簡素化し、データ準備、機能エンジニアリング、ハイパーパラメータの最適化、モデル選択への自動化されたアプローチを提供します。 説明可能かつ再現可能な ML。過去数年間で、モデルの予測とその背後にある重みを理解し、意味づけするのに役立つライブラリやツールがいくつか登場しました。 whatiftools、Lime、Shap、Manifold などのツールは、データ サイエンティストがこれを実現するのに役立ちます。 クラウドベースの機械学習 クラウドとKubernetesへの移行は昨今の大きなトレンドであり、機械学習エンジニアのDevOpsやデータ操作機能に対するニーズが高まっています。 ディープラーニングの急速な発展は機械学習の進歩を促進してきましたが、ディープラーニングにはより多くのコンピューティング リソースが必要であり、その使用率はワークロードによって大きく異なるため、より弾力性とスケーラビリティに優れたインフラストラクチャをサポートするには、Tensorflow エグゼキューターを Kubernetes 上で実行する必要があります。 もう 1 つの要因は、実稼働環境における機械学習の重要性が高まっていることです。この変化により、AWS SageMaker や Google Cloud ML Engine などのさまざまなクラウド プラットフォームの助けを借りて、プロトタイピング スタックと本番環境を緊密に統合する必要性が高まっています。これらのツールは、モデルのデプロイメントや API 構成などの機能を提供し、モデルを本番環境にプッシュするプロセスを簡素化します。 AutoML と機械学習ワークフロー 実稼働機械学習システムの重要性が増すにつれ、トレーニングから展開まで、機械学習バリューチェーン全体にわたる自動化の必要性が加速しています。自動化により、モデルの反復と改善が高速化されます。 AutoML は、モデルのトレーニング プロセスの周りに自動化レイヤーを提供し、反復的なタスクの一部を処理できます。ハイパーパラメータの最適化、機能およびモデルの選択などのタスクを処理できます。 Tpot や AutoKeras などのライブラリ、およびほとんどのクラウド プロバイダーが提供するサービスとしての機械学習には、現在、AutoML がソリューションの一部として含まれています。 自動化の必要性が高まるにつれて、さまざまな部分を調整するためのツールの必要性も高まります。 Airflow、Kubeflow、MLFlow、MetaFlow などのワークフロー ツールは、これを実現するために使用される主要なツールの一部です。機械学習プロセス全体をパイプラインとして処理し、データ取得からモデル提供までのエンドツーエンドのプロセスを調整する役割を担います。 説明可能かつ再現可能なML コンプライアンスと規制は、機械学習モデルの構築方法に影響を与えます。解釈可能かつ再現可能なモデルを推進します。 説明可能性の面では、データ サイエンティストがモデルから意味を引き出すのに役立つさまざまなツールが登場しています。これらのツールは、さまざまなシナリオを評価し、変数の相互作用を分析し、モデル予測の解釈に役立つダッシュボードを提供します。 whatiftools、Lime、Shap、または Manifold は、このチャレンジのためのツールです。 モデルをデバッグするための信頼性の高い方法を提供するという利点に加えて、複製可能性は規制によって影響を受けるもう 1 つの側面です。ワークフロー ツールを使用して再現可能な機械学習パイプラインを作成することは常に可能でしたが、プロセスを簡素化するための特定のツールもいくつか登場しました。 DVC、Dolt、Weight and Biases (WANDB)、Dags Hub は、繰り返し可能な方法でモデルを簡単に構築できる特殊なツールの一部です。 DVC はモデルとデータセットの両方のバージョン管理を担当しますが、Dolt はデータセット自体に厳密に制限されています。 WANDB と Dags Hub は、モデルの構築/トレーニングの重みと結果を追跡することに重点を置いています。 要約する 機械学習ツールは、いくつかの予測ライブラリと Jupyter ノートブックを活用することに制限されなくなりました。現在、データ サイエンスを実行するには、クラウド、ワークフロー ツール、解釈、バージョン管理ツールを含む、より広範なツールセットを習得する必要があります。これらの追加された最新ツールは、データ サイエンスがより多くのエンジニアリング機能やビジネス機能を担うのに役立つはずです。 |
<<: フロスト&サリバンは、倉庫管理用の自律配送ロボットの市場が2025年までに272億ドルに達すると予測している。
>>: 垂直型AIスタートアップと水平型AIスタートアップ: 異なる製品ルートの選択
[[417589]]パイソン[[417590]] Python は現在、機械学習で最も人気のあるプ...
最近の教育プロセスの中で、何人かの子供たちが私に大学で何を専攻すればいいかと尋ねました。将来的に発展...
[51CTO.comより引用] 6月21日、WOT2019グローバルテクノロジーサミットとグローバル...
C# のデータ構造とアルゴリズムで線形リストを構築するためのクラスは何ですか? C# のデータ構造と...
パンデミックの発生により、世界中の労働システムが危険にさらされています。コンタクト センターの従業員...
[[428372]] [51CTO.com からのオリジナル記事]推奨システムは、登場以来、学界や産...
著者 | 崔昊レビュー | Chonglouまとめこの記事の著者は、海外のブロガーに触発され、大規模...
企業は AI とビッグデータを活用して、顧客体験をより良いものに変革することができます。人々はこれを...