最新の機械学習ツールにより、データサイエンティストはより多くのエンジニアリング機能やビジネス機能を実行できる

最新の機械学習ツールにより、データサイエンティストはより多くのエンジニアリング機能やビジネス機能を実行できる

データ サイエンスは急速に進化しており、機械学習の役割はデータ サイエンスのハイブリッドな役割から、エンジニアリングや分析指向の役割へと移行しています。この変化を推進している要因は次のとおりです。

  • 機械学習モデルは実稼働システムでますます使用されるようになっており、データ サイエンティストにはこれまで以上に高度な技術スキルが求められています。
  • ビジネス製品とユーザー行動の変化のペースが加速し、自動化の必要性が高まっています。
  • さらに、データのコンプライアンスと規制要件により、予測と意思決定のためのデータの追跡可能性と説明可能性の必要性が高まっています。

[[332279]]

これらの変化する要因により、データ サイエンティストが使用するツールも変化しました。これにより、クラウド、自動化、説明可能性、反復可能なプロセスの活用を促進する方向に発展することができます。

クラウドベースの機械学習。クラウド インフラストラクチャと Kubernetes により、データ サイエンティストの機械学習へのアプローチ方法が変わりました。事前に構築されたソリューションを Saas アプリケーションとして使用できるようになることから、Kubernetes 上で完全な機械学習スタックを実行できるようになることまで。

AutoML とオーケストレーション。 AutoML はトレーニング モデルを簡素化し、データ準備、機能エンジニアリング、ハイパーパラメータの最適化、モデル選択への自動化されたアプローチを提供します。

説明可能かつ再現可能な ML。過去数年間で、モデルの予測とその背後にある重みを理解し、意味づけするのに役立つライブラリやツールがいくつか登場しました。 whatiftools、Lime、Shap、Manifold などのツールは、データ サイエンティストがこれを実現するのに役立ちます。

クラウドベースの機械学習

クラウドとKubernetesへの移行は昨今の大きなトレンドであり、機械学習エンジニアのDevOpsやデータ操作機能に対するニーズが高まっています。

ディープラーニングの急速な発展は機械学習の進歩を促進してきましたが、ディープラーニングにはより多くのコンピューティング リソースが必要であり、その使用率はワークロードによって大きく異なるため、より弾力性とスケーラビリティに優れたインフラストラクチャをサポートするには、Tensorflow エグゼキューターを Kubernetes 上で実行する必要があります。

もう 1 つの要因は、実稼働環境における機械学習の重要性が高まっていることです。この変化により、AWS SageMaker や Google Cloud ML Engine などのさまざまなクラウド プラットフォームの助けを借りて、プロトタイピング スタックと本番環境を緊密に統合する必要性が高まっています。これらのツールは、モデルのデプロイメントや API 構成などの機能を提供し、モデルを本番環境にプッシュするプロセスを簡素化します。

AutoML と機械学習ワークフロー

実稼働機械学習システムの重要性が増すにつれ、トレーニングから展開まで、機械学習バリューチェーン全体にわたる自動化の必要性が加速しています。自動化により、モデルの反復と改善が高速化されます。

AutoML は、モデルのトレーニング プロセスの周りに自動化レイヤーを提供し、反復的なタスクの一部を処理できます。ハイパーパラメータの最適化、機能およびモデルの選択などのタスクを処理できます。 Tpot や AutoKeras などのライブラリ、およびほとんどのクラウド プロバイダーが提供するサービスとしての機械学習には、現在、AutoML がソリューションの一部として含まれています。

自動化の必要性が高まるにつれて、さまざまな部分を調整するためのツールの必要性も高まります。 Airflow、Kubeflow、MLFlow、MetaFlow などのワークフロー ツールは、これを実現するために使用される主要なツールの一部です。機械学習プロセス全体をパイプラインとして処理し、データ取得からモデル提供までのエンドツーエンドのプロセスを調整する役割を担います。

説明可能かつ再現可能なML

コンプライアンスと規制は、機械学習モデルの構築方法に影響を与えます。解釈可能かつ再現可能なモデルを推進します。

説明可能性の面では、データ サイエンティストがモデルから意味を引き出すのに役立つさまざまなツールが登場しています。これらのツールは、さまざまなシナリオを評価し、変数の相互作用を分析し、モデル予測の解釈に役立つダッシュボードを提供します。 whatiftools、Lime、Shap、または Manifold は、このチャレンジのためのツールです。

モデルをデバッグするための信頼性の高い方法を提供するという利点に加えて、複製可能性は規制によって影響を受けるもう 1 つの側面です。ワークフロー ツールを使用して再現可能な機械学習パイプラインを作成することは常に可能でしたが、プロセスを簡素化するための特定のツールもいくつか登場しました。

DVC、Dolt、Weight and Biases (WANDB)、Dags Hub は、繰り返し可能な方法でモデルを簡単に構築できる特殊なツールの一部です。 DVC はモデルとデータセットの両方のバージョン管理を担当しますが、Dolt はデータセット自体に厳密に制限されています。 WANDB と Dags Hub は、モデルの構築/トレーニングの重みと結果を追跡することに重点を置いています。

要約する

機械学習ツールは、いくつかの予測ライブラリと Jupyter ノートブックを活用することに制限されなくなりました。現在、データ サイエンスを実行するには、クラウド、ワークフロー ツール、解釈、バージョン管理ツールを含む、より広範なツールセットを習得する必要があります。これらの追加された最新ツールは、データ サイエンスがより多くのエンジニアリング機能やビジネス機能を担うのに役立つはずです。

<<:  フロスト&サリバンは、倉庫管理用の自律配送ロボットの市場が2025年までに272億ドルに達すると予測している。

>>:  垂直型AIスタートアップと水平型AIスタートアップ: 異なる製品ルートの選択

ブログ    
ブログ    
ブログ    

推薦する

ダンスをしたり、音楽を作曲したり、演出したりできる AI を見たことがありますか?

最近、NVIDIA Blog は「ライト、カメラ、AI: Cambridge Consultants...

Microsoft Copilot Pro が登場: 個人ユーザーも Word で GPT-4 を使用可能、月額 20 ドル

個人ユーザー向けの Microsoft Copilot メンバーシップ バージョンはここにあります。...

AI開発に最適なプログラミング言語トップ5

昨年、アルファ碁が世界中のチェスプレイヤー全員に勝利して以来、人工知能は注目を集めています。先日終了...

一般的な MapReduce データマイニングアルゴリズム: 平均と分散

平均と分散のマップ削減一連の数値の平均と分散の式は誰にとっても明らかだと思います。マップ関数とリデュ...

...

...

765,000台の車両が関与!テスラの自動運転は米国で正式に調査中、NIOはすでに渦中に巻き込まれている

[[418112]]テスラは月曜日に駐車中の緊急車両との一連の衝突事故が発生した後、オートパイロット...

ByteDance、検索速度が8倍に高速化した最新の音楽検索システム「ByteCover2」をリリース

最近、ByteDance Volcano Voice Teamの最新の音楽検索システムであるByte...

人工知能によって作られた、素晴らしい美しさと能力を持つ美しいロボット

我が国初の自主開発人工知能美容ロボットも誕生しました。その皮膚は先進的なシリコンで作られており、まる...

ディープラーニングの基本的な概念と手法についての簡単な説明

この記事は、数学的および理論的な詳細にはあまり触れずに、ディープラーニングの基本的な概念を取り上げ、...

ヘルスケアにおける AI と ML の可能性を解き放つ

ヘルスケア分野では、人工知能 (AI) と機械学習 (ML) が患者のケア、診断、治療に大きな進歩を...

インテルがコードの類似性を評価するAIシステムを開発、コンピューターのセルフコーディング性能を40倍向上

[[335747]]コンピュータプログラミングはかつてないほど簡単になりました。当初、プログラマー...

レポート: Meta の Llama 2 と OpenAI の ChatGPT の「オープンソース」は透明性に欠ける

オランダのラドバウド大学は8月2日、MetaやOpenAIなどの企業が「オープンソース」という用語を...

Angel: 新しい分散型機械学習システム

Angel は、パラメータ サーバーの概念に基づいた分散型機械学習フレームワークであり、機械学習アル...