最新の機械学習ツールにより、データサイエンティストはより多くのエンジニアリング機能やビジネス機能を実行できる

最新の機械学習ツールにより、データサイエンティストはより多くのエンジニアリング機能やビジネス機能を実行できる

データ サイエンスは急速に進化しており、機械学習の役割はデータ サイエンスのハイブリッドな役割から、エンジニアリングや分析指向の役割へと移行しています。この変化を推進している要因は次のとおりです。

  • 機械学習モデルは実稼働システムでますます使用されるようになっており、データ サイエンティストにはこれまで以上に高度な技術スキルが求められています。
  • ビジネス製品とユーザー行動の変化のペースが加速し、自動化の必要性が高まっています。
  • さらに、データのコンプライアンスと規制要件により、予測と意思決定のためのデータの追跡可能性と説明可能性の必要性が高まっています。

[[332279]]

これらの変化する要因により、データ サイエンティストが使用するツールも変化しました。これにより、クラウド、自動化、説明可能性、反復可能なプロセスの活用を促進する方向に発展することができます。

クラウドベースの機械学習。クラウド インフラストラクチャと Kubernetes により、データ サイエンティストの機械学習へのアプローチ方法が変わりました。事前に構築されたソリューションを Saas アプリケーションとして使用できるようになることから、Kubernetes 上で完全な機械学習スタックを実行できるようになることまで。

AutoML とオーケストレーション。 AutoML はトレーニング モデルを簡素化し、データ準備、機能エンジニアリング、ハイパーパラメータの最適化、モデル選択への自動化されたアプローチを提供します。

説明可能かつ再現可能な ML。過去数年間で、モデルの予測とその背後にある重みを理解し、意味づけするのに役立つライブラリやツールがいくつか登場しました。 whatiftools、Lime、Shap、Manifold などのツールは、データ サイエンティストがこれを実現するのに役立ちます。

クラウドベースの機械学習

クラウドとKubernetesへの移行は昨今の大きなトレンドであり、機械学習エンジニアのDevOpsやデータ操作機能に対するニーズが高まっています。

ディープラーニングの急速な発展は機械学習の進歩を促進してきましたが、ディープラーニングにはより多くのコンピューティング リソースが必要であり、その使用率はワークロードによって大きく異なるため、より弾力性とスケーラビリティに優れたインフラストラクチャをサポートするには、Tensorflow エグゼキューターを Kubernetes 上で実行する必要があります。

もう 1 つの要因は、実稼働環境における機械学習の重要性が高まっていることです。この変化により、AWS SageMaker や Google Cloud ML Engine などのさまざまなクラウド プラットフォームの助けを借りて、プロトタイピング スタックと本番環境を緊密に統合する必要性が高まっています。これらのツールは、モデルのデプロイメントや API 構成などの機能を提供し、モデルを本番環境にプッシュするプロセスを簡素化します。

AutoML と機械学習ワークフロー

実稼働機械学習システムの重要性が増すにつれ、トレーニングから展開まで、機械学習バリューチェーン全体にわたる自動化の必要性が加速しています。自動化により、モデルの反復と改善が高速化されます。

AutoML は、モデルのトレーニング プロセスの周りに自動化レイヤーを提供し、反復的なタスクの一部を処理できます。ハイパーパラメータの最適化、機能およびモデルの選択などのタスクを処理できます。 Tpot や AutoKeras などのライブラリ、およびほとんどのクラウド プロバイダーが提供するサービスとしての機械学習には、現在、AutoML がソリューションの一部として含まれています。

自動化の必要性が高まるにつれて、さまざまな部分を調整するためのツールの必要性も高まります。 Airflow、Kubeflow、MLFlow、MetaFlow などのワークフロー ツールは、これを実現するために使用される主要なツールの一部です。機械学習プロセス全体をパイプラインとして処理し、データ取得からモデル提供までのエンドツーエンドのプロセスを調整する役割を担います。

説明可能かつ再現可能なML

コンプライアンスと規制は、機械学習モデルの構築方法に影響を与えます。解釈可能かつ再現可能なモデルを推進します。

説明可能性の面では、データ サイエンティストがモデルから意味を引き出すのに役立つさまざまなツールが登場しています。これらのツールは、さまざまなシナリオを評価し、変数の相互作用を分析し、モデル予測の解釈に役立つダッシュボードを提供します。 whatiftools、Lime、Shap、または Manifold は、このチャレンジのためのツールです。

モデルをデバッグするための信頼性の高い方法を提供するという利点に加えて、複製可能性は規制によって影響を受けるもう 1 つの側面です。ワークフロー ツールを使用して再現可能な機械学習パイプラインを作成することは常に可能でしたが、プロセスを簡素化するための特定のツールもいくつか登場しました。

DVC、Dolt、Weight and Biases (WANDB)、Dags Hub は、繰り返し可能な方法でモデルを簡単に構築できる特殊なツールの一部です。 DVC はモデルとデータセットの両方のバージョン管理を担当しますが、Dolt はデータセット自体に厳密に制限されています。 WANDB と Dags Hub は、モデルの構築/トレーニングの重みと結果を追跡することに重点を置いています。

要約する

機械学習ツールは、いくつかの予測ライブラリと Jupyter ノートブックを活用することに制限されなくなりました。現在、データ サイエンスを実行するには、クラウド、ワークフロー ツール、解釈、バージョン管理ツールを含む、より広範なツールセットを習得する必要があります。これらの追加された最新ツールは、データ サイエンスがより多くのエンジニアリング機能やビジネス機能を担うのに役立つはずです。

<<:  フロスト&サリバンは、倉庫管理用の自律配送ロボットの市場が2025年までに272億ドルに達すると予測している。

>>:  垂直型AIスタートアップと水平型AIスタートアップ: 異なる製品ルートの選択

ブログ    
ブログ    
ブログ    

推薦する

AI+ビデオ分析: ユビキタスセキュリティリスクのリアルタイム監視

[[352986]] 2020 年の多くの運用上の課題を踏まえて、公益事業会社は、運用する物理的およ...

最新の3D GANは3次元の幾何学データを生成できます!モデル速度が7倍に向上

[[441513]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

「半導体第一の都市」上海、ついに半導体製造再開の夜明けを迎える

上海市経済情報化委員会は4月16日、「上海市工業企業の業務・生産再開に関する防疫対策ガイドライン(第...

企業が人工知能を応用する際に直面する課題

[[340820]] [51CTO.com クイック翻訳] 過去10年間、人工知能をめぐって大きな議...

人工知能は人材採用において利益よりも害をもたらす可能性がある

近年、企業が履歴書の解析や応募者の選考に自動評価、デジタル面接、データ分析を導入するようになり、採用...

滴滴出行副社長の葉潔平氏が辞任した。同氏は旅行大手のAI部門の責任者だった。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

上位 10 の古典的なソートアルゴリズムの JS バージョン

序文読者は自分で試してみることができます。ソースコードはここ (https://github.com...

マルチモーダル大規模モデル機能評価: Bard は必要なものですか?

ChatGPT に続いて、OpenAI のライブ ブロードキャストでは、視覚入力はまだ広く利用可能...

機械学習は金融自動化においてどのような役割を果たすのでしょうか?

金融やその他の分野における自動化は避けられません。しかし、金融サービスの自動化は、高いレベルの注意、...

...

CIOがAIのビジネスケースを作成する方法

近年、AI プロジェクトに対する組織の関心は着実に高まっています。調査会社ガートナーの調査によると、...

AIが悪になる危険性を排除する方法

AI テクノロジーを悪とみなす個人、政府、企業が増えるにつれ、AI が善良な存在であることを保証する...

データ構造とアルゴリズムの簡単な紹介

一般的なデータ構造にはどのようなものがありますか? 基本的な操作は何ですか? 一般的なソート アルゴ...

テスラ、マイクロソフト、グーグル、アップルなどを含む1,000件以上の「AIロールオーバー」事件が発生しています。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...