機械学習のバックボーン: モデル構築のためのインフラストラクチャツールは何ですか?

この記事は公開アカウント「Reading Core Technique」（ID: AI_Discovery）から転載したものです。

人工知能（AI）と機械学習（ML）はすでにあらゆる分野に「浸透」しており、企業は機械学習インフラストラクチャプラットフォームを通じてビジネスにおける人工知能の活用を促進することを期待しています。

[[328978]]

さまざまなプラットフォームや製品を理解するのは難しい場合があります。機械学習インフラストラクチャの領域は混雑しており、乱雑で、複雑です。多くのプラットフォームとツールは、モデル構築ワークフロー全体にわたって複数の機能をカバーしています。

エコシステムを理解するために、機械学習のワークフローをデータ準備、モデル構築、および制作の 3 つの段階に大まかに分けることができます。ワークフローの各段階での目標と課題を理解することで、企業のビジネスニーズに最適な機械学習インフラストラクチャプラットフォームを正しく選択できるようになります。

機械学習インフラストラクチャプラットフォーム図

機械学習ワークフローの各主要段階には、多くの垂直機能があります。これらの機能の一部は、より大規模なエンドツーエンドのプラットフォームの一部ですが、その他の機能は特定のプラットフォームの主な焦点となっています。

この記事では、機械学習の第 2 段階であるモデル構築について説明します。

モデル構築とは何ですか?

モデル構築の最初のステップは、ビジネス要件を理解することから始まります。モデルではどのようなビジネス要件に対処する必要がありますか?

このステップは、機械学習ワークフローの計画およびアイデア創出フェーズ中に実行されます。このフェーズでは、ソフトウェア開発ライフサイクルと同様に、データサイエンティストが要件を収集し、実現可能性を検討し、データの準備、モデルの構築、および生成の計画を策定します。彼らはまた、計画段階で検討されたさまざまなモデル構築実験を検討するためにデータを使用しました。

機械学習インフラストラクチャプラットフォーム図

機能の探索と選択

この実験プロセスの一環として、データサイエンティストはさまざまなデータ入力オプションを検討して機能を選択します。特徴選択とは、機械学習モデルへの入力として特徴を見つけるプロセスです。

新しいモデルの場合、利用可能なデータ入力、入力の重要性、およびさまざまな機能間の関係を理解するのは、長いプロセスになる可能性があります。ここでは、より解釈可能なモデル、トレーニング時間の短縮、機能取得のコスト、過剰適合の緩和など、多くの決定を下すことができます。適切かつ適切な機能を見つけることは、継続的な反復プロセスです。

特徴抽出における機械学習インフラストラクチャ企業には、Alteryx/Feature Lab、Paxata (DataRobot) などがあります。

モデル管理

データサイエンティストはさまざまなモデリングアプローチを試すことができます。特定のタスクでは、一部のタイプのモデルが他のモデルよりも適しています (たとえば、ツリーベースのモデルの方が解釈しやすい)。

アイデア創出フェーズの一部として、モデルが教師ありモデル、教師なしモデル、分類モデル、回帰モデルなどであるかどうかは明らかです。ただし、モデリングアプローチ、ハイパーパラメータ、および機能の選択は実験によって異なります。

一部の自動機械学習 (AutoML) プラットフォームでは、さまざまなパラメータを使用してさまざまなモデルを試行し、ベースラインアプローチを確立するのに役立ちます。手動で行う場合でも、さまざまなオプションを検討することで、モデル作成者はモデルの解釈可能性に関する洞察を得ることができます。

実験の追跡

さまざまなタイプのモデルには多くの利点とトレードオフがありますが、一般的に言えば、この段階では多くの実験が必要になります。多くのプラットフォームでは、これらの実験、モデリングの依存関係、およびモデルストレージを追跡できます。これらの機能は、大まかにモデル管理に分類できます。

一部のプラットフォームは、主に実験の追跡に重点を置いています。トレーニングまたはサービングコンポーネントを持つ他の企業の中には、さまざまなモデルのパフォーマンスを比較したり、トレーニング/テストデータセットを追跡したり、ハイパーパラメータを調整および最適化したり、評価メトリックを保存したり、詳細な系統とバージョン管理を有効にしたりするためのモデル管理コンポーネントを備えているところもあります。

ソフトウェアの Github と同様に、これらのモデル管理プラットフォームは、バージョン管理、履歴の系統、再現性を可能にする必要があります。

さまざまなモデル管理プラットフォーム間のトレードオフは、統合のコストです。より軽量なプラットフォームの中には、実験の追跡のみを提供するものもありますが、現在の環境に簡単に統合して、データサイエンスノートブックにインポートできます。他のプラットフォームでは、より高度な統合が必要であり、モデルビルダーは集中型のモデル管理のためにそのプラットフォームに移行する必要があります。

機械学習ワークフローのこの段階では、データサイエンティストは通常、ノートブックでモデルを構築およびトレーニングし、モデルの重みをモデルリポジトリに保存し、検証セットでモデルの結果を評価するために時間を費やします。

この段階では、トレーニングに必要なコンピューティングリソースを提供するプラットフォームが多数存在します。モデルには、チームがモデルオブジェクトを保存する方法に応じて、さまざまな保存オプションもあります。

機械学習インフラストラクチャ AutoML: H20、SageMaker、DataRobot、Google Cloud ML、MicrosoftML
モデル管理のための機械学習インフラストラクチャ企業: Domino Data Labs、SageMaker
ハイパーパラメータオプションの機械学習インフラストラクチャ企業: Sigopt、Weightsand Biases、SageMaker
実験追跡のための機械学習インフラストラクチャ企業: Weights and Biases、Comet ML、MLFlow、Domino、Tensorboard

モデル評価

選択された機能を含むトレーニングデータセットで実験モデルをトレーニングしたら、テストセットで評価できます。

このフェーズでは、データサイエンティストはモデルのパフォーマンスと改善が必要な箇所を理解しようとします。より高度な機械学習チームの中には、履歴データを活用してモデルのパフォーマンスを評価できる自動化されたバックテストフレームワークを備えているところもあります。

各実験では、ベースラインモデルのパフォーマンスを上回るか超えることを試み、計算コスト、解釈可能性、一般化可能性の間のトレードオフを考慮します。より規制の厳しい業界では、この評価プロセスに、モデルの再現性、パフォーマンス、要件を保証するために外部監査人が実施するコンプライアンスと監査も含まれる場合があります。

モデル評価のための機械学習インフラストラクチャツール/フレームワーク: Fiddler AI、Tensorboard、Stealth Startups
パイロット生産検証のための機械学習インフラストラクチャ: Fiddler AI、ArizeAI

上記のすべてのタスクを管理するプラットフォーム

AutoML またはモデル構築中心の企業の多くは、すべてを処理するために 1 つのプラットフォームのみを選択します。その結果、DataRobot、H20、SageMaker など、多くのプラットフォームが、企業がデータの準備、モデルの構築、および制作に使用する唯一の AI プラットフォームとなることを目指して競争しています。

コレクションは、ローコードソリューションと開発者中心のソリューションに分かれています。 Datarobot は、ビジネスインテリジェンス (BI) チームや財務チームがデータサイエンスプロジェクトに取り組めるようにするノーコード/ローコードオプションに重点を置いているようです。

これは、データサイエンティストや開発者中心のチームなど、今日のより一般的なデータサイエンス組織のニーズに対応していると思われる SageMaker や H20 などの企業とはまったく対照的です。

どちらの場合も市場は大きく、共存可能ですが、すべての機械学習インフラストラクチャ企業が同じ人やチームに販売しているわけではないことに注意する必要があります。

この分野に最近参入した企業の多くは、機械学習インフラストラクチャの食物連鎖の特定の部分に対する優れたソリューションとして見ることができます。良い類似例はソフトウェアエンジニアリングの分野です。GitHub、統合開発環境 (IDE)、運用監視などのソフトウェアソリューションは、すべて同じエンドツーエンドのシステムではありません。

これらが異なるソフトウェアであることは事実ですが、提供する機能が大きく異なり、明確な違いがあります。

チャレンジ

ソフトウェア開発と並行して、モデルのトレーニングに使用されたデータのバージョン管理が不十分なため、モデルの再現性が課題となることがよくあります。

モデルのパフォーマンスを理解するには多くの課題があります。実験を比較して、どのモデルバージョンがパフォーマンスとトレードオフの最適なバランスであるかをどのように判断しますか? わずかに劣るモデルは妥協点ですが、解釈が容易になります。一部のデータサイエンティストは、組み込みのモデル解釈機能を使用したり、SHAP/LIME を使用して機能の重要性を調査したりします。

もう 1 つのパフォーマンス上の課題は、実験段階でのモデルのパフォーマンスが現実世界にどのように反映されるかわからないことです。

これは、トレーニングデータセット内のデータが、モデルが本番環境で目にする可能性のあるデータの代表的な分布であることを保証し、トレーニングデータセットへの過剰適合を防ぐことで、大幅に軽減できます。ここで、クロス検証とバックテストのフレームワークが役立ちます。

その後何が起こりましたか?

データサイエンティストにとって、モデルをいつ本番環境に導入するかの基準を決定することは重要です。既存のモデルが本番環境にデプロイされている場合は、新しいバージョンのパフォーマンスが向上する可能性があります。いずれにせよ、実験を現実世界の設定に移行するには、標準を設定することが重要です。

モデルがトレーニングされると、モデルの画像/重みがモデルリポジトリに保存されます。この時点で、モデルを本番環境にデプロイする責任を持つデータサイエンティストまたはエンジニアは通常、モデルを取得してサービスに使用できます。

一部のプラットフォームでは、デプロイメントがさらに簡単になり、外部サービスが呼び出すことができる REST API を使用して、デプロイされたモデルを構成できます。

<<: Python 向け 5 つの強化学習フレームワーク

>>: ポストエピデミック時代の8つの主要な技術開発トレンド

機械学習のバックボーン: モデル構築のためのインフラストラクチャツールは何ですか?

OpenAI とオープンソースの多言語埋め込みモデル、どちらを選びますか?

【文字列処理アルゴリズム】文字列包含アルゴリズムの設計とCコード実装

ファッション業界に人工知能を応用するには、もう少し想像力が必要かもしれない

ビデオチャットでも顔を偽ることはできますか？恐ろしい AI 顔交換ソフトウェアを詳しく見る

ロボットと人間：その組み合わせが産業オートメーションの様相を変える可能性

AIの次の目的地はどこでしょうか?

滴滴出行とスタンフォード人工知能研究所が協力

Nature 誌に「室温超伝導体は科学をどう変えるのか？」という記事が掲載されました。

アルゴリズムは AI の進歩の原動力となることができるでしょうか?

推薦する

冷たい水の入った洗面器！ FDAはロボット手術はまだそれほど信頼できないと警告

機械学習トレーニングデータ戦略を開発するための 6 つのヒント

誰でも使えるディープラーニング: 3 つの主要な自動化ディープラーニングプラットフォームの紹介

機械学習は金融自動化においてどのような役割を果たすのでしょうか?

春節祭でロボットが書道を行う。書道家は職を失うことになるのか？

グーグル、規制当局の措置を受けてEUでのチャットボット「バード」のリリースを一時停止

人工知能と創造性：人間と機械の境界線が曖昧になる

「システムアーキテクチャ」マイクロサービスサービス劣化

AIが高度な数学の問題を生成し、新たな難易度に到達：MITは問題を生成し、質問に答え、採点できるアルゴリズムモデルを提案

NLP フィールドインデックスツール、3000 以上のコードベース、論文や GitHub ライブラリのワンクリック検索

AI時代に従業員がIT業務の価値を証明する方法