クラウドコンピューティング機械学習プラットフォームの選び方

クラウドコンピューティング機械学習プラットフォームは、機械学習のライフサイクル全体をサポートするさまざまな機能を提供します。

[[338316]]

効果的な機械学習およびディープラーニングモデルを作成するには、組織は大量のデータを取得し、それに対して特徴エンジニアリングを実行し、妥当な時間内にそのデータに基づいてモデルをトレーニングする必要があります。組織は、モデルを展開し、時間の経過とともに変化するかどうかを監視し、必要に応じて再トレーニングする方法が必要になります。

組織がすでに GPU などのコンピューティングリソースやアクセラレータに投資している場合は、これらすべてを社内のインフラストラクチャで実行できますが、リソースが十分であるにもかかわらず、ほとんどの時間アイドル状態になっていることに気付く場合があります。一方、必要に応じて大量のコンピューティングリソースとアクセラレータを使用して、パイプライン全体をクラウドで実行し、その後それらを解放する方がコスト効率が高くなる場合があります。

主要なクラウドコンピューティングプロバイダー (およびその他のプロバイダー) は、プロジェクトの計画から実稼働モデルの維持まで、機械学習のライフサイクル全体をサポートするために、機械学習プラットフォームの構築に多大な労力を費やしてきました。組織は、どのクラウドプラットフォームが自社のニーズを満たすことができるかをどのように判断すればよいでしょうか? ここでは、すべてのエンドツーエンドの機械学習プラットフォームが提供すべき 12 の機能を紹介します。

1. 自分のデータに近づく

組織が正確なモデルを構築するために必要な大量のデータを持っている場合、そのデータを世界中に転送することは望ましくありません。ここで問題となるのは距離ではなく時間です。無制限の帯域幅を持つ完璧なネットワークであっても、データ転送速度は最終的には光速によって制限されます。距離が長いほど待ち時間も長くなります。

非常に大きなデータセットの場合、大量のデータを転送する必要がなくなり、データがすでに存在する場所にモデルを構築するのが理想的です。一部のデータベースはこれをある程度サポートしています。

次に最適なシナリオは、データがモデル構築ソフトウェアと同じ高速ネットワーク上にあることです。これは通常、同じデータセンター内にあることを意味します。 1 テラバイト以上のデータがある場合、クラウドアベイラビリティゾーン内のあるデータセンターから別のデータセンターにデータを移行するだけでも、大幅な遅延が発生する可能性があります。組織は増分更新を実行することでこれを軽減できます。

最悪のシナリオでは、組織は帯域幅が限られており、待ち時間が長いパスを介して大量のデータをリモートで移動する必要があります。この点において、オーストラリアがこの目的のために敷設した太平洋横断ケーブルの技術は驚くべきものです。

2. ETLまたはELTパイプラインのサポート

ETL (エクスポート、変換、ロード) と ELT (エクスポート、ロード、変換) は、データベースの世界では一般的な 2 つのデータパイプライン構成です。機械学習とディープラーニングにより、このコンテンツ、特に変換部分の需要が拡大しました。多くの場合、ロードフェーズはビッグデータにとって最も時間のかかるフェーズであるため、ELT は、変換のニーズが変化したときに組織に高い柔軟性を提供します。

通常、未処理のデータにはノイズが多く含まれているため、フィルタリングする必要があります。さらに、データの範囲は異なります。ある変数の最大値は数百万に達する可能性がありますが、別の変数の範囲は -0.1 から -0.001 になる可能性があります。機械学習では、より広い範囲の変数がモデルを支配するのを防ぐために、変数を標準化された範囲に変換する必要があります。具体的な正規化範囲は、モデルで使用されるアルゴリズムによって異なります。

3. モデル構築のためのオンライン環境をサポート

従来、組織はモデル構築のためにデータをデスクトップに持ち込むべきだと考えられてきました。優れた機械学習およびディープラーニングモデルの構築には大量のデータが必要であり、状況は変わります。組織は探索的なデータ分析やモデル構築のために少量のサンプルデータをデスクトップにダウンロードできますが、実稼働モデルの場合は完全なモデルデータにアクセスする必要があります。

Jupyter Notebooks、JupyterLab、Apache Zeppelin などの Web ベースの開発環境は、モデルの構築に適しています。データがラップトップ環境と同じクラウドにある場合は、データを分析してデータの移動にかかる時間を最小限に抑えることができます。

4. 長期トレーニングのサポート

モデルのトレーニングを除けば、ラップトップバッテリーのコンピューティングとメモリの要件は通常小さくなります。ノートブックが複数の大規模な VM またはコンテナで実行されるトレーニングジョブを生成できれば便利です。また、トレーニングで GPU、TPU、FPGA などのアクセラレータにアクセスできると役立ちます。これらのモデルにより、数日かかるトレーニングを数時間に短縮できます。

5. AutoMLと自動特徴エンジニアリングをサポート

すべての組織が、機械学習モデルの選択、機能（モデルで使用される変数）の選択、生の観察結果からの新しい機能の設計に長けているわけではありません。たとえ組織がこれらのタスクに長けていたとしても、時間がかかり、大部分は自動化できます。

AutoML システムは、回帰問題の最小二乗誤差など、どのモデルが最適な目的関数値を生成するかを確認するために、多くのモデルを試すことがよくあります。優れた AutoML システムは、特徴エンジニアリングを実行し、リソースを効率的に使用して、可能な限り最大の特徴セットを備えた高品質のモデルを実現することもできます。

6. 高品質な機械学習とディープラーニングフレームワークをサポート

ほとんどのデータサイエンティストは、機械学習やディープラーニング技術用のお気に入りのフレームワークとプログラミング言語を持っています。 Python が好きな人にとって、機械学習では Scikit-learn が好まれるのが一般的ですが、ディープラーニングでは TensorFlow、PyTorch、Keras、MXNet が第一の選択肢となるのが一般的です。 Scala では、Spark MLlib が機械学習の第一選択肢となることがよくあります。 R には、ネイティブの機械学習パッケージが多数あり、Python との優れたインターフェースもあります。 Java では、H2O.ai が高く評価され、Java-ML や Deep Java Library も同様に評価されました。

クラウドマシンラーニングおよびディープラーニングプラットフォームには独自のアルゴリズムのコレクションがある傾向があり、通常は少なくとも 1 つの言語で、または特定のエントリポイントを持つコンテナーとして外部フレームワークをサポートします。場合によっては、組織は独自のアルゴリズムと統計手法をプラットフォームの AutoML 機能と統合することができ、非常に便利です。

一部のクラウドプラットフォームでは、主要なディープラーニングフレームワークの独自の調整バージョンも提供しています。たとえば、AWS には TensorFlow の最適化バージョンがあり、同社によれば、ディープニューラルネットワークのトレーニングにほぼ線形のスケーラビリティを提供できるとのことです。

7. 事前学習済みモデルを提供し転移学習をサポートする

誰もが独自のモデルをトレーニングするために時間とリソースを費やしたいわけではありませんし、事前トレーニング済みのモデルが利用できる場合でもそうすべきではありません。たとえば、ImageNet データセットは巨大であり、最先端のディープニューラルネットワークをトレーニングするには数週間かかる可能性があるため、可能な場合は事前にトレーニングされたモデルを使用するのが理にかなっています。

一方、事前トレーニング済みのモデルでは、組織が重視するオブジェクトを必ずしも識別できるとは限りません。転移学習により、組織はネットワーク全体のトレーニングに時間と費用をかけずに、特定のデータセットに合わせてニューラルネットワークの最後の数層をカスタマイズできるようになります。

8. 最適化された人工知能サービスを提供する

主要なクラウドプラットフォームは、画像認識だけでなく、多くのアプリケーション向けに強力で最適化された AI サービスを提供しています。例としては、言語翻訳、音声テキスト変換、テキスト音声変換、予測、推奨などが挙げられます。

これらのサービスは、企業が通常利用できる量を超える量のデータを使用してトレーニングおよびテストされています。また、グローバル負荷下でも良好な応答時間を確保するために、十分なコンピューティングリソース (アクセラレータを含む) を備えたサービスエンドポイントにも導入されています。

9. 実験を管理する

組織のデータセットに適したモデルを見つける唯一の方法は、手動と AutoML の両方を使用して、すべてのアプローチを試すことです。そうなると、実験の管理という別の問題が残ります。

優れたクラウド機械学習プラットフォームは、組織が各実験（トレーニングセットとテストデータ）の目的関数値、およびモデルと混同行列のサイズを表示および比較する方法を提供します。そして、これらすべてを図表化できることには、一定の利点があります。

10. 予測のためのモデル展開のサポート

組織が自らの条件に最適な実験を選択する方法を手に入れたら、モデルを簡単に展開する方法が必要になります。同じ目的で複数のモデルを展開する場合は、A/B テストのためにモデル間でトラフィックを分散する方法も必要です。

11. 予測結果を監視する

世界が変化するとデータも変化します。つまり、組織はモデルを導入してそれを忘れることはできません。代わりに、組織は予測のために送信されたデータを監視する必要があります。データが元のトレーニングデータセットのベースラインから大幅に変更された場合、組織はモデルを再トレーニングする必要があります。

12. コストを管理する

最後に、組織はモデルによって発生するコストを制御する何らかの方法を必要とします。通常、実稼働推論用のモデルの導入はディープラーニングのコスト全体の 90% を占めますが、トレーニングはコスト全体の 10% しか占めません。

予測コストを制御するための最適なアプローチは、組織の作業負荷とモデルの複雑さによって異なります。負荷が高い場合は、アクセラレータを使用して、仮想マシンインスタンスの追加を回避できます。負荷が変動する場合、組織は負荷の増加または減少に応じてインスタンスまたはコンテナのサイズや数を動的に変更できる可能性があります。また、組織の負荷が少ない場合は、いくつかのアクセラレータを備えた非常に小さなインスタンスを使用して予測を処理することもできます。

<<: オタクなおじさんが独学でAIを学んでマスターレベルを作成し、Twitterで人気になった

>>: Ascend Academy 上海テクノロジーオープンデーは大好評を博し、開発者たちは AI の新時代に向けて Ascend と手を組むことを決意しました。