クラウドコンピューティング機械学習プラットフォームの選び方

クラウドコンピューティング機械学習プラットフォームの選び方

クラウド コンピューティング 機械学習プラットフォームは、機械学習のライフ サイクル全体をサポートするさまざまな機能を提供します。

[[338316]]

効果的な機械学習およびディープラーニング モデルを作成するには、組織は大量のデータを取得し、それに対して特徴エンジニアリングを実行し、妥当な時間内にそのデータに基づいてモデルをトレーニングする必要があります。組織は、モデルを展開し、時間の経過とともに変化するかどうかを監視し、必要に応じて再トレーニングする方法が必要になります。

組織がすでに GPU などのコンピューティング リソースやアクセラレータに投資している場合は、これらすべてを社内のインフラストラクチャで実行できますが、リソースが十分であるにもかかわらず、ほとんどの時間アイドル状態になっていることに気付く場合があります。一方、必要に応じて大量のコンピューティング リソースとアクセラレータを使用して、パイプライン全体をクラウドで実行し、その後それらを解放する方がコスト効率が高くなる場合があります。

主要なクラウド コンピューティング プロバイダー (およびその他のプロバイダー) は、プロジェクトの計画から実稼働モデルの維持まで、機械学習のライフサイクル全体をサポートするために、機械学習プラットフォームの構築に多大な労力を費やしてきました。組織は、どのクラウド プラットフォームが自社のニーズを満たすことができるかをどのように判断すればよいでしょうか? ここでは、すべてのエンドツーエンドの機械学習プラットフォームが提供すべき 12 の機能を紹介します。

1. 自分のデータに近づく

組織が正確なモデルを構築するために必要な大量のデータを持っている場合、そのデータを世界中に転送することは望ましくありません。ここで問題となるのは距離ではなく時間です。無制限の帯域幅を持つ完璧なネットワークであっても、データ転送速度は最終的には光速によって制限されます。距離が長いほど待ち時間も長くなります。

非常に大きなデータセットの場合、大量のデータを転送する必要がなくなり、データがすでに存在する場所にモデルを構築するのが理想的です。一部のデータベースはこれをある程度サポートしています。

次に最適なシナリオは、データがモデル構築ソフトウェアと同じ高速ネットワーク上にあることです。これは通常、同じデータ センター内にあることを意味します。 1 テラバイト以上のデータがある場合、クラウド アベイラビリティ ゾーン内のあるデータ センターから別のデータ センターにデータを移行するだけでも、大幅な遅延が発生する可能性があります。組織は増分更新を実行することでこれを軽減できます。

最悪のシナリオでは、組織は帯域幅が限られており、待ち時間が長いパスを介して大量のデータをリモートで移動する必要があります。この点において、オーストラリアがこの目的のために敷設した太平洋横断ケーブルの技術は驚くべきものです。

2. ETLまたはELTパイプラインのサポート

ETL (エクスポート、変換、ロード) と ELT (エクスポート、ロード、変換) は、データベースの世界では一般的な 2 つのデータ パイプライン構成です。機械学習とディープラーニングにより、このコンテンツ、特に変換部分の需要が拡大しました。多くの場合、ロード フェーズはビッグ データにとって最も時間のかかるフェーズであるため、ELT は、変換のニーズが変化したときに組織に高い柔軟性を提供します。

通常、未処理のデータにはノイズが多く含まれているため、フィルタリングする必要があります。さらに、データの範囲は異なります。ある変数の最大値は数百万に達する可能性がありますが、別の変数の範囲は -0.1 から -0.001 になる可能性があります。機械学習では、より広い範囲の変数がモデルを支配するのを防ぐために、変数を標準化された範囲に変換する必要があります。具体的な正規化範囲は、モデルで使用されるアルゴリズムによって異なります。

3. モデル構築のためのオンライン環境をサポート

従来、組織はモデル構築のためにデータをデスクトップに持ち込むべきだと考えられてきました。優れた機械学習およびディープラーニング モデルの構築には大量のデータが必要であり、状況は変わります。組織は探索的なデータ分析やモデル構築のために少量のサンプル データをデスクトップにダウンロードできますが、実稼働モデルの場合は完全なモデル データにアクセスする必要があります。

Jupyter Notebooks、JupyterLab、Apache Zeppelin などの Web ベースの開発環境は、モデルの構築に適しています。データがラップトップ環境と同じクラウドにある場合は、データを分析してデータの移動にかかる時間を最小限に抑えることができます。

4. 長期トレーニングのサポート

モデルのトレーニングを除けば、ラップトップ バッテリーのコンピューティングとメモリの要件は通常小さくなります。ノートブックが複数の大規模な VM またはコンテナで実行されるトレーニング ジョブを生成できれば便利です。また、トレーニングで GPU、TPU、FPGA などのアクセラレータにアクセスできると役立ちます。これらのモデルにより、数日かかるトレーニングを数時間に短縮できます。

5. AutoMLと自動特徴エンジニアリングをサポート

すべての組織が、機械学習モデルの選択、機能(モデルで使用される変数)の選択、生の観察結果からの新しい機能の設計に長けているわけではありません。たとえ組織がこれらのタスクに長けていたとしても、時間がかかり、大部分は自動化できます。

AutoML システムは、回帰問題の最小二乗誤差など、どのモデルが最適な目的関数値を生成するかを確認するために、多くのモデルを試すことがよくあります。優れた AutoML システムは、特徴エンジニアリングを実行し、リソースを効率的に使用して、可能な限り最大の特徴セットを備えた高品質のモデルを実現することもできます。

6. 高品質な機械学習とディープラーニングフレームワークをサポート

ほとんどのデータ サイエンティストは、機械学習やディープラーニング技術用のお気に入りのフレームワークとプログラミング言語を持っています。 Python が好きな人にとって、機械学習では Scikit-learn が好まれるのが一般的ですが、ディープラーニングでは TensorFlow、PyTorch、Keras、MXNet が第一の選択肢となるのが一般的です。 Scala では、Spark MLlib が機械学習の第一選択肢となることがよくあります。 R には、ネイティブの機械学習パッケージが多数あり、Python との優れたインターフェースもあります。 Java では、H2O.ai が高く評価され、Java-ML や Deep Java Library も同様に評価されました。

クラウド マシン ラーニングおよびディープラーニング プラットフォームには独自のアルゴリズムのコレクションがある傾向があり、通常は少なくとも 1 つの言語で、または特定のエントリ ポイントを持つコンテナーとして外部フレームワークをサポートします。場合によっては、組織は独自のアルゴリズムと統計手法をプラットフォームの AutoML 機能と統合することができ、非常に便利です。

一部のクラウド プラットフォームでは、主要なディープラーニング フレームワークの独自の調整バージョンも提供しています。たとえば、AWS には TensorFlow の最適化バージョンがあり、同社によれば、ディープ ニューラル ネットワークのトレーニングにほぼ線形のスケーラビリティを提供できるとのことです。

7. 事前学習済みモデルを提供し転移学習をサポートする

誰もが独自のモデルをトレーニングするために時間とリソースを費やしたいわけではありませんし、事前トレーニング済みのモデルが利用できる場合でもそうすべきではありません。たとえば、ImageNet データセットは巨大であり、最先端のディープ ニューラル ネットワークをトレーニングするには数週間かかる可能性があるため、可能な場合は事前にトレーニングされたモデルを使用するのが理にかなっています。

一方、事前トレーニング済みのモデルでは、組織が重視するオブジェクトを必ずしも識別できるとは限りません。転移学習により、組織はネットワーク全体のトレーニングに時間と費用をかけずに、特定のデータセットに合わせてニューラル ネットワークの最後の数層をカスタマイズできるようになります。

8. 最適化された人工知能サービスを提供する

主要なクラウド プラットフォームは、画像認識だけでなく、多くのアプリケーション向けに強力で最適化された AI サービスを提供しています。例としては、言語翻訳、音声テキスト変換、テキスト音声変換、予測、推奨などが挙げられます。

これらのサービスは、企業が通常利用できる量を超える量のデータを使用してトレーニングおよびテストされています。また、グローバル負荷下でも良好な応答時間を確保するために、十分なコンピューティング リソース (アクセラレータを含む) を備えたサービス エンドポイントにも導入されています。

9. 実験を管理する

組織のデータセットに適したモデルを見つける唯一の方法は、手動と AutoML の両方を使用して、すべてのアプローチを試すことです。そうなると、実験の管理という別の問題が残ります。

優れたクラウド機械学習プラットフォームは、組織が各実験(トレーニング セットとテスト データ)の目的関数値、およびモデルと混同行列のサイズを表示および比較する方法を提供します。そして、これらすべてを図表化できることには、一定の利点があります。

10. 予測のためのモデル展開のサポート

組織が自らの条件に最適な実験を選択する方法を手に入れたら、モデルを簡単に展開する方法が必要になります。同じ目的で複数のモデルを展開する場合は、A/B テストのためにモデル間でトラフィックを分散する方法も必要です。

11. 予測結果を監視する

世界が変化するとデータも変化します。つまり、組織はモデルを導入してそれを忘れることはできません。代わりに、組織は予測のために送信されたデータを監視する必要があります。データが元のトレーニング データセットのベースラインから大幅に変更された場合、組織はモデルを再トレーニングする必要があります。

12. コストを管理する

最後に、組織はモデルによって発生するコストを制御する何らかの方法を必要とします。通常、実稼働推論用のモデルの導入はディープラーニングのコスト全体の 90% を占めますが、トレーニングはコスト全体の 10% しか占めません。

予測コストを制御するための最適なアプローチは、組織の作業負荷とモデルの複雑さによって異なります。負荷が高い場合は、アクセラレータを使用して、仮想マシン インスタンスの追加を回避できます。負荷が変動する場合、組織は負荷の増加または減少に応じてインスタンスまたはコンテナのサイズや数を動的に変更できる可能性があります。また、組織の負荷が少ない場合は、いくつかのアクセラレータを備えた非常に小さなインスタンスを使用して予測を処理することもできます。

<<:  オタクなおじさんが独学でAIを学んでマスターレベルを作成し、Twitterで人気になった

>>:  Ascend Academy 上海テクノロジー オープン デーは大好評を博し、開発者たちは AI の新時代に向けて Ascend と手を組むことを決意しました。

ブログ    
ブログ    
ブログ    

推薦する

テクノロジー企業史上初:MetaがGPT3パラメータサイズのAIモデルをオープンソース化

テキスト段落の生成、人間の会話のシミュレーション、数学の問題の解決において驚くほど優れたパフォーマン...

あなたの顔、5セント

1 「急に悲しくなりました。私のハンサムな顔の価値はたったの50セントだったんです!」昨日、あるニュ...

Python で KNN アルゴリズムを使用して欠損データを処理する

欠損データの処理は簡単な作業ではありません。 方法は、単純な平均補完や観察結果の完全な削除から、MI...

8,500 万の仕事が失われる。労働者はどうやって仕事を維持できるのか?

2020年初頭、突如発生した疫病により、多くの工場が「人手が足りない」状況に直面した。しかし、ロボ...

人工知能について知っておくべき4つのこと!

1950 年代以来、コンピューター科学者は人間の知能を模倣するプログラムの開発に取り組んできました...

...

OM5ファイバー:人工知能の時代を強力にサポート

進化し続けるテクノロジーの世界において、OM5 光ファイバー ケーブルは革新的なソリューションとして...

中国の人工知能産業における4つの大きなトレンド

人工知能は新たな産業変革の中核的な原動力であり、これまでの科学技術革命と産業変革によって蓄積された膨...

LinkedIn が Dagli をオープンソース化し、Java 機械学習ライブラリをリリース

近年では、大規模データ向けのTensorFlow、PyTorch、Caffee、CNTK、Spark...

サイバーセキュリティにおける人工知能の利用を妨げる5つの障壁

外資系サイバーセキュリティ企業サイランスは、人工知能(AI)アプリケーションの導入を阻む2つの主な障...

Xing Bo 氏のチームの LLM360 は、大規模なモデルを真に透明化する総合的なオープンソース プロジェクトです。

オープンソース モデルは、数だけでなくパフォーマンスも増加しており、活発な活力を示しています。チュー...

...

Stack Overflow が ChatGPT に対抗し、VS Code と連携する独自開発の生成 AI ツールをリリース

数日前、Stack Overflow コミュニティのトラフィックが大幅に減少したというニュースがあり...

セキュリティとインテリジェンス: 銀行における IoT の導入と応用

人工知能 (AI) 対応ソリューションの機能からスマート デバイスによるモビリティの向上まで、コネク...

解釈可能な機械学習のための Python ライブラリ

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...