クラウドコンピューティング機械学習プラットフォームの選び方

クラウドコンピューティング機械学習プラットフォームの選び方

クラウド コンピューティング 機械学習プラットフォームは、機械学習のライフ サイクル全体をサポートするさまざまな機能を提供します。

[[338316]]

効果的な機械学習およびディープラーニング モデルを作成するには、組織は大量のデータを取得し、それに対して特徴エンジニアリングを実行し、妥当な時間内にそのデータに基づいてモデルをトレーニングする必要があります。組織は、モデルを展開し、時間の経過とともに変化するかどうかを監視し、必要に応じて再トレーニングする方法が必要になります。

組織がすでに GPU などのコンピューティング リソースやアクセラレータに投資している場合は、これらすべてを社内のインフラストラクチャで実行できますが、リソースが十分であるにもかかわらず、ほとんどの時間アイドル状態になっていることに気付く場合があります。一方、必要に応じて大量のコンピューティング リソースとアクセラレータを使用して、パイプライン全体をクラウドで実行し、その後それらを解放する方がコスト効率が高くなる場合があります。

主要なクラウド コンピューティング プロバイダー (およびその他のプロバイダー) は、プロジェクトの計画から実稼働モデルの維持まで、機械学習のライフサイクル全体をサポートするために、機械学習プラットフォームの構築に多大な労力を費やしてきました。組織は、どのクラウド プラットフォームが自社のニーズを満たすことができるかをどのように判断すればよいでしょうか? ここでは、すべてのエンドツーエンドの機械学習プラットフォームが提供すべき 12 の機能を紹介します。

1. 自分のデータに近づく

組織が正確なモデルを構築するために必要な大量のデータを持っている場合、そのデータを世界中に転送することは望ましくありません。ここで問題となるのは距離ではなく時間です。無制限の帯域幅を持つ完璧なネットワークであっても、データ転送速度は最終的には光速によって制限されます。距離が長いほど待ち時間も長くなります。

非常に大きなデータセットの場合、大量のデータを転送する必要がなくなり、データがすでに存在する場所にモデルを構築するのが理想的です。一部のデータベースはこれをある程度サポートしています。

次に最適なシナリオは、データがモデル構築ソフトウェアと同じ高速ネットワーク上にあることです。これは通常、同じデータ センター内にあることを意味します。 1 テラバイト以上のデータがある場合、クラウド アベイラビリティ ゾーン内のあるデータ センターから別のデータ センターにデータを移行するだけでも、大幅な遅延が発生する可能性があります。組織は増分更新を実行することでこれを軽減できます。

最悪のシナリオでは、組織は帯域幅が限られており、待ち時間が長いパスを介して大量のデータをリモートで移動する必要があります。この点において、オーストラリアがこの目的のために敷設した太平洋横断ケーブルの技術は驚くべきものです。

2. ETLまたはELTパイプラインのサポート

ETL (エクスポート、変換、ロード) と ELT (エクスポート、ロード、変換) は、データベースの世界では一般的な 2 つのデータ パイプライン構成です。機械学習とディープラーニングにより、このコンテンツ、特に変換部分の需要が拡大しました。多くの場合、ロード フェーズはビッグ データにとって最も時間のかかるフェーズであるため、ELT は、変換のニーズが変化したときに組織に高い柔軟性を提供します。

通常、未処理のデータにはノイズが多く含まれているため、フィルタリングする必要があります。さらに、データの範囲は異なります。ある変数の最大値は数百万に達する可能性がありますが、別の変数の範囲は -0.1 から -0.001 になる可能性があります。機械学習では、より広い範囲の変数がモデルを支配するのを防ぐために、変数を標準化された範囲に変換する必要があります。具体的な正規化範囲は、モデルで使用されるアルゴリズムによって異なります。

3. モデル構築のためのオンライン環境をサポート

従来、組織はモデル構築のためにデータをデスクトップに持ち込むべきだと考えられてきました。優れた機械学習およびディープラーニング モデルの構築には大量のデータが必要であり、状況は変わります。組織は探索的なデータ分析やモデル構築のために少量のサンプル データをデスクトップにダウンロードできますが、実稼働モデルの場合は完全なモデル データにアクセスする必要があります。

Jupyter Notebooks、JupyterLab、Apache Zeppelin などの Web ベースの開発環境は、モデルの構築に適しています。データがラップトップ環境と同じクラウドにある場合は、データを分析してデータの移動にかかる時間を最小限に抑えることができます。

4. 長期トレーニングのサポート

モデルのトレーニングを除けば、ラップトップ バッテリーのコンピューティングとメモリの要件は通常小さくなります。ノートブックが複数の大規模な VM またはコンテナで実行されるトレーニング ジョブを生成できれば便利です。また、トレーニングで GPU、TPU、FPGA などのアクセラレータにアクセスできると役立ちます。これらのモデルにより、数日かかるトレーニングを数時間に短縮できます。

5. AutoMLと自動特徴エンジニアリングをサポート

すべての組織が、機械学習モデルの選択、機能(モデルで使用される変数)の選択、生の観察結果からの新しい機能の設計に長けているわけではありません。たとえ組織がこれらのタスクに長けていたとしても、時間がかかり、大部分は自動化できます。

AutoML システムは、回帰問題の最小二乗誤差など、どのモデルが最適な目的関数値を生成するかを確認するために、多くのモデルを試すことがよくあります。優れた AutoML システムは、特徴エンジニアリングを実行し、リソースを効率的に使用して、可能な限り最大の特徴セットを備えた高品質のモデルを実現することもできます。

6. 高品質な機械学習とディープラーニングフレームワークをサポート

ほとんどのデータ サイエンティストは、機械学習やディープラーニング技術用のお気に入りのフレームワークとプログラミング言語を持っています。 Python が好きな人にとって、機械学習では Scikit-learn が好まれるのが一般的ですが、ディープラーニングでは TensorFlow、PyTorch、Keras、MXNet が第一の選択肢となるのが一般的です。 Scala では、Spark MLlib が機械学習の第一選択肢となることがよくあります。 R には、ネイティブの機械学習パッケージが多数あり、Python との優れたインターフェースもあります。 Java では、H2O.ai が高く評価され、Java-ML や Deep Java Library も同様に評価されました。

クラウド マシン ラーニングおよびディープラーニング プラットフォームには独自のアルゴリズムのコレクションがある傾向があり、通常は少なくとも 1 つの言語で、または特定のエントリ ポイントを持つコンテナーとして外部フレームワークをサポートします。場合によっては、組織は独自のアルゴリズムと統計手法をプラットフォームの AutoML 機能と統合することができ、非常に便利です。

一部のクラウド プラットフォームでは、主要なディープラーニング フレームワークの独自の調整バージョンも提供しています。たとえば、AWS には TensorFlow の最適化バージョンがあり、同社によれば、ディープ ニューラル ネットワークのトレーニングにほぼ線形のスケーラビリティを提供できるとのことです。

7. 事前学習済みモデルを提供し転移学習をサポートする

誰もが独自のモデルをトレーニングするために時間とリソースを費やしたいわけではありませんし、事前トレーニング済みのモデルが利用できる場合でもそうすべきではありません。たとえば、ImageNet データセットは巨大であり、最先端のディープ ニューラル ネットワークをトレーニングするには数週間かかる可能性があるため、可能な場合は事前にトレーニングされたモデルを使用するのが理にかなっています。

一方、事前トレーニング済みのモデルでは、組織が重視するオブジェクトを必ずしも識別できるとは限りません。転移学習により、組織はネットワーク全体のトレーニングに時間と費用をかけずに、特定のデータセットに合わせてニューラル ネットワークの最後の数層をカスタマイズできるようになります。

8. 最適化された人工知能サービスを提供する

主要なクラウド プラットフォームは、画像認識だけでなく、多くのアプリケーション向けに強力で最適化された AI サービスを提供しています。例としては、言語翻訳、音声テキスト変換、テキスト音声変換、予測、推奨などが挙げられます。

これらのサービスは、企業が通常利用できる量を超える量のデータを使用してトレーニングおよびテストされています。また、グローバル負荷下でも良好な応答時間を確保するために、十分なコンピューティング リソース (アクセラレータを含む) を備えたサービス エンドポイントにも導入されています。

9. 実験を管理する

組織のデータセットに適したモデルを見つける唯一の方法は、手動と AutoML の両方を使用して、すべてのアプローチを試すことです。そうなると、実験の管理という別の問題が残ります。

優れたクラウド機械学習プラットフォームは、組織が各実験(トレーニング セットとテスト データ)の目的関数値、およびモデルと混同行列のサイズを表示および比較する方法を提供します。そして、これらすべてを図表化できることには、一定の利点があります。

10. 予測のためのモデル展開のサポート

組織が自らの条件に最適な実験を選択する方法を手に入れたら、モデルを簡単に展開する方法が必要になります。同じ目的で複数のモデルを展開する場合は、A/B テストのためにモデル間でトラフィックを分散する方法も必要です。

11. 予測結果を監視する

世界が変化するとデータも変化します。つまり、組織はモデルを導入してそれを忘れることはできません。代わりに、組織は予測のために送信されたデータを監視する必要があります。データが元のトレーニング データセットのベースラインから大幅に変更された場合、組織はモデルを再トレーニングする必要があります。

12. コストを管理する

最後に、組織はモデルによって発生するコストを制御する何らかの方法を必要とします。通常、実稼働推論用のモデルの導入はディープラーニングのコスト全体の 90% を占めますが、トレーニングはコスト全体の 10% しか占めません。

予測コストを制御するための最適なアプローチは、組織の作業負荷とモデルの複雑さによって異なります。負荷が高い場合は、アクセラレータを使用して、仮想マシン インスタンスの追加を回避できます。負荷が変動する場合、組織は負荷の増加または減少に応じてインスタンスまたはコンテナのサイズや数を動的に変更できる可能性があります。また、組織の負荷が少ない場合は、いくつかのアクセラレータを備えた非常に小さなインスタンスを使用して予測を処理することもできます。

<<:  オタクなおじさんが独学でAIを学んでマスターレベルを作成し、Twitterで人気になった

>>:  Ascend Academy 上海テクノロジー オープン デーは大好評を博し、開発者たちは AI の新時代に向けて Ascend と手を組むことを決意しました。

ブログ    

推薦する

...

...

...

ASO チュートリアル: 評価とダウンロードの最適化と Google Play ストアのランキング アルゴリズム

この ASO チュートリアル シリーズを初めて読む場合は、最初の記事から始めることをお勧めします。 ...

ハイエンドチップはインテリジェント運転の問題を解決できるでしょうか?

この数か月の「影響」を経て、誰もが半導体不足の事実を十分に認識したと思います。2020年12月以来、...

純粋な MLP は下流のタスクには適していませんか? Meta AIらは、トランスフォーマーを上回るスパースMLPを提案した。

注意ベースのモデルの代替として、純粋な MLP アーキテクチャがますます注目を集めています。 NLP...

AIを使用して一般的なビジネスプロセスを最適化する

現代のビジネス環境では、人工知能 (AI) がビジネスの運営方法を変えています。 AI をビジネス ...

市場規模は22億を超えるか?教育用ロボットは急速に発展している

教育は知識を伝える社会的活動として、国の人材育成システムや経済発展に影響を与え、国家の繁栄を促進しま...

人工知能が人の感情を認識できるなんてすごいですね。信じられません。

感情認識技術は、実際には人工知能を使用して顔の表情から感情を検出する新興技術であり、数十億ドル規模の...

...

Hugging FaceはLLM向けの新しいGitHubです

翻訳者 |李睿レビュー | Chonglou大規模言語モデル(LLM)は近年テクノロジー業界に旋風を...

「顔スキャン」はもはやジョークではなく、マスクを着用していても機能します

[51CTO.comからのオリジナル記事] 近年、人工知能、ビッグデータ、クラウドコンピューティング...

ビル・ゲイツ:中国がAIで他国を追い抜くとは思わない

マイクロソフトの創業者ビル・ゲイツは、現在のAIの開発動向についてどう考えているのでしょうか?最近の...

ソーシャルメディア向け AI ツール トップ 10

AI テクノロジーの台頭により、ソーシャル メディアは人間や人間のグループでは得られない洞察を提供...