カリフォルニア大学の17歳の博士課程の学生は率直にこう語った。「機械学習における「新しい」問題を解決するには、「古い」方法を体系的に研究する必要がある。」

[[428056]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

過去 10 年間で、機械学習 (ML) は数え切れないほどのアプリケーションとサービスに革命をもたらしました。実際のアプリケーションにおける機械学習の重要性が高まるにつれ、機械学習システム (MLOps) の観点から検討する必要がある機械学習の新たな課題が認識されるようになりました。

では、これらの新たな課題とは何でしょうか?

最近、カリフォルニア大学の17歳の博士課程の学生がブログ投稿で次のように指摘した。

機械学習システムは、実際には ML の新しい領域であり、コンピュータシステムと機械学習の間の橋渡しの役割を果たします。したがって、データ収集、検証、およびモデルトレーニングにおける「新しい状況」は、従来のシステム思考の観点から検討する必要があります。

図1: 機械学習システムのアーキテクチャ

以下は原文です。AI Technology Reviewでは原文を変更せずに一部編集・削除を行っています。

1.データ収集

研究者は CIFAR や SQuAD などのすぐに利用できるデータセットを使用することを好みますが、実践者はモデルトレーニングの観点からカスタムデータセットを手動でラベル付けして生成する必要があることがよくあります。ただし、このようなデータセットの作成は、特にドメインの専門知識が必要な場合、非常にコストがかかります。

したがって、データ収集はシステム開発者にとって機械学習における大きな課題となります。

現在、この課題に対する最も成功した解決策の 1 つは、システムと機械学習の研究を活用しています。たとえば、SnorkelAI は、データ管理技術と自己教師あり学習を組み合わせた「弱教師ありデータプログラミング」アプローチを使用します。

具体的な操作は次のとおりです。SnorkelAI はデータセットの作成をプログラミングの問題として再考し、ユーザーが弱く監視されたラベルの機能を指定し、それをマージして重み付けすることで高品質のラベルを生成します。専門家がラベル付けしたデータ (高品質) と自動的にラベル付けしたデータ (低品質) を組み合わせて追跡できるため、さまざまなレベルのラベル品質を考慮して、モデルトレーニングの重み付けを正確に行うことができます。

キャプション: SnorkelAI はさまざまなソースからのラベルを組み合わせ、モデルが集約を最大化し、さまざまな品質のラベルを改善できるようにします。

この手法は、データベース管理システムにおけるデータ融合を彷彿とさせます。システムと ML (データソースの結合) の共通の問題を特定することで、従来のシステム手法を機械学習に適用できます。

2.データ検証

データ検証はデータ収集のフォローアップです。データ品質は機械学習における重要な問題です。諺にあるように、「ゴミを入れればゴミが出る」のです。したがって、システムが高品質のモデルを生成するためには、入力データも高品質であることを確認する必要があります。

この問題を解決するには、機械学習の方法を調整するだけでなく、システムを調整する考え方も必要です。幸いなことに、データ検証は ML にとって新しい問題ではあるものの、業界では長い間議論されてきました。

TensorFlow Data Validation (TFDV) 論文からの引用:

ゲームに基づいて、「データ検証は新しい問題でも ML に固有の問題でもありません。そのため、関連分野 (データベースシステムなど) からソリューションを借用しています。ただし、この問題は ML のコンテキストで固有の課題を生じるため、既存のソリューションを再考する必要があると主張します。」

「データ検証は新しい問題でも ML に固有の問題でもありません。そのため、関連分野 (データベースシステムなど) からソリューションを借りることができます。ただし、ML のコンテキストでは、この問題は固有の課題を提示するため、既存のソリューションを再考する必要があると考えています。」

TFDV のソリューションは、データ管理システムの「実戦テスト済み」ソリューションであるモデリングを使用します。データベースは、データの入力と更新が特定の形式に準拠していることを保証するためにプロパティを適用します。同様に、TFDV のデータスキーマは、モデルに入力されるデータにルールを適用します。

図 1: TensorFlow Data Validation のスキーマベースの ML データ検証システムにより、ユーザーは運用システムへのデータ入力における異常を防ぐことができます。

もちろん、機械学習システムと従来のモデルの違いを反映したいくつかの違いがあります。 ML モデルは、データ分布の変化に対応するために、またシステムの存続期間中にモデル自体に加えられる可能性のある変更に対応するために、時間の経過とともに進化し、適応する必要があります。

機械学習が新たなタイプの体系的な課題をもたらすことは明らかです。しかし、これらのシステムは、新しいものだけでなく、古いものもたくさんもたらします。車輪の再発明を求める前に、私たちはすでに持っているものを活用すべきです。

3.モデルのトレーニング

ML 実践者は、システム最適化の領域としてのモデルトレーニングについて知ると驚くかもしれません。結局のところ、機械学習アプリケーションの中で ML 技術に真に依存する領域が 1 つあるとすれば、それはトレーニングです。しかし、ここでもシステム研究が役割を果たさなければなりません。

モデルの並列化を例に挙げてみましょう。 Transformer の登場により、ML モデルのサイズは劇的に増加しました。数年前、BERT-Large のパラメータ数は 3 億 4,500 万を超えましたが、現在、Megatron-LM のパラメータ数は 1 兆を超えています。

これらのモデルのメモリコストは数百 GB に達する可能性があり、これは単一の GPU の容量を超えています。従来のソリューションであるモデルの並列化では、メモリコストを分散するためにモデルを異なるデバイスに分割するという比較的単純なアプローチを採用しています。

従来のモデルの並列化は、ニューラルネットワークアーキテクチャの順序によって影響を受けます。効率的な並列コンピューティングの機会は限られています。

しかし、この手法には問題があります。モデルは本質的に順次的なものであり、トレーニングにはレイヤー間でデータをやり取りする必要があるからです。一度に使用できるのは 1 つのレイヤーと 1 つのデバイスのみです。これは、機器が十分に活用されないことを意味します。

システム研究はどのように役立つのでしょうか?

ディープニューラルネットワークを考えてみましょう。最も基本的なコンポーネントに分解すると、データを変換する一連の演算子と考えることができます。トレーニングとは、データをオペレータに渡し、勾配を生成し、その勾配をオペレータにフィードバックして、プロセスを継続的に更新することを意味します。

このレベルでは、モデルは他のステージ（CPU の命令パイプラインなど）と同様に動作し始めます。 GPipe と Hydra の 2 つのシステムは、この並列アプローチを活用して、スケーラビリティと並列処理のためのシステム最適化を適用しようとします。

GPipe は CPU 命令の並列処理を使用して、モデルのトレーニングをパイプラインの問題に変換します。モデルの各パーティションはパイプラインの異なるステージと見なされ、ミニバッチは段階的にパーティションに渡され、使用率を最大化します。

パイプライン並列処理は、トレーニングをミニバッチで並列化できる、シーケンシャルモデル並列処理における最も高度な技術です。しかし、同期のオーバーヘッドは、特に前方および後方の遷移においてコストがかかる可能性があります。

ただし、バックプロパゲーションでは、ステージが逆の順序で再利用されることに注意してください。つまり、フォワードパイプラインが完全にブロック解除されるまで、バックワード伝播は開始できません。それでも、この手法によりモデルの並列トレーニングを大幅に高速化できます。8 個の GPU では 5 倍の高速化が可能です。

Hydra は異なるアプローチを採用し、スケーラビリティと並列処理を 2 つの異なるステップに分離します。データベース管理システムの一般的な概念は「スピルオーバー」であり、余分なデータがメモリ階層の下位レベルに送信されます。 Hydra は、モデルの並列処理における順次計算を活用し、非アクティブなモデルパーティションを GPU 上に置く必要がないことを提案します。代わりに、不要なデータを DRAM にオフロードし、GPU 間でモデルパーティションを交換して、従来のモデルをシミュレートして実行します。

Hydra のモデルスピル技術は、GPU 実行の高速化の利点を維持しながら、ディープラーニングトレーニングのコストを GPU メモリではなく DRAM に分散します。

これにより、一度に 1 つの GPU のみを使用してモデルをトレーニングできるようになります。次に、これに基づいて、ある程度のタスク並列処理を導入するのは簡単です。各モデルは、サイズに関係なく、一度に必要な GPU は 1 つだけなので、システムは各 GPU を同時に最大限に活用できます。結果は、8 つの GPU で 7.4 倍以上の高速化となり、最適な状態に近づきました。

しかし、モデルの並列化は、モデルのトレーニングを支援する体系的な研究の始まりにすぎません。その他の有望な貢献としては、データ並列処理 (PyTorch DDP など)、モデル選択 (Cerebro やモデル選択管理システムなど)、分散フレームワーク (Spark や Ray) などがあります。したがって、モデルのトレーニングは体系的な研究を通じて最適化できる領域です。

4.モデルサービング

結局のところ、機械学習モデルは使用するために構築されます。モデルの提供と予測は、機械学習の実践において最も重要な側面の 1 つであり、体系的な研究が最も大きな影響を与える分野の 1 つです。

予測は、オフライン展開とオンライン展開という 2 つの主な設定に分かれています。オフライン展開は比較的単純で、単一の大規模なバッチ予測ジョブを時々実行します。一般的な設定には、ビジネスインテリジェンス、保険評価、ヘルスケア分析などがあります。オンライン展開は、ユーザーのクエリに迅速に応答するために、高速で低遅延の予測が必要なネットワークアプリケーションです。

どちらの設定にも独自のニーズと要件があります。一般的に、オフライン展開では、大量のサンプルを迅速に処理するために、高スループットのトレーニング手順が必要です。一方、オンライン展開では通常、同時に多数の予測を行うのではなく、単一の予測に対して非常に高速な処理時間が必要になります。

システム研究は、両方のタスクへのアプローチ方法を変えます。たとえば、Krypton はビデオ分析を「マルチクエリ最適化」(MQO) タスク用のツールとして再定義します。

MQO は新しい分野ではなく、何十年もの間リレーショナルデータベース設計の一部となってきました。基本的な考え方はシンプルです。異なるクエリで関連するコンポーネントを共有し、それを保存して再利用することができます。クリプトン氏は、CNN 推論はビデオ分析など、関連する画像のバッチに対して実行されることが多いと指摘しています。

通常、ビデオはフレームレートが高いのが特徴で、連続するフレームは比較的似ている傾向があります。フレーム 1 の情報のほとんどは、フレーム 2 にも残っています。ここには MQO との明らかな類似点があります。つまり、タスクのセットがあり、それらの間には情報が共有されています。

Krypton はフレーム 1 で通常の推論を実行し、予測を行う際に CNN によって生成された中間データを具体化、つまり保存します。後続の画像を最初のフレームと比較し、画像内で大きな変更が発生した場所と再計算が必要な場所を特定します。パッチが識別されると、Krypton は CNN を通じてパッチの「変化の領域」を計算し、モデルの状態全体でどのニューロン出力が変化したかを判断します。これらのニューロンは変更されたデータを使用して再実行されます。残りのデータはベースフレームから再利用されます。

その結果、エンドツーエンドのトレーニングが 4 倍以上高速化され、データの遅延による精度の低下はほとんどありません。このランタイムの改善は、長時間実行されるストリーミングアプリケーションにとって重要です。

Krypton は、モデル推論に重点を置いている点で独特ではありません。 Clipper や TensorFlow Extended などの他の研究では、システム最適化とモデル管理技術を活用して効率的で堅牢な予測を提供することで、効率的な予測サービスという同じ問題に対処しています。

5.結論

機械学習は、データの使用方法とデータとのやり取りに革命をもたらしました。これにより、ビジネスの効率性が高まり、特定の業界の見通しが根本的に変化しました。ただし、機械学習が引き続きその範囲を拡大するには、特定のプロセスを改善する必要があります。システム研究は、データベースシステム、分散コンピューティング、アプリケーション展開における数十年にわたる研究を機械学習の分野に持ち込むことで、機械学習を改善することができます。

機械学習は非常に新しくて興味深いものですが、その問題の多くはそうではありません。類似点を特定し、古いソリューションを改善することで、システムを使用して ML を再設計できます。

著者について

Kabir Nagrecha は、Arun Kumar の指導を受けるカリフォルニア大学サンディエゴ校の博士課程の学生です。

彼は13歳で早期入学プログラムを通じて大学に入学した。以来、産業界と学術界の両方で機械学習分野の研究に従事。

彼は、カリフォルニア大学サンディエゴ校研究優秀賞やCRA優秀学部生研究者賞などの栄誉を獲得しています。現在、Apple の Siri チームでインターンをしています。彼の研究は、システム技術を使用してディープラーニングのスケーラビリティを実現することに焦点を当てています。

<<: 企業にとって重要なAI技術のトレンド

>>: なぜ大国は陸上戦闘ロボットで競争しているのでしょうか?