GoogleがAIトレーニングを高速化する新手法を提案、GPUのアイドル時間を圧縮して3倍以上高速化

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

汎用コンピューティングチップではニューラルネットワークのコンピューティングニーズを満たすことができないため、ニューラルネットワークのトレーニングを高速化するために、GPU や TPU などの専用のハードウェアアクセラレータを使用する人が増えています。

しかし、より高速な GPU と TPU を使用すると、トレーニングが確実に高速化されるのでしょうか?

トレーニングパイプライン内のすべての操作がアクセラレータ上で実行されるわけではありません。アップストリームデータ処理 (ディスク I/O やデータ前処理など) はアクセラレータ上で実行できません。

GPU などのアクセラレータがどんどん高速化し、CPU やディスクがデータを処理できる速度を超えるようになると、アップストリームが徐々にトレーニングのボトルネックになってきました。

場合によっては、GPU の上流のコードが GPU 自体よりも実行に数倍の時間がかかります。上流の作業が完了していない場合、下流はただ待つことしかできず、多くの時間を無駄にします。

このため、Google AI チームはこの問題を解決するためのシンプルなデータエコー方式を提案しました。この方法は、モデルの精度に大きな影響を与えることなく、トレーニング速度を最大 3 倍以上高速化できます。

ジェフ・ディーンもTwitterでリツイートし、いいねした。

重複データによりGPUがアイドル状態にならない

多くの場合、アップストリームはアクセラレータよりも時間がかかり、より高速な GPU または TPU を使用してもトレーニング速度はまったく向上しません。多くのエンジニアリング作業と追加のコンピューティングリソースを投入すれば、パイプラインを実際に高速化できます。

非常に小さいデータセットの場合、拡張データセットをオフラインで事前計算し、事前処理されたデータセット全体をメモリに読み込むことができます。

ただし、このアプローチはほとんどの機械学習トレーニングシナリオには適しておらず、時間がかかり、推論パフォーマンスの向上という主な目標から逸脱してしまいます。

さらなるデータを待つのではなく、すでに持っているデータを使用してアクセラレータを稼働状態に保つことができます。

アクセラレータが 50% でアイドル状態の前処理済みバッチの最初の最適化ステップの後、そのバッチを別のトレーニング実行に再利用できます。

重複データが新規データと同じくらい有用であれば、トレーニングの効率は 2 倍になります。

実際には、繰り返しデータは新しいデータほど有用ではないため、データエコーによるスピードアップは小さくなりますが、アクセラレータがアイドル状態のときに比べると大幅なスピードアップが得られます。

一般に、特定のニューラルネットワークトレーニングパイプラインでデータエコーを実装する方法はいくつかあります。

Google が提案した技術は、トレーニングパイプラインのどこかにあるランダムバッファにデータをコピーするというものです。どの段階でボトルネックが発生しても、キャッシュされたデータを任意の位置に挿入できます。

データエコーはサンプルレベルでデータをシャッフルしますが、バッチエコーは繰り返されるバッチのシーケンスをシャッフルします。あるいは、データ拡張の前にバッファを挿入して、繰り返されるデータの各コピーがわずかに異なるようにし、単純な機械的な繰り返しよりも新しいサンプルに近くなるようにすることもできます。

精度を損なうことなく3倍以上の速度を実現

では、データエコーはどれほど役に立つのでしょうか?

Google は、画像分類、言語モデル化、オブジェクト検出という 3 つの異なるタスクをカバーする 5 つのニューラルネットワークトレーニングパイプラインでデータエコーを試し、特定のパフォーマンス目標を達成するために必要な新しいサンプルの数を測定しました。

Google は、データエコーにより、新しいサンプルを少なくして目標のパフォーマンスを達成できることを発見しました。これは、データの再利用がディスク I/O の削減に役立つことを示唆しています。場合によっては、重複データは新しいデータとほぼ同じくらい役に立つことがあります。

ImageNet の ResNet-50 トレーニングタスクでは、データエコーによりトレーニング速度が大幅に向上し、3 倍以上高速化されます。

クラウドストレージからトレーニングデータのバッチを読み取るには、各データのバッチを使用してトレーニングステップを実行する場合よりも 6 倍の時間がかかります。したがって、データは最大 5 回繰り返すことができます。

エコー係数は、各データ項目が繰り返される回数として定義されます。上記のタスクの場合、最大エコー係数は 5 です。重複したサンプルが新しいサンプルと同じくらい有用であれば、6 倍のスピードアップが得られるはずですが、実際には 3.25 倍のスピードアップしか得られませんでした。それでも、かなり印象的です。

データの再利用によってモデルの最終的なパフォーマンスが低下するのではないかと心配する人もいるかもしれませんが、実験では、テストされたどのワークロードでも、データエコーによって最終的なモデルの品質が低下しないことがわかっています。

GPU と TPU のパフォーマンスが向上し、汎用プロセッサを上回るようになるにつれて、データエコーや同様の戦略がニューラルネットワークトレーニングツールキットのますます重要な部分になると Google は予想しています。

どうですか？Google AI のこの最新の研究は、ニューラルネットワークのトレーニングにも新たなインスピレーションを与えてくれますか？

<<: 「モノのインターネット +」の考え方は、産業のアップグレードにどのように役立つのでしょうか?

>>: ヘルスケアがビッグデータの恩恵を受ける6つの方法