GoogleがAIトレーニングを高速化する新手法を提案、GPUのアイドル時間を圧縮して3倍以上高速化

GoogleがAIトレーニングを高速化する新手法を提案、GPUのアイドル時間を圧縮して3倍以上高速化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

汎用コンピューティング チップではニューラル ネットワークのコンピューティング ニーズを満たすことができないため、ニューラル ネットワークのトレーニングを高速化するために、GPU や TPU などの専用のハードウェア アクセラレータを使用する人が増えています。

しかし、より高速な GPU と TPU を使用すると、トレーニングが確実に高速化されるのでしょうか?

トレーニング パイプライン内のすべての操作がアクセラレータ上で実行されるわけではありません。アップストリーム データ処理 (ディスク I/O やデータ前処理など) はアクセラレータ上で実行できません。

GPU などのアクセラレータがどんどん高速化し、CPU やディスクがデータを処理できる速度を超えるようになると、アップストリームが徐々にトレーニングのボトルネックになってきました。

場合によっては、GPU の上流のコードが GPU 自体よりも実行に数倍の時間がかかります。上流の作業が完了していない場合、下流はただ待つことしかできず、多くの時間を無駄にします。

このため、Google AI チームはこの問題を解決するためのシンプルなデータエコー方式を提案しました。この方法は、モデルの精度に大きな影響を与えることなく、トレーニング速度を最大 3 倍以上高速化できます。

ジェフ・ディーンもTwitterでリツイートし、いいねした。

重複データによりGPUがアイドル状態にならない

多くの場合、アップストリームはアクセラレータよりも時間がかかり、より高速な GPU または TPU を使用してもトレーニング速度はまったく向上しません。多くのエンジニアリング作業と追加のコンピューティング リソースを投入すれば、パイプラインを実際に高速化できます。

非常に小さいデータセットの場合、拡張データセットをオフラインで事前計算し、事前処理されたデータセット全体をメモリに読み込むことができます。

ただし、このアプローチはほとんどの機械学習トレーニング シナリオには適しておらず、時間がかかり、推論パフォーマンスの向上という主な目標から逸脱してしまいます。

さらなるデータを待つのではなく、すでに持っているデータを使用してアクセラレータを稼働状態に保つことができます。

アクセラレータが 50% でアイドル状態の前処理済みバッチの最初の最適化ステップの後、そのバッチを別のトレーニング実行に再利用できます。

重複データが新規データと同じくらい有用であれば、トレーニングの効率は 2 倍になります。

実際には、繰り返しデータは新しいデータほど有用ではないため、データ エコーによるスピードアップは小さくなりますが、アクセラレータがアイドル状態のときに比べると大幅なスピードアップが得られます。

一般に、特定のニューラル ネットワーク トレーニング パイプラインでデータ エコーを実装する方法はいくつかあります。

Google が提案した技術は、トレーニング パイプラインのどこかにあるランダム バッファにデータをコピーするというものです。どの段階でボトルネックが発生しても、キャッシュされたデータを任意の位置に挿入できます。

データ エコーはサンプル レベルでデータをシャッフルしますが、バッチ エコーは繰り返されるバッチのシーケンスをシャッフルします。あるいは、データ拡張の前にバッファを挿入して、繰り返されるデータの各コピーがわずかに異なるようにし、単純な機械的な繰り返しよりも新しいサンプルに近くなるようにすることもできます。

精度を損なうことなく3倍以上の速度を実現

では、データエコーはどれほど役に立つのでしょうか?

Google は、画像分類、言語モデル化、オブジェクト検出という 3 つの異なるタスクをカバーする 5 つのニューラル ネットワーク トレーニング パイプラインでデータ エコーを試し、特定のパフォーマンス目標を達成するために必要な新しいサンプルの数を測定しました。

Google は、データ エコーにより、新しいサンプルを少なくして目標のパフォーマンスを達成できることを発見しました。これは、データの再利用がディスク I/O の削減に役立つことを示唆しています。場合によっては、重複データは新しいデータとほぼ同じくらい役に立つことがあります。

ImageNet の ResNet-50 トレーニング タスクでは、データ エコーによりトレーニング速度が大幅に向上し、3 倍以上高速化されます。

クラウド ストレージからトレーニング データのバッチを読み取るには、各データのバッチを使用してトレーニング ステップを実行する場合よりも 6 倍の時間がかかります。したがって、データは最大 5 回繰り返すことができます。

エコー係数は、各データ項目が繰り返される回数として定義されます。上記のタスクの場合、最大エコー係数は 5 です。重複したサンプルが新しいサンプルと同じくらい有用であれば、6 倍のスピードアップが得られるはずですが、実際には 3.25 倍のスピードアップしか得られませんでした。それでも、かなり印象的です。

データの再利用によってモデルの最終的なパフォーマンスが低下するのではないかと心配する人もいるかもしれませんが、実験では、テストされたどのワークロードでも、データエコーによって最終的なモデルの品質が低下しないことがわかっています。

GPU と TPU のパフォーマンスが向上し、汎用プロセッサを上回るようになるにつれて、データエコーや同様の戦略がニューラルネットワークトレーニングツールキットのますます重要な部分になると Google は予想しています。

どうですか?Google AI のこの最新の研究は、ニューラル ネットワークのトレーニングにも新たなインスピレーションを与えてくれますか?

<<:  「モノのインターネット +」の考え方は、産業のアップグレードにどのように役立つのでしょうか?

>>:  ヘルスケアがビッグデータの恩恵を受ける6つの方法

ブログ    
ブログ    

推薦する

従来のセキュリティ手法を覆し、AIがWebセキュリティを再定義

Amazonが2006年にEC2サービスをリリースしてから11年が経ちました。この 11 年間で、A...

ついに誰かがインテリジェント音声処理をわかりやすく説明してくれた

機械学習の急速な発展により、インテリジェントな音声処理のための強固な理論的および技術的基盤が築かれま...

人工知能はあらゆる産業に革命を起こすだろう

今日のさまざまな業界における人工知能の影響を見てみましょう。 [[421328]] 1. 自動車産業...

機械学習を理解するには、「3つの魔法の武器」を理解するだけで十分です

クイズ番組「ジェパディ」の優勝者や囲碁の名人から、広告に関連した不名誉な人種プロファイリングまで、私...

百度のロビン・リー氏は、今後10年間は​​人工知能の革新の時代になると述べた。

【CNMOニュース】最近、百度の創業者で会長兼CEOのロビン・リー氏はインド工科大学マドラス校が開...

あなたのプライベートな写真が「合法的に」閲覧される可能性があります。顔認識を使用するときは必ず服を着用してください。

本日7月3日、デジタルブロガーの@长安数码君がソーシャルプラットフォームでニュースを発表しました。顔...

AからZまで、人工知能が世界を変える26のキーワード

今日、人工知能はもはや漠然とした研究室の技術ではなく、私たちの生活のあらゆる側面に組み込まれています...

100倍速い!ディープラーニングトレーニングツールであるDetermined AIがオープンソースになりました。より速く、よりシンプルに、より強力に

ディープラーニングの研究者として、私はモデルのトレーニングに深く悩まされています。モデルを何日も何晩...

...

大規模言語モデルの効率的なパラメータ微調整 - BitFit/Prefix/Prompt 微調整シリーズ

2018年にGoogleはBERTをリリースしました。リリース後すぐに11のNLPタスクで最先端(S...

AIは「メイおばさん」を見つけられるのか?

[[283120]]インターネット全体が「メイおばさん」を探しているが、彼女が誰なのかは謎のままだ...

人工知能がビジネスの生産性を変革する方法

[[244003]]既存の AI ツールやサービスは、従業員に代わるものではなく、ワークフローの改善...

...

携帯電話に搭載された3D姿勢推定は、モデルサイズが類似モデルの1/7しかないが、誤差はわずか5cmである。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...