Metaは、パラメータを積み重ねたり、トレーニング時間に依存したりすることなくViTトレーニングプロセスを加速し、スループットを4倍に増加させます。

Metaは、パラメータを積み重ねたり、トレーニング時間に依存したりすることなくViTトレーニングプロセスを加速し、スループットを4倍に増加させます。

現在、ビジュアルトランスフォーマー(ViT)モデルは、画像分類、オブジェクト検出、セグメンテーションなどのさまざまなコンピュータービジョンタスクで広く使用されており、視覚表現と認識においてSOTAの結果を達成できます。コンピューター ビジョン モデルのパフォーマンスは、パラメーターの数やトレーニング時間と正の相関関係にあることが多いため、AI コミュニティではますます大規模な ViT モデルの実験が行われています。

ただし、モデルのサイズがテラフロップスを超え始めると、この分野ではいくつかの大きなボトルネックが発生していることに注意する必要があります。 1 つのモデルをトレーニングするには数か月かかり、数千の GPU が必要になるため、アクセラレータの要件が増加し、大規模な ViT モデルでは多くの専門家が「排除」されることになります。

ViT モデルの使用範囲を拡大するために、Meta AI の研究者はより効率的なトレーニング方法を開発しました。アクセラレータを最大限に活用するには、トレーニングを最適化することが非常に重要です。ただし、このプロセスには時間がかかり、労力がかかり、かなりの専門知識が必要です。秩序だった実験を設定するには、研究者は無数の最適化スキームから選択する必要があります。トレーニング プロセス中に実行される何百万もの計算は、非効率性の影響を受け、妨げられる可能性があります。

Meta AI は、画像分類コード ライブラリ PyCls の ViT 実装に一連の最適化を適用することで、計算効率とストレージ効率を向上できることを発見しました。 PyCI を使用してトレーニングされた ViT モデルの場合、Meta AI のアプローチにより、トレーニング速度とアクセラレータあたりのスループット (TFLOPS) を向上させることができます。

下の図は、最適化されたコード ベース PyCI を使用した V100 ベースラインと比較した、チップあたりのアクセラレータ スループットの相対的な増加を示しています。A100 最適化アクセラレータ スループットは、V100 ベースラインの 4.05 倍です。

仕組み

Meta AI はまず PyCIs コードベースを分析して、トレーニング効率が低い潜在的な原因を特定し、最終的には数値形式の選択に焦点を当てました。デフォルトでは、ほとんどのアプリケーションは、ニューラル ネットワークの値を表すために 32 ビットの単精度浮動小数点形式を使用します。 16 ビット半精度形式 (FP16) に変換すると、モデルのメモリ使用量と実行時間を削減できますが、精度も低下することがよくあります。

研究者たちは妥協案として混合精度を採用した。これにより、システムは単精度形式で計算を実行してトレーニングを高速化し、メモリ使用量を削減すると同時に、結果を単精度で保存して精度を維持します。ネットワークの一部を手動で半精度に変換する代わりに、数値形式を自動的に切り替える自動混合精度トレーニングのさまざまなモードを試しました。自動混合精度のより高度なモードは、主に半精度演算とモデルの重みに依存します。研究者が採用したバランスの取れた設定により、精度を犠牲にすることなくトレーニングを大幅に高速化できます。

プロセスをより効率的にするために、研究者らは、GPU 上でパラメータ、勾配、およびオプティマイザーの状態をシャーディングする FairScale ライブラリの Fully Sharder Data Parallel (FSDP) トレーニング アルゴリズムを最大限に活用しました。 FSDP アルゴリズムを使用すると、研究者はより少ない GPU を使用してより大きなモデルを構築できます。さらに、研究者らは、MTA オプティマイザー、プールされた ViT 分類器、およびバッチ秒入力テンソル レイアウトを使用して、冗長な転置操作をスキップしました。

下の図の X 軸は可能な最適化を示し、Y 軸は分散データ並列 (DDP) ベンチマークと比較した ViT-H/16 でトレーニングした場合のアクセラレータ スループットの相対的な増加を示しています。

研究者らは、合計パッチサイズ 560 で、アクセラレータ チップあたりの 1 秒あたりの浮動小数点演算で測定されたアクセラレータ スループットの 1.51 倍の向上を達成しました。画像サイズを 224 ピクセルから 256 ピクセルに増やすことで、スループットを 1.86 倍に向上させることができました。ただし、画像サイズを変更するとハイパーパラメータも変更されるため、モデルの精度に影響します。フル FP16 モードでトレーニングすると、相対スループットは 2.18 倍に増加します。精度が低下することもありますが、実験では精度の低下は 10% 未満です。

下の図の Y 軸はエポック時間で、ImageNet-1K データセット全体に対する 1 回のトレーニングの期間です。ここでは、通常 224 ピクセルの画像サイズを使用する既存の構成の実際のトレーニング時間に焦点を当てます。

Meta AI の研究者は最適化スキームを使用して、エポック時間 (ImageNet-1K データセット全体のトレーニング実行時間) を 0.65 時間から 0.43 時間に短縮しました。

下のグラフの X 軸は、特定の構成における A100 GPU アクセラレータ チップの数を表し、Y 軸はチップあたりの TFLOPS 単位の絶対スループットを表します。

この調査では、さまざまな GPU 構成の影響についても説明しています。いずれの場合も、システムは分散データ並列 (DDP) ベースラインよりも高いスループットを実現します。チップの数が増えると、デバイス間通信のオーバーヘッドによりスループットがわずかに低下することが分かります。ただし、64 個の GPU を搭載した場合でも、Meta のシステムは DDP ベースラインよりも 1.83 倍高速です。

新しい研究の重要性

ViT トレーニングで達成可能なスループットを 2 倍にすると、トレーニング クラスターのサイズを実質的に 2 倍にすることができ、アクセラレータの使用率を向上させることで AI モデルの炭素排出量を直接削減できます。最近のメガモデルの開発により、モデルの大型化とトレーニング時間の延長の傾向が見られるようになったため、この最適化により、研究コミュニティは最先端の技術をさらに進歩させ、ターンアラウンドタイムを短縮し、生産性を向上させることができると期待されています。

<<:  世界の技術大国の人工知能+インテリジェント製造戦略の展開を振り返る

>>:  繊毛もチップにできる!コーネル大学の中国人博士課程学生の初の論文がネイチャーの表紙に掲載

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

人工知能トレーナー、ドローンパイロット…聞いたことのない「新しい職業」が登場している

社会における分業がますます洗練されていくにつれ、まるで種の進化のように、新しい職業が次々と生まれ、中...

PS効果よりも優れています!このような写真編集ツールを使ったことがありますか?

そうです、グラフィックカードを作っている会社、NVIDIA です。 NV はグラフィック カード メ...

...

Googleが謝罪:Vision AIが人種差別的な結果を生成

新型コロナウイルスと闘っている多くの国々は、駅や空港で国民に体温検査を受けるよう命じている。この状況...

...

...

ビジネスマーケティングにおける人工知能の6つの応用

[[378540]] [51CTO.com クイック翻訳] 今日、人工知能(AI)に基づくソリューシ...

「本物の人間かどうか」を検証、AIが人間を攻撃! GPT-4は99.8%の精度でチューリングテストに合格し、オンラインで助けを求めた。

あなたは実在の人物ですか? Web ページを開いて奇妙な確認コードが表示されるたびに、それをクリック...

JetBrainsが2023年の調査レポートを発表:Rustの人気はますます高まり、開発者の77%がChatGPTを使用

JetBrains は 11 月 21 日に、世界中の 26,348 人の開発者からの調査結果をまと...

宜蘭グループインテリジェンスが再び認められ、認知インテリジェンスの飛躍的発展を促進

【原文は51CTO.comより】このほど、工業情報化部中国電子情報産業発展研究所が指導し、51CTO...

...

AIを使って人間の子どもを「飼い慣らす」: ハードコアな子育ての楽しさを発見した父親

技術オタクの父親たちは、Netflix のエピソードを数本静かに観るために何をするのでしょうか? [...

...

ジェネレーティブ AI と自動化: 未来のデータ センターを加速

自動化と生成型人工知能 (GenAI) の時代において、「データセンター」の本当の意味を再考する時が...