モデルが大きくなればなるほど、パフォーマンスは向上しますか? Appleの自己回帰視覚モデルAIM: そうです

過去数年間、大規模な事前トレーニング済みモデルが NLP の分野で成功を収めてきました。このようなモデルは、わずか数例で複雑な推論タスクを解決したり、指示に従って推論したりできます。

事前トレーニング済みモデルの成功の理論的根拠の 1 つは、容量 (つまり、パラメータの数) または事前トレーニングデータの量が増えるにつれて、モデルのパフォーマンスが継続的に向上する可能性があることです。

当然のことながら、研究者は次のような疑問を抱きました。自己回帰目的の Transformer のスケーリングの成功はテキストに限定されるのでしょうか?

最新の論文「大規模自己回帰画像モデルのスケーラブルな事前トレーニング」では、Apple の研究者が自己回帰画像モデル (AIM) を提案し、自己回帰の目的で ViT モデルをトレーニングすることで、表現の学習において LLM と同じスケーラビリティを実現できるかどうかを調査しました。

論文リンク: https://arxiv.org/pdf/2401.08541.pdf
プロジェクトアドレス: https://github.com/apple/ml-aim

まず結論: 研究者らは、モデルの容量は数十億のパラメータに簡単に拡張でき、AIM は大量の非構造化画像データを効果的に活用できることを発見しました。

彼らは、ViT、大規模ネットワークデータセット、LLM 事前トレーニングの最近の進歩を含むツールセットを使用して、iGPT などの自己回帰表現学習に関する以前の研究を再検討し、視覚的特徴の自己回帰事前トレーニングに対応するための 2 つのアーキテクチャ変更も導入しました。

まず、LLM で通常行われるように自己注意を完全な因果関係に制限する代わりに、T5 ではプレフィックス注意を採用します。この選択により、下流のタスクで完全に双方向の注意に移行できるようになります。次に、対照学習で使用される予測ヘッドにヒントを得た、高度にパラメータ化されたトークンレベルの予測ヘッドを使用します。彼らは、この変更により、トレーニング中のオーバーヘッドがほとんどなく、後続の機能の品質が大幅に向上したことを観察しました。全体的に、AIM のトレーニングは最近の LLM トレーニングと似ており、教師あり学習法や自己教師あり学習法に必要な安定性を誘導するテクニックに依存しません。

その後、研究者らは、6億から70億のパラメータにわたるさまざまなモデルを研究した。これらはすべて、ライセンスを受けた未編集の画像20億枚を使って事前にトレーニングされたものである。図 1 に示すように、AIM モデルは、15 の画像認識ベンチマークの平均精度で測定されたモデルサイズに対して優れたスケーラビリティを示し、容量が大きいモデルほどダウンストリームパフォーマンスが向上します。さらに重要なのは、検証セットの目的関数の値と、その後の固定された機能の品質との間に相関関係があることです。この観察は、自己回帰目的が視覚的特徴のトレーニングに十分であることを証明しています。さらに、飽和の兆候もなく、より多くの画像でトレーニングするにつれて下流のパフォーマンスが継続的に向上することがわかりました。全体として、これらの観察結果は、大規模言語モデルのスケーリングに関する以前の研究と一致しています。

ただし、この記事の実験で使用したモデルは規模が限られていることに注意する必要があります。この法則がより大きなパラメータ値を持つモデルで検証できるかどうかは、さらに調査する必要があります。

方法の概要

私たちのトレーニング目標は、画像パッチのシーケンスに適用される標準的な自己回帰モデルに従います。より正確には、画像xはK個の重複しないパッチx_kのグリッドk∈[1, K]に分割され、それらが一緒にトークンシーケンスを形成します。

すべての画像の順序は固定されていると想定したため、特に指定がない限り、デフォルトでラスター (行優先) 順序を使用しました。上記のシーケンスを考えると、画像の確率はパッチ条件付き確率の積に分解できます。

損失を予測します。私たちのトレーニング目標は、自然に特定の損失バリアントを生成し、それぞれが分布 P(x_k | x_<k) の選択に対応します。また、オフライントークナイザーを使用して、パッチによるクロスエントロピー損失を個別のトークンに変換することも検討しました。アブレーション実験では、これらの設計は効果的であるものの、ピクセルレベルの損失ほど顕著な特徴は生み出されないことが示されています。

建築

バックボーンの選択に関しては、研究者らは Vision Transformer (ViT) アーキテクチャを採用しました。モデル容量を拡張するために、言語モデリングの一般的な方法に従い、深さよりも幅の拡張を優先します。以下の表 1 は、AIM の幅と深さ、データ量、各モデル容量の最適化スキームなど、AIM の設計パラメータを示しています。

AIM の全体的なモデルアーキテクチャを以下の図 2 に示します。

事前トレーニング中に、自己注意レイヤーで因果マスクを使用して、前のパッチが与えられた場合のパッチの確率をモデル化します。より正確には、自己注意層が与えられた場合、パッチ i の埋め込みは次のように計算されます。

プレフィックストランスフォーマー。事前トレーニングにおける自己回帰の目的では、自己注意操作で因果マスクを使用する必要があります。これは、双方向の自己注意を展開する下流タスクでの ViT モデルの標準的な使用とは異なります。下の図 3 は因果的注意と接頭辞注意の違いを示しています。

MLP 予測ヘッド。これらのヘッドを使用する目的は、体幹の機能が事前トレーニングの目的に特化しすぎるのを防ぎ、下流のタスクへの転送性を高めることです。研究者らは、各パッチを個別に処理するために、最終トランスフォーマー層の上に N 個の多層パーセプトロン (MLP) ブロックを使用するシンプルな設計を選択しました。

直接実装。研究者らは、AIM が、さらなる調整なしに、最適化されたハイパーパラメータの同じセットを使用してモデルサイズを拡張することを観察しました。

下流への適応。研究者が注目したシナリオでは、下流のタスクのすべてのモデルの重みが固定されています。この場合、1 つの分類ヘッドのみをトレーニングするため、小規模な下流データセットでの過剰適合のリスクを軽減し、適応コストを大幅に削減できます。

実験結果

まず、パラメータとトレーニングデータの観点からアプローチを拡張した場合の影響を測定します。特に、さまざまなベンチマークにわたって事前トレーニングの目標とダウンストリームのパフォーマンスの間に相関関係があるかどうかを調査し、スケーリングが損失関数の値に与える影響についても研究しました。これらの実験はすべて、IN-1k 検証セットの損失関数の値を報告します。

図 4 からわかるように、両方のプローブはトレーニングプロセス全体を通じてそれに応じて改善されており、目的を最適化すると下流のパフォーマンスが直接向上することを示しています。

また、モデル容量が増加するにつれて、損失値と下流タスクの精度の両方が向上することもわかりました。この観察結果は、LLM で観察される傾向と一致しており、目的関数の最適化に直接起因し、より強力な表現の学習につながります。

図 5 は、100 万枚の画像で構成される小規模データセット (IN-1k) または 20 億枚の画像で構成される大規模データセット (DFN-2B+) で事前トレーニングを行った場合の検証損失がどのように変化するかを示しています。

IN-1k でのトレーニングでは、検証損失はすぐに低くなりますが、この損失はトレーニングの終わりに向かって悪化し、トレーニングデータへの過剰適合を示します。キュレーションされていない DFN-2B データセットでトレーニングすると、モデルは最初は検証損失が高くなりますが、過剰適合の兆候もなく、損失は着実に減少します。

同じデータセットに少量の IN-1k データを追加すると、パフォーマンスがさらに向上し、最終的には IN-1k データセットの事前トレーニングを上回ることがわかります。表 2 はこれを裏付けています。

DFN-2B+ データセットを使用してトレーニングしたときに過剰適合の兆候は見られなかったため、事前トレーニングスケジュールの長さを増やすことの影響を引き続き調査しました。図 6 は、事前トレーニングスケジュールの長さを 50 万回から 120 万回に増やした場合の影響を示しています。より長いスケジュールで事前トレーニングされたモデルの検証損失が大幅に低いことがわかります。これは、モデル容量を増やすか、事前トレーニングのスケジュールを長くすることで、AIM のパフォーマンスを向上できることを示唆しています。

同時に、研究者らはモデルとトレーニング目標のいくつかの変更の影響について議論した。これらのアブレーション実験は、IN-1k データセットで事前トレーニングおよび評価された AIM-0.6B モデルを使用して実行されます。表3にアブレーション実験の結果を示します。

研究者らはまた、自己回帰目的を使用してトレーニングされたアーキテクチャを、言語領域におけるBERTや視覚領域におけるBEiTやMAEなどの一般的なマスキング目的と比較しました。彼らはマスクされた目的を AIM と同じ設定で適用し、事前トレーニング目的がパフォーマンスに与える影響を、AIM と他の方法の間の他の設計選択の違いから分離しました。表 5 は、マスクされたターゲットを使用する場合よりも、自己回帰ターゲットを使用する場合の方が AIM のパフォーマンスが向上することを示しています。

表 6 は、15 種類の異なるベンチマークにおける AIM とその他の SOTA 手法の Attentive Probing パフォーマンスを示しています。

さらに、研究者らは効率的な微調整方法である LoRA も調査しました。表 8 は AIM の LoRA 微調整の結果を示しています。 LoRA は AIM と互換性があり、凍結トランク評価と比較してパフォーマンスが大幅に向上します。たとえば、AIM-7B は (前のレイヤーのパフォーマンスと比較して) 3.9% 向上しますが、微調整されたバックボーンパラメータは 0.1% しか向上しません。

より詳しい技術的な詳細と実験結果については、原著論文を参照してください。

<<: ジェネレーティブAIはソフトウェア開発に3つの幻想をもたらす：高速、高品質、そしてより少ない人員

>>: 2024年のITトレンド、予測、推奨事項