ViT以外にも、美団、浙江大学などが、視覚タスクのための統合アーキテクチャであるVisionLLAMAを提案した。

過去 6 か月間にわたり、Meta のオープンソース LLaMA アーキテクチャはテストされ、LLM (安定したトレーニングと簡単なスケーリング) に正常に実装されました。

ViT の研究アイデアに従って、革新的な LLaMA アーキテクチャを使用して、言語と画像のアーキテクチャの統一を真に実現できるでしょうか?

最近の研究である VisionLLaMA は、この提案に関して進歩を遂げました。 VisionLLaMA は、画像生成 (Sora が依存する基礎となる DIT を含む) や理解 (分類、セグメンテーション、検出、自己監督) などの複数の主流タスクにおいて、元の ViT タイプの方法に比べて大幅な改善を実現しました。

論文タイトル: VisionLLaMA: 視覚タスクのための統合 LLaMA インターフェース
論文アドレス: https://arxiv.org/abs/2403.00522
コードアドレス: https://github.com/Meituan-AutoML/VisionLLaMA

この研究では、イメージと言語のアーキテクチャを統一することを試みており、LLM コミュニティのトレーニング (安定した効果的なスケーリング)、展開、およびその他の成果を LLaMA で再利用できます。

背景

大規模言語モデルは、現在の学術研究のホットな話題です。その中でも、LLaMA は最も影響力のある代表的な研究の 1 つです。最新の研究成果の多くはこのアーキテクチャに基づいており、さまざまなアプリケーションのソリューションは、主にこの一連のオープンソースモデル上に構築されています。マルチモーダルモデルの進歩において、その多くはテキスト処理に LLaMA を、視覚認識に CLIP などの視覚トランスフォーマーに依存しています。同時に、LLaMA の推論速度の向上と LLaMA のストレージコストの削減に多くの取り組みが行われています。全体として、LLaMA は現在、事実上最も一般的で重要な大規模言語モデルアーキテクチャです。

LLaMA アーキテクチャの成功により、この論文の著者は、シンプルでありながら興味深い疑問を提起しました。このアーキテクチャは視覚モダリティでも同様に成功する可能性があるでしょうか?答えが「はい」の場合、ビジョンモデルと言語モデルの両方で同じ統合アーキテクチャを使用でき、LLaMA 用に設計されたさまざまな動的展開手法のメリットを享受できます。しかし、2 つの方式には明確な違いがあるため、これは複雑な問題です。

まず、次元の違いがあります。テキストシーケンスは 1 次元ですが、視覚タスクは 2 次元以上のデータを処理する必要があります。次に、構造の違いがあります。多くの視覚タスクは、より良いパフォーマンスを実現するためにピラミッド構造のバックボーンネットワークに依存していますが、LLaMA は構造的に単純なエンコーダーです。最後に、さまざまな解像度の画像とビデオの入力を効果的に処理する必要があります。

本論文は、これらの課題に対処し、異なるモダリティ間のアーキテクチャのギャップを埋めることを目的としています。具体的には、視覚タスクに適応した LLaMA アーキテクチャを提案し、モダリティの違いに関連する困難に対処し、視覚データと言語データを処理するための統一されたアプローチを実現します。

この論文の主な貢献は次のとおりです。

1. この論文では、言語と視覚のアーキテクチャの違いを減らすために、LLaMA に似たビジュアルトランスフォーマーアーキテクチャである VisionLLaMA を提案します。

2. この論文では、VisionLLaMA を画像の理解や作成などの一般的な視覚タスクに適応させる方法について調査します (図 1)。本稿では、2 つのよく知られたビジョンアーキテクチャ (従来型とピラミッド型) を研究し、教師あり学習と自己教師あり学習のシナリオでのパフォーマンスを評価します。さらに、本論文では、回転位置エンコーディングを 1D から 2D に拡張し、補間スケーリングを利用して任意の解像度に適応する AS2DRoPE (Automatic Scaling 2D RoPE) を提案しています。

3. 精密な評価では、VisionLLaMA は、画像生成、分類、セマンティックセグメンテーション、オブジェクト検出などの多くの代表的なタスクにおいて、現在主流で精密に微調整されたビジュアルトランスフォーマーを大幅に上回ります。広範囲にわたる実験により、VisionLLaMA は既存のビジュアルトランスフォーマーよりも収束速度が速く、パフォーマンスが優れていることが示されています。

VisionLLaMA 全体アーキテクチャ設計

従来型変圧器

本論文で提案する従来の VisionLLaMA は、ViT のプロセスに従い、LLaMA のアーキテクチャ設計を可能な限り保持します。画像の場合、最初にシーケンスに変換およびフラット化され、次にカテゴリトークンがシーケンスの先頭に追加され、シーケンス全体が L VisionLLaMA ブロックによって処理されます。 ViT とは異なり、VisionLLaMA のブロックには位置エンコーディングが含まれているため、VisionLLaMA は入力シーケンスに位置エンコーディングを追加しません。具体的には、このブロックは、位置エンコーディングによる自己注意 (RoPE) と SwiGLU アクティベーションという 2 つの点で標準の ViT ブロックと異なります。この論文では、RMSNorm ではなく LayerNorm を使用しています。これは、実験により前者の方がパフォーマンスが優れていることがわかったためです (表 11g を参照)。ブロックの構造を図2(a)に示します。この論文では、視覚タスクに 1D RoPE を直接適用することは、さまざまな解像度にうまく一般化されないため、2 次元形式に拡張されることがわかっています。

ピラミッド構造トランス

VisionLLaMA を Swin のようなウィンドウベースのトランスフォーマーに適用するのは簡単なので、より強力なベースライン Twins の上に強力なピラミッド構造のトランスフォーマーを構築する方法を検討することにしました。 Twins のオリジナルアーキテクチャは、条件付き位置エンコーディング、ローカルグローバルアテンションの形式でのインターリーブされたローカルグローバル情報交換を活用します。これらのコンポーネントはさまざまな変圧器で非常に一般的であるため、さまざまな変圧器のバリエーションに VisionLLaMA を適用することは難しくありません。

この論文の目的は、まったく新しいピラミッド構造のビジュアルトランスフォーマーを発明することではなく、既存の設計に基づいて VisionLLaMA の基本設計を調整することです。したがって、この論文では、アーキテクチャとハイパーパラメータの変更を最小限に抑えるという原則に従います。 ViT 命名規則に従って、連続する 2 つのブロックは次のように記述できます。

ここで、LSA はグループ内のローカルな自己注意操作であり、GSA は各サブウィンドウ内の代表的なキー値と対話することによるグローバルなサブサンプリング注意です。 AS2DRoPE にはすでに位置情報が含まれているため、この論文ではピラミッド構造 VisionLLaMA の条件付き位置エンコーディングを削除します。さらに、カテゴリトークンを削除し、分類ヘッドの前にGAP（グローバル平均プーリング）を使用します。この設定でのブロック構造を図2（b）に示します。

シーケンスの長さ制限を超えたトレーニングまたは推論

1D RoPE を 2D に拡張: さまざまな入力解像度を処理することは、ビジョンタスクの一般的な要件です。畳み込みニューラルネットワークは、スライディングウィンドウメカニズムを使用して可変長を処理します。対照的に、ほとんどのビジュアルトランスフォーマーはローカルウィンドウ操作または補間を適用します。たとえば、DeiT は異なる解像度でトレーニングするときに双三次補間を採用し、CPVT は畳み込みベースの位置エンコーディングを使用します。この論文では、1D RoPE の性能を評価し、解像度 224×224 で最も高い精度が得られることがわかりました。ただし、解像度が 448×448 に増加すると、精度が急激に低下したり、0 になったりします。したがって、本論文では 1 次元の RoPE を 2 次元に拡張します。マルチヘッド自己注意メカニズムでは、2D RoPE が異なるヘッド間で共有されます。

位置補間により、2D RoPE の一般化が向上します。補間を使用して LLaMA のコンテキストウィンドウを拡張するいくつかの研究に触発され、VisionLLaMA は、より高い解像度を使用して 2D コンテキストウィンドウを拡張する同様の方法を採用しています。拡大された固定コンテキスト長を持つ言語タスクとは異なり、オブジェクト検出などの視覚タスクでは通常、異なる反復で異なるサンプリング解像度が処理されます。入力解像度 224×224 の小さなモデルをトレーニングし、再トレーニングなしでより大きな解像度でパフォーマンスを評価します。これにより、補間またはヘテロダイニング戦略をより適切に適用できるようになります。実験の結果、この論文では「アンカーポイント解像度」(AS2DRoPE) に基づく自動スケーリング補間を適用することを選択しました。 H×Hの正方形画像とB×Bのアンカーポイント解像度を処理するための計算方法は次のとおりです。

この計算方法は効率的であり、追加コストは発生しません。トレーニング解像度が変更されない場合、AS2DRoPE は 2D RoPE に退化します。

要約されたキー値に位置情報を追加する必要があるため、この論文ではピラミッド構造設定の下で GSA に対して特別な処理を行います。これらのサブサンプリングされたキーは、特徴マップの抽象化を通じて生成されます。この論文では、カーネルサイズ k×k およびストライド k の畳み込みを使用します。図3に示すように、生成されたキー値の座標は、サンプリングされた特徴の平均として表現できます。

実験結果

この論文では、画像生成、分類、セグメンテーション、検出などのタスクにおける VisionLLaMA の有効性を総合的に評価します。デフォルトでは、この記事のすべてのモデルは 8 つの NVIDIA Tesla A100 GPU でトレーニングされています。

画像生成

DiT フレームワークに基づく画像生成: DiT はビジュアル Transformer と DDPM を使用した画像生成の代表的な研究であるため、この論文では DiT フレームワークの下で VisionLLaMA を適用することを選択しました。この論文では、他のコンポーネントとハイパーパラメータを変更せずに、DiT のオリジナルのビジュアルトランスフォーマーを VisionLLaMA に置き換えます。この実験は、画像生成タスクにおける VisionLLaMA の汎用性を実証します。 DiTと同様に、この論文ではDDPMのサンプルステップを250に設定しています。実験結果を表1に示します。ほとんどの方法と同様に、FID は主要なメトリックと見なされ、sFID、精度/再現率、インセプションスコアなどの他の二次メトリックに基づいて評価されます。結果は、VisionLLaMA がさまざまなモデルサイズで DiT を大幅に上回ることを示しています。また、XL モデルのトレーニングステップを 2352k に拡張して、モデルの収束速度が速くなるか、トレーニングサイクルの設定が長くてもパフォーマンスが向上するかどうかを評価します。 DiT-LLaMA-XL/2 の FID は DiT-XL/2 よりも 0.83 低く、VisionLLaMA は計算効率が優れているだけでなく、DiT よりもパフォーマンスも高いことがわかります。 XL モデルを使用して生成されたいくつかの例を図 1 に示します。

SiT フレームワークに基づく画像生成: SiT フレームワークは、ビジュアルトランスフォーマーを使用した画像生成のパフォーマンスを大幅に向上させます。この論文では、SiT のビジュアルトランスフォーマーを VisionLLaMA に置き換えて、より優れたモデルアーキテクチャ (この論文では SiT-LLaMA と呼んでいます) の利点を評価します。 SiT のその他の設定とハイパーパラメータはすべて保持されました。すべてのモデルは同じステップ数でトレーニングされ、すべての実験で線形補間モデルと速度モデルが使用されました。公平な比較のために、公開されたコードを再実行し、250 ステップの SDE サンプラー (オイラー) を使用して 50,000 個の 256×256 画像をサンプリングしました。結果を表 2 に示します。 SiT-LLaMA は、さまざまな容量レベルのモデルにおいて SiT よりも優れたパフォーマンスを発揮します。 SiT-L/2 と比較すると、SiT-LLaMA-L/2 は FID を 5.0 削減します。これは、新しいフレームワークによってもたらされる改善 (4.0 FID) よりも大きい値です。この論文では、表 13 でより効率的な ODE サンプラー (dopri5) も示していますが、この論文の方法とのパフォーマンスのギャップはまだ存在しています。 SiT 論文と同様の結論を導き出すことができます。つまり、SDE は ODE よりもパフォーマンスが優れています。

ImageNet での画像分類

完全監督下のトレーニング

このセクションでは、他のデータセットや蒸留手法の影響を除外し、ImageNet-1K データセットでのモデルの完全教師付きトレーニングに焦点を当てます。すべてのモデルは ImageNet-1K トレーニングセットを使用してトレーニングされ、検証セットでの精度の結果は表 3 に示されています。

従来のビジョントランスフォーマーとの比較: DeiT3 は、特別なデータ拡張を提案し、広範なハイパーパラメータ検索を実行してパフォーマンスを向上させる、現在の最先端の従来のビジョントランスフォーマーです。 DeiT3 はハイパーパラメータに敏感で、過剰適合になりがちです。カテゴリトークンを GAP (グローバル平均プーリング) に置き換えると、800 エポックのトレーニング後に DeiT3-Large モデルの精度が 0.7% 低下します。そのため、本論文では、通常のトランスフォーマーではGAPの代わりにカテゴリトークンを使用します。結果は表 3 に示されており、VisionLLaMA は DeiT3 と同等のトップ 1 精度を達成しています。単一の解像度での精度だけでは包括的な比較はできないため、異なる画像解像度でのパフォーマンスも評価します。結果を表 4 に示します。 DeiT3 では、学習可能な位置エンコーディングに双三次補間を使用します。 2 つのモデルは 224×224 の解像度では同等のパフォーマンスを発揮しますが、解像度が高くなるとその差は広がります。これは、私たちの手法がさまざまな解像度でより優れた一般化能力を持っていることを意味し、これは物体検出などの多くの下流タスクにとって重要です。

ピラミッド構造のビジュアルトランスフォーマーの比較: この論文ではTwins-SVTと同じアーキテクチャを使用しており、詳細な構成は表17に記載されています。 VisionLLaMA にはすでに回転位置エンコーディングが含まれているため、この論文では条件付き位置エンコーディングを削除します。したがって、VisionLLaMA は畳み込みのないアーキテクチャです。本論文では、Twins-SVT のハイパーパラメータを含むすべての設定を使用します。Twins-SVT に合わせて、本論文ではカテゴリトークンを使用せず、GAP を適用します。結果を表 3 に示します。当社の方法は、すべてのモデルレベルで Twins と同等のパフォーマンスを達成し、一貫して Swin を上回ります。

自己監督トレーニング

この論文では、ImageNet データセットを使用して、自己教師ありビジュアルトランスフォーマーの 2 つの一般的な方法を評価します。トレーニングデータは ImageNet-1K に限定し、CLIP、DALLE、または蒸留を使用してパフォーマンスを向上できるコンポーネントはすべて削除します。この論文の実装は MMPretrain フレームワークに基づいており、MAE フレームワークを使用し、エンコーダーを VisionLLaMA に置き換えて、他のコンポーネントは変更しません。この制御実験により、提案された方法の有効性を評価することができます。さらに、比較対象方法と同じハイパーパラメータ設定を使用しており、その場合でも強力なベースラインよりも大幅なパフォーマンスの向上を実現しています。

完全な微調整設定: 現在の設定では、モデルは最初に事前トレーニング済みの重みで初期化され、その後、完全にトレーニング可能なパラメータで追加トレーニングされます。 VisionLLaMA-Base は、ImageNet で 800 エポックのトレーニングを行った後、84.0% のトップ 1 精度を達成しました。これは、ViT-Base よりも 0.8% 高い数値です。私たちの方法のトレーニング速度は SimMIM よりも約 3 倍高速です。この論文では、トレーニングサイクルを 1600 に増やし、VisionLLaMA が十分なトレーニングリソースでその優位性を維持できるかどうかを検証します。 VisionLLaMA-Base は、MAE バリアントの中で新しい SOTA 結果を達成し、トップ 1 の精度は 84.3% となり、ViT-Base より 0.9% 向上しました。完全な微調整にはパフォーマンス飽和のリスクがあることを考慮すると、この方法の改善は非常に重要です。

線形プロービング: 最近の研究では、線形プロービングメトリックは表現学習のより信頼性の高い評価であると主張しています。現在の設定では、モデルは SSL ステージからの事前トレーニング済みの重みを使用して初期化されます。次に、トレーニング中は、分類器ヘッドを除くバックボーンネットワーク全体がフリーズされます。結果は表 5 に示されています。トレーニングコストが 800 エポックの場合、VisionLLaMA-Base は ViTBase-MAE よりも 4.6% 優れています。また、1600エポックにわたってトレーニングされたViT-Base-MAEを上回ります。 VisionLLaMA を 1600 エポックトレーニングすると、VisionLLaMA-Base は 71.7% のトップ 1 精度を達成します。提案された方法は VisionLLaMA-Large にも拡張され、ViT-Large と比較して 3.6% の改善が見られます。

ADE20Kデータセットにおけるセマンティックセグメンテーション

完全監督下のトレーニング

Swin の設定に従って、ADE20K データセットでセマンティックセグメンテーションを使用して、この方法の有効性を評価します。公平な比較のために、ベースラインモデルは ImageNet-1K のみを使用して事前トレーニングされるように制限します。この論文では、UperNet フレームワークを使用し、バックボーンネットワークをピラミッド構造の VisionLLaMA に置き換えます。この記事の実装は、MMSegmentation フレームワークに基づいています。モデルのトレーニングステップは 160k に設定され、グローバルバッチサイズは 16 です。結果は表 6 に示されています。同様の FLOP では、私たちの方法は Swin および Twins よりも 1.2% mIoU 以上優れています。

自己監督トレーニング

この論文では、ADE20K データセットのセマンティックセグメンテーションに UperNet フレームワークを使用し、他のコンポーネントとハイパーパラメータを変更せずに、ViT バックボーンを VisionLLaMA に置き換えています。この論文の実装はMMSegmentationに基づいており、その結果は表7に示されています。 800 エポックの事前トレーニンググループの場合、VisionLLaMA-B により ViT-Base が 2.8% mIoU 大幅に向上します。私たちのアプローチは、追加のトレーニング目標や機能の導入など、トレーニングプロセスに追加のオーバーヘッドをもたらし、トレーニングを遅くする可能性のある他の改善点よりも大幅に優れています。対照的に、VisionLLaMA はベースモデルの置き換えのみを必要とし、トレーニング速度が高速です。この論文では、1600 のより長い事前トレーニングエポックのパフォーマンスをさらに評価し、VisionLLaMA-B は ADE20K 検証セットで 50.2% mIoU を達成し、ViT-B のパフォーマンスを 2.1% mIoU 向上させました。

COCOデータセット上のオブジェクト検出

完全監督下のトレーニング

この論文では、COCO データセットのオブジェクト検出タスクにおけるピラミッド構造 VisionLLaMA のパフォーマンスを評価します。この論文では、Mask RCNN フレームワークを使用し、バックボーンネットワークを Swin の設定に似たピラミッド構造の VisionLLaMA に置き換えています。ピラミッド構造の VisionLLaMA は、ImageNet-1K データセットで 300 エポックにわたって事前トレーニングされています。したがって、私たちのモデルは Twins と同じ数のパラメーターと FLOP を持ちます。この実験は、ターゲット検出タスクにおける提案手法の有効性を検証するために使用できます。この論文の実装は MMDetection フレームワークに基づいています。表 8 は、標準の 36 エポックトレーニングサイクル (3×) の結果を示しています。この論文のモデルは、Swin や Twins よりも優れています。具体的には、VisionLLaMA-B は Swin-S よりもボックス mAP が 1.5%、マスク mAP が 1.0% 優れています。より強力なベースライン Twins-B と比較すると、私たちの方法はボックス mAP が 1.1% 高く、マスク mAP が 0.8% 高いという利点があります。

自己監督トレーニング

本稿では、ViTDet フレームワークに基づく VisionLLaMA を適用します。ViTDet フレームワークは、従来のビジュアルトランスフォーマーを利用して、ピラミッド構造のトランスフォーマーと同等のパフォーマンスを実現します。この論文では、Mask RCNN 検出器を使用し、vit-Base バックボーンネットワークを、MAE で 800 ラウンド事前トレーニングされた VisionLLaMA-Base モデルに置き換えます。オリジナルの ViTDet はゆっくりと収束し、最適なパフォーマンスを達成するには、より長いトレーニングサイクルなどの特殊なトレーニング戦略が必要です。トレーニングプロセス中に、VisionLLaMA が 30 エポック後に同様のパフォーマンスを達成したことがわかったので、標準の 3 倍トレーニング戦略を直接適用しました。私たちの方法のトレーニングコストはベースラインのわずか 36% です。比較した方法とは異なり、私たちの方法は最適なハイパーパラメータ検索を実行しません。結果は表9に示されています。VisionLLaMAは、Box mAPでViT-Bを0.6%、マスクmAPで0.8%上回りました。

アブレーション実験と考察

アブレーション実験

デフォルトでは、ViT-Large モデルでアブレーション実験を実行することを選択します。このモデルでは、複数回の実行で変動が少なくなると観察されているためです。

FFN と SwiGLU の除去: この論文では、FFN を SwiGLU に置き換え、その結果を表 11a に示します。明らかなパフォーマンスギャップがあるため、この論文では、LLaMA アーキテクチャに追加の変更を加えることを避けるために、SwiGLU を使用することを選択しました。

正規化戦略の廃止: トランスフォーマーで広く使用されている 2 つの正規化方法、RMSNorm と LayerNorm を比較し、結果を表 11g に示します。後者の方が最終的なパフォーマンスが優れているため、再中心化の不変性も視覚タスクでは重要であることが示唆されます。この論文では、トレーニング速度を測定するために各反復に費やされた平均時間も計算しており、LayerNorm は RMSNorm よりもわずか 2% 遅いだけです。したがって、この論文では、よりバランスの取れたパフォーマンスを得るために、RMSNorm ではなく LayerNorm を選択します。

部分的な位置エンコーディング: この論文では、RoPE を使用してすべてのチャネルの比率を調整しています。結果は表 11b に示されています。結果から、比率を小さなしきい値に設定すると良好なパフォーマンスを実現でき、異なる設定間で大きなパフォーマンスの違いは見られないことがわかります。したがって、この論文では LLaMA のデフォルト設定をそのまま使用します。

基本周波数: 基本周波数を変更して比較した結果が表 11c に示されています。この表から、パフォーマンスが広範囲の周波数で堅牢であることが分かります。そのため、本稿では、展開中に追加の特別な処理を回避するために、LLaMA のデフォルト値を維持します。

各アテンションヘッド間での位置エンコーディングの共有: 表 11d に示すように、異なるヘッド間で同じ PE (各ヘッドの周波数が 1 から 10,000 まで変化する) を共有すると、独立した PE (すべてのチャネルの周波数が 1 から 10,000 まで変化する) よりもパフォーマンスが優れていることがわかりました。

特徴抽出戦略：この論文では、大規模パラメータスケールモデル（-L）における2つの一般的な特徴抽出戦略、カテゴリトークンとGAPを比較する。結果は表11eに示す。カテゴリトークンの使用はGAPよりも優れているが、これはPEG [13]で得られた結論とは異なる。ただし、2 つの方法のトレーニング設定はまったく異なります。この論文では、DeiT3-L を使用した追加の実験も実施し、同様の結論を得ました。この論文では、「小型」（-S）モデルと「ベース」（-B）モデルのパフォーマンスをさらに評価します。興味深いことに、小規模モデルでは反対の結論が観察され、DeiT3 で使用されるドロップパスレートが高いため、GAP などのパラメーター不要の抽象化方法では目的の効果を達成することが困難になっているのではないかと疑う理由が生まれました。

位置エンコーディング戦略: ピラミッド構造 VisionLLaMA-S 上で、学習可能な位置エンコーディングや PEG などの他の絶対位置エンコーディング戦略も評価します。強力なベースラインが存在するため、「小さい」モデルを使用し、その結果を表 11f に示します。学習可能な PE ではパフォーマンスは向上せず、PEG ではベースラインが 81.6% から 81.8% にわずかに向上します。この記事では、次の 3 つの理由から PEG を必須コンポーネントとして含めません。まず、この論文では LLaMA に最小限の変更を加えることを試みます。第二に、本論文の目的は、ViT などのさまざまなタスクに対する一般的な方法を提案することです。 MAE のようなマスクされた画像フレームワークの場合、PEG によってトレーニングコストが増加し、下流のタスクのパフォーマンスが低下する可能性があります。原則として、スパース PEG は MAE フレームワークの下で適用できますが、展開に適さない演算子が導入されます。疎畳み込みに密バージョンと同じくらい十分な位置情報が含まれているかどうかは未解決の問題です。第三に、モダリティフリー設計は、テキストや視覚以外の他のモダリティをカバーするさらなる研究への道を開きます。

入力サイズに対する感度: トレーニングなしで、解像度の増加と共通解像度のパフォーマンスをさらに比較し、結果を表 12 に示します。ここでピラミッド構造のトランスフォーマーが使用されるのは、下流のタスクでは対応する非階層バージョンよりも人気があるためです。 1D-RoPE のパフォーマンスが解像度の変更によって大きく影響を受けるのは当然のことです。 α = 2 の NTK 対応補間は、実際には NTK 対応 (α = 1) である 2D-RoPE と同様のパフォーマンスを実現します。 AS2DRoPE は、より高い解像度で最高のパフォーマンスを発揮します。

話し合う

収束速度: 画像生成については、100k、200k、300k、400k の反復で重みを保存し、忠実度メトリックを計算しながら、さまざまなトレーニングステップ数でのパフォーマンスを調査します。 SDE は ODE よりも大幅に遅いため、この論文では ODE サンプラーを使用することを選択します。表 10 の結果は、VisionLLaMA がすべてのモデルで ViT よりもはるかに速く収束することを示しています。 30 万回のトレーニング反復を行った SiT-LLaMA は、40 万回のトレーニング反復を行ったベースラインモデルよりも優れたパフォーマンスを発揮します。

また、ImageNet での 800 エポックの DeiT3-Large 完全教師ありトレーニングのトップ 1 精度を図 4 と比較すると、VisionLLaMA は DeiT3-L よりも速く収束することが示されています。この論文では、MAE フレームワークの下で ViT-Base モデルの 800 エポックのトレーニング損失をさらに比較し、図 5 に示します。 VisionLLaMA は、開始時のトレーニング損失が低く、最後までこの傾向を維持します。

<<: 「Google は依然として最高です。」仕事を辞めて自分のビジネスを始めて 1 年経った後、大規模なモデルのトレーニングには多くの落とし穴があることに気づきました。

>>: Googleの失敗が露呈: 内部にリーダーがおらず、生の画像の仕組みが「多様」すぎた