単一のViTモデルがマルチモーダルおよびマルチタスクのタスクを実行し、Googleは共同トレーニング戦略を使用して複数のSOTAを達成します。

[[441692]]

トランスフォーマーは本当に多用途です。

トランスフォーマーは、もともと自然言語処理タスク用に設計された柔軟なニューラルエンドツーエンドモデルのファミリーです。最近、Transformer は画像分類、ビデオ、オーディオなどのさまざまな知覚タスクに適用されています。さまざまなドメインやタスクで最近進歩が見られるにもかかわらず、現在の SOTA メソッドでは、各タスクごとに異なるパラメータを持つ単一のモデルしかトレーニングできません。

最近、Google Research、ケンブリッジ大学、アラン・チューリング研究所の研究者数名が、論文「PolyViT: 画像、動画、音声のビジョントランスフォーマーの共同トレーニング」で、単一の統合モデルをトレーニングするシンプルで効率的な方法を提案しました。彼らは、競争力のある、または SOTA の画像、動画、音声の分類結果を実現するモデルを PolyViT と名付けました。

設計の面では、研究者はさまざまなモダリティに共通のアーキテクチャを使用するだけでなく、さまざまなタスクやモダリティ間でモデルパラメーターを共有することで、潜在的な相乗効果を実現します。技術的には、彼らのアプローチは、トランスフォーマーがトークン化できるあらゆるモダリティで動作できる汎用アーキテクチャであるという事実に触発されています。直感的には、人間の知覚は本質的にマルチモーダルであり、単一の脳によって実行されるという事実に触発されています。

論文アドレス: https://arxiv.org/abs/2111.12993

下の図 1 は、PolyViT の構造の概要を示しています。

研究者が使用する主な方法は、共同トレーニングです。これは、単一のモデルを複数の分類タスク（複数のモダリティにわたる場合もある）で同時にトレーニングすることです。彼らはさまざまな設定を考慮し、最大 9 つの異なる画像、ビデオ、オーディオの分類タスクを同時に解決しました。上の図 1 に示すように、PolyViT モデルは複数のタスクを実行できますが、特定の入力に対して一度に実行できるタスクは 1 つだけです。同様のアプローチはコンピュータービジョンや自然言語の分野でも検討されてきましたが、これまでの研究で複数のモダリティが考慮され、このアプローチを使用して SOTA 結果が達成されたかどうかは不明です。

当社の共同トレーニング設定はシンプルで実用的です。標準的なシングルタスクトレーニングの設定を簡単に適応できるため、共同トレーニングデータセットの組み合わせごとにハイパーパラメータを調整する必要はありません。さらに、共同トレーニングでは、トレーニングステップの合計数が各単一タスクベースラインの合計を超えないため、全体的なトレーニングコストは増加しません。

画像、音声、ビデオでのViTの共同トレーニング

ポリヴィットアーキテクチャ

PolyViT は、複数のモダリティからの入力を処理できる単一のアーキテクチャです。上の図 1 に示すように、研究者はさまざまなタスクとモダリティ間でトランスフォーマーエンコーダーを共有し、タスクの数に応じてパラメーターの数を直線的に減少させました。 L 層を持つ PolyViT は、画像を処理するときは L 層 ViT のように動作し、オーディオを処理するときは L 層 AST のように動作し、ビデオを処理するときは L 層非因数分解 ViViT のように動作することに注意してください。 PolyViT は複数のモダリティを処理できますが、特定のフォワードパスでは 1 つのモダリティに基づいて 1 つのタスクしか実行できません。

PolyViT はモダリティ固有のクラストークンを展開します。

入力埋め込み演算子

位置埋め込み

これにより、ネットワークはモダリティ固有の情報をエンコードできるようになり、その情報は後続の共有トランスフォーマーバックボーンによって利用できるようになります。

モデル容量を増やしながら多数のタスクとモダリティの共同トレーニングを可能にするために、研究者はトークン化後に直接適用される L_adapt ≥ 0 のモダリティ固有のトランスフォーマーレイヤー (モダリティアダプターレイヤーとして示される) を選択的に含めることができます。この場合、L_=shared = L − L_adapt レイヤーはすべてのモダリティとタスク間で共有されます。

共同トレーニングプロセス

確率的勾配降下法 (SGD) を使用して共同トレーニングされたすべてのタスクで、すべての PolyViT モデルパラメーター θ を同時に最適化します。したがって、トレーニングバッチの構築方法、モデルパラメータを更新するための勾配の計算方法、使用するトレーニングハイパーパラメータを決定する際には、多くの設計上の選択肢があります。

いずれの場合も、単一のタスクの例を使用してトレーニングミニバッチを構築します。この設計選択により、従来の単一タスクベースラインと同じトレーニングハイパーパラメータ (学習率、バッチサイズ、運動量など) を使用して、勾配を評価し、パラメータを更新できるようになります。これにより、単一タスクのベースラインと比較して、追加のハイパーパラメータなしで複数のタスクで共同トレーニングを実行できるようになり、共同トレーニングを実際に実行しやすくなり、競争力のある精度を達成するために大規模なハイパーパラメータスイープを実行する必要性が軽減されます。

共同トレーニング中、研究者は SGD ステップごとにタスク (またはデータセット) をサンプリングし、次にこのタスクからミニバッチをサンプリングし、勾配を評価してパラメータの更新を実行します。重要な考慮事項は、タスクをサンプリングする順序と、異なるミニバッチおよびタスクにわたって勾配を蓄積するかどうかです。研究者たちは、以下の図 2 で、次のようないくつかのタスクサンプリングプランを説明しています。

タスク 1: タスクごと
タスク2: 交互
タスク3: 均一タスクサンプリング
タスク4: 重み付けタスクサンプリング
タスク5: 勾配の蓄積

実験

研究者らは、画像、音声、ビデオの 3 つのモダリティで 9 つの異なる分類タスクを同時に PolyViT にトレーニングしました。画像分類の共同トレーニングには、ImageNet-1K、CIFAR-10/100、Oxford-IIIT Pets、RESISC45 データセットが使用され、ビデオタスクには Kinetics 400 および Moments in Time データセットが使用され、オーディオタスクには AudioSet および VGGSound データセットが使用されました。

以下の表6に具体的な実験設定を示します。

以下の表 1 は、さまざまなタスクサンプリングプランが、さまざまなモダリティとタスクでの共同トレーニングパフォーマンスに与える影響を示しています。太字は最高の精度を示し、下線は 2 番目に高い精度を示します。その中で、「タスクごと」のサンプリング計画はパフォーマンスが悪く、1 つのタスクでのみ良好なパフォーマンスを達成しましたが、これは壊滅的な忘却が原因でした。

「累積」サンプリングスケジュールでは、すべてのタスクにわたる累積勾配を使用してパラメーターの更新を実行するため、すべてのタスクにわたって単一の学習率が必要です。したがって、この方式は画像データセットに対してのみ適切に機能します。

「交互」、「均一」、「加重」のサンプリングスケジュールが最もパフォーマンスが高く、タスク固有の学習率と、異なるタスクの勾配更新間の遷移が精度にとって重要であることを示しています。

PolyViTとの共同トレーニング

以下の表 2 は、ViT-Im21K リニアプローブ、シングルタスクベースライン、PolyViT とそのバリエーション (それぞれ PolyViT L_adapt = 0 と PolyViT Ladapt = L/2) を含む、画像、音声、ビデオの 3 つのモダリティにわたる 9 つの異なるタスクを解決するためのモデルトレーニング方法を示しています。

結果は、単一のモダリティでトレーニングされた PolyViT が 9 つのデータセットのうち 7 つで SOTA パフォーマンスを達成し、残りの 2 つのデータセットでの精度の差はわずかで、0.3% を超えないことを示しています。さらに、パラメータの総数は、単一タスクのベースラインの 2/3 少なくなります。一方、マルチモーダル PolyViT は、大幅に少ないパラメータを使用しながら、競争力のあるパフォーマンスも実現します。

線形プローブを使用して学習した表現を評価する

新しいタスク用に新しい線形ヘッドを追加してトレーニングするだけで、PolyViT によって学習された特徴表現を評価します。以下の表 3 は、複数のモダリティでトレーニングされた PolyViT が、画像、オーディオ、ビデオの 3 つのモダリティにわたる 11 の線形評価タスクで優れたパフォーマンスを発揮するクロスモーダル特徴表現をどのように学習するかを示しています。一方、表 3 は、複数のモダリティでの共同トレーニングが、複数の下流タスクで使用できる強力で転送可能な特徴表現を学習するのにどのように役立つかを示しています。

単一モダリティの共同トレーニングを使用してSOTAパフォーマンスを達成する

上記の表 2 のユニモーダル共同トレーニングのパフォーマンスに触発され、研究者はこの方法を使用して、オーディオとビデオの分類タスクに関する大規模な共同トレーニング実験を実行しました。以下の表 4 と 5 は、大幅に少ないパラメータを使用しながら SOTA 結果を達成していることを示しています。

下の表 4 に示すように、研究者はオーディオ分類について、PolyViT を現在の SOTA 方式 MBT (オーディオのみ) とその関連バリアント MBT: AS-500k→VGGSound および MBT: VGGSound→AS-500k と比較しました。結果は、PolyViT が MBT (オーディオのみ) の約半分のパラメータを使用しながら、両方のデータセットで SOTA 方式よりも優れていることを示しています。さらに、PolyViT は、より小規模なデータセット VGGSound で 2.8% の Top 1 精度の向上を達成しました。

ビデオ分類については、研究者らは、Kinetics-400、Kinetics-600、およびMoments in Timeデータセットで、より小さなチューブレットサイズのPolyViT-Largeモデルを共同トレーニングし、それを現在のSOTAモデルViViT（同じ初期化、バックボーン、およびトークン数を使用）と比較しました。結果は下の表 5 に示されており、3 つのデータセットすべてで PolyViT が ViViT よりも優れていることがわかります。

<<: 機械学習の課題：ブラックボックスモデルはこれら3つの問題に直面している

>>: 縮小版のOpenAIの新しいテキスト生成画像モデルGLIDEは、DALL-Eに匹敵する35億のパラメータを持つ。