トランスフォーマーは本当に多用途です。 トランスフォーマーは、もともと自然言語処理タスク用に設計された柔軟なニューラル エンドツーエンド モデルのファミリーです。最近、Transformer は画像分類、ビデオ、オーディオなどのさまざまな知覚タスクに適用されています。さまざまなドメインやタスクで最近進歩が見られるにもかかわらず、現在の SOTA メソッドでは、各タスクごとに異なるパラメータを持つ単一のモデルしかトレーニングできません。 最近、Google Research、ケンブリッジ大学、アラン・チューリング研究所の研究者数名が、論文「PolyViT: 画像、動画、音声のビジョントランスフォーマーの共同トレーニング」で、単一の統合モデルをトレーニングするシンプルで効率的な方法を提案しました。彼らは、競争力のある、または SOTA の画像、動画、音声の分類結果を実現するモデルを PolyViT と名付けました。 設計の面では、研究者はさまざまなモダリティに共通のアーキテクチャを使用するだけでなく、さまざまなタスクやモダリティ間でモデル パラメーターを共有することで、潜在的な相乗効果を実現します。技術的には、彼らのアプローチは、トランスフォーマーがトークン化できるあらゆるモダリティで動作できる汎用アーキテクチャであるという事実に触発されています。直感的には、人間の知覚は本質的にマルチモーダルであり、単一の脳によって実行されるという事実に触発されています。 論文アドレス: https://arxiv.org/abs/2111.12993 下の図 1 は、PolyViT の構造の概要を示しています。 研究者が使用する主な方法は、共同トレーニングです。これは、単一のモデルを複数の分類タスク(複数のモダリティにわたる場合もある)で同時にトレーニングすることです。彼らはさまざまな設定を考慮し、最大 9 つの異なる画像、ビデオ、オーディオの分類タスクを同時に解決しました。上の図 1 に示すように、PolyViT モデルは複数のタスクを実行できますが、特定の入力に対して一度に実行できるタスクは 1 つだけです。同様のアプローチはコンピュータービジョンや自然言語の分野でも検討されてきましたが、これまでの研究で複数のモダリティが考慮され、このアプローチを使用して SOTA 結果が達成されたかどうかは不明です。 当社の共同トレーニング設定はシンプルで実用的です。標準的なシングルタスクトレーニングの設定を簡単に適応できるため、共同トレーニングデータセットの組み合わせごとにハイパーパラメータを調整する必要はありません。さらに、共同トレーニングでは、トレーニング ステップの合計数が各単一タスク ベースラインの合計を超えないため、全体的なトレーニング コストは増加しません。 画像、音声、ビデオでのViTの共同トレーニングポリヴィットアーキテクチャPolyViT は、複数のモダリティからの入力を処理できる単一のアーキテクチャです。上の図 1 に示すように、研究者はさまざまなタスクとモダリティ間でトランスフォーマー エンコーダーを共有し、タスクの数に応じてパラメーターの数を直線的に減少させました。 L 層を持つ PolyViT は、画像を処理するときは L 層 ViT のように動作し、オーディオを処理するときは L 層 AST のように動作し、ビデオを処理するときは L 層非因数分解 ViViT のように動作することに注意してください。 PolyViT は複数のモダリティを処理できますが、特定のフォワードパスでは 1 つのモダリティに基づいて 1 つのタスクしか実行できません。 PolyViT はモダリティ固有のクラス トークンを展開します。 入力埋め込み演算子 位置埋め込み これにより、ネットワークはモダリティ固有の情報をエンコードできるようになり、その情報は後続の共有トランスフォーマー バックボーンによって利用できるようになります。 モデル容量を増やしながら多数のタスクとモダリティの共同トレーニングを可能にするために、研究者はトークン化後に直接適用される L_adapt ≥ 0 のモダリティ固有のトランスフォーマー レイヤー (モダリティ アダプター レイヤーとして示される) を選択的に含めることができます。この場合、L_=shared = L − L_adapt レイヤーはすべてのモダリティとタスク間で共有されます。 共同トレーニングプロセス確率的勾配降下法 (SGD) を使用して共同トレーニングされたすべてのタスクで、すべての PolyViT モデル パラメーター θ を同時に最適化します。したがって、トレーニング バッチの構築方法、モデル パラメータを更新するための勾配の計算方法、使用するトレーニング ハイパーパラメータを決定する際には、多くの設計上の選択肢があります。 いずれの場合も、単一のタスクの例を使用してトレーニング ミニバッチを構築します。この設計選択により、従来の単一タスク ベースラインと同じトレーニング ハイパーパラメータ (学習率、バッチ サイズ、運動量など) を使用して、勾配を評価し、パラメータを更新できるようになります。これにより、単一タスクのベースラインと比較して、追加のハイパーパラメータなしで複数のタスクで共同トレーニングを実行できるようになり、共同トレーニングを実際に実行しやすくなり、競争力のある精度を達成するために大規模なハイパーパラメータスイープを実行する必要性が軽減されます。 共同トレーニング中、研究者は SGD ステップごとにタスク (またはデータセット) をサンプリングし、次にこのタスクからミニバッチをサンプリングし、勾配を評価してパラメータの更新を実行します。重要な考慮事項は、タスクをサンプリングする順序と、異なるミニバッチおよびタスクにわたって勾配を蓄積するかどうかです。研究者たちは、以下の図 2 で、次のようないくつかのタスク サンプリング プランを説明しています。
実験研究者らは、画像、音声、ビデオの 3 つのモダリティで 9 つの異なる分類タスクを同時に PolyViT にトレーニングしました。画像分類の共同トレーニングには、ImageNet-1K、CIFAR-10/100、Oxford-IIIT Pets、RESISC45 データセットが使用され、ビデオタスクには Kinetics 400 および Moments in Time データセットが使用され、オーディオタスクには AudioSet および VGGSound データセットが使用されました。 以下の表6に具体的な実験設定を示します。 以下の表 1 は、さまざまなタスク サンプリング プランが、さまざまなモダリティとタスクでの共同トレーニング パフォーマンスに与える影響を示しています。太字は最高の精度を示し、下線は 2 番目に高い精度を示します。その中で、「タスクごと」のサンプリング計画はパフォーマンスが悪く、1 つのタスクでのみ良好なパフォーマンスを達成しましたが、これは壊滅的な忘却が原因でした。 「累積」サンプリング スケジュールでは、すべてのタスクにわたる累積勾配を使用してパラメーターの更新を実行するため、すべてのタスクにわたって単一の学習率が必要です。したがって、この方式は画像データセットに対してのみ適切に機能します。 「交互」、「均一」、「加重」のサンプリング スケジュールが最もパフォーマンスが高く、タスク固有の学習率と、異なるタスクの勾配更新間の遷移が精度にとって重要であることを示しています。 PolyViTとの共同トレーニング以下の表 2 は、ViT-Im21K リニア プローブ、シングル タスク ベースライン、PolyViT とそのバリエーション (それぞれ PolyViT L_adapt = 0 と PolyViT Ladapt = L/2) を含む、画像、音声、ビデオの 3 つのモダリティにわたる 9 つの異なるタスクを解決するためのモデル トレーニング方法を示しています。 結果は、単一のモダリティでトレーニングされた PolyViT が 9 つのデータセットのうち 7 つで SOTA パフォーマンスを達成し、残りの 2 つのデータセットでの精度の差はわずかで、0.3% を超えないことを示しています。さらに、パラメータの総数は、単一タスクのベースラインの 2/3 少なくなります。一方、マルチモーダル PolyViT は、大幅に少ないパラメータを使用しながら、競争力のあるパフォーマンスも実現します。 線形プローブを使用して学習した表現を評価する新しいタスク用に新しい線形ヘッドを追加してトレーニングするだけで、PolyViT によって学習された特徴表現を評価します。以下の表 3 は、複数のモダリティでトレーニングされた PolyViT が、画像、オーディオ、ビデオの 3 つのモダリティにわたる 11 の線形評価タスクで優れたパフォーマンスを発揮するクロスモーダル特徴表現をどのように学習するかを示しています。一方、表 3 は、複数のモダリティでの共同トレーニングが、複数の下流タスクで使用できる強力で転送可能な特徴表現を学習するのにどのように役立つかを示しています。 単一モダリティの共同トレーニングを使用してSOTAパフォーマンスを達成する上記の表 2 のユニモーダル共同トレーニングのパフォーマンスに触発され、研究者はこの方法を使用して、オーディオとビデオの分類タスクに関する大規模な共同トレーニング実験を実行しました。以下の表 4 と 5 は、大幅に少ないパラメータを使用しながら SOTA 結果を達成していることを示しています。 下の表 4 に示すように、研究者はオーディオ分類について、PolyViT を現在の SOTA 方式 MBT (オーディオのみ) とその関連バリアント MBT: AS-500k→VGGSound および MBT: VGGSound→AS-500k と比較しました。結果は、PolyViT が MBT (オーディオのみ) の約半分のパラメータを使用しながら、両方のデータセットで SOTA 方式よりも優れていることを示しています。さらに、PolyViT は、より小規模なデータセット VGGSound で 2.8% の Top 1 精度の向上を達成しました。 ビデオ分類については、研究者らは、Kinetics-400、Kinetics-600、およびMoments in Timeデータセットで、より小さなチューブレットサイズのPolyViT-Largeモデルを共同トレーニングし、それを現在のSOTAモデルViViT(同じ初期化、バックボーン、およびトークン数を使用)と比較しました。結果は下の表 5 に示されており、3 つのデータセットすべてで PolyViT が ViViT よりも優れていることがわかります。 |
<<: 機械学習の課題:ブラックボックスモデルはこれら3つの問題に直面している
>>: 縮小版のOpenAIの新しいテキスト生成画像モデルGLIDEは、DALL-Eに匹敵する35億のパラメータを持つ。
[[176814]]映画、ドラマ、テレビ番組、オンライン ビデオなどの配信チャネルのコンテンツ ワー...
GPT をゼロから構築するには 60 行のコードが必要ですか?最近、開発者が Numpy コードを使...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
マイクロソフトなどの企業から強力なサポートを受けて、人工知能のスタートアップ企業であるOpenAIは...
現象:再帰は、アルゴリズムの原理をうまく説明できる古典的なアルゴリズム実装です。再帰は、アルゴリズム...
成熟した Tensorflow および PyTorch フレームワークを使用して再帰ニューラル ネッ...
Mobile World Congress 2024 で AI について言及しないわけにはいきません...
[[353503]]画像ソース: https://pixabay.com/images/id-575...
エッジコンピューティングと人工知能の組み合わせにより、エッジ人工知能 (エッジ AI) は現在のテク...
李静さん(仮名)は、団地内の自分のアパートのドアを開けることができなくなった。ドアには「顔認識」装置...