AVFormer: ゼロショット AV-ASR のフリーズドスピーチモデルに視覚を注入

翻訳者 | 崔昊

レビュー | Chonglou

まとめ

Google Research の研究科学者である Arsha Nagrani 氏と Paul Hongsuck Seo 氏は、既存の音声のみのASR モデルに視覚的理解を注入して、さまざまな領域にわたる一般化パフォーマンスを向上させるAVFormer という新しい手法を発表しました。 AVFormer は、最小限の追加トレーニング時間とパラメータで少量の弱くラベル付けされたビデオデータでトレーニングできる軽量のトレーニング可能なアダプターを使用して、固定された ASR モデルに視覚的な埋め込みを挿入します。このアプローチは、手動注釈なしで AV-ASR データセットでトレーニングした場合に、ゼロショットのパフォーマンス、つまり最先端のパフォーマンスを実現します。

[編集者注:機械学習とディープラーニングでは、「フリーズ」とは一般に、トレーニング中にモデルの特定の部分またはパラメータを変更しないことを指します。これは通常、バックプロパゲーション中にこれらのパラメータの更新を無効にすることによって実現されます。「固定音声モデル」とは、この音声認識モデルが新しい視覚タスクに使用されるときに、そのパラメータが変更されず、それ以上トレーニングも調整もされないことを意味します。】

導入

自動音声認識 (ASR) は、テレビ会議、ビデオの文字起こし、音声コマンドなどのさまざまなアプリケーションで広く使用されている成熟したテクノロジーです。この技術の課題は主にノイズの多いオーディオ入力に焦点を当てていますが、マルチモーダルビデオ (テレビ、オンラインで編集されたビデオなど) のビジュアルストリームは、ASR システムの堅牢性を向上させる強力な手がかりを提供できます。これは、いわゆるオーディオビジュアル ASR (AV-ASR) です。

[編集者注: 「ゼロショット」は機械学習の用語で、通常は特別なトレーニングやテストの状況を説明するために使用されます。この場合、モデルは、そのクラスのトレーニング例をまったく見ることなく、特定のクラスのインスタンスを認識するように求められます。これは通常、モデルをトレーニングして、カテゴリ間の何らかの構造や関係を理解して活用することによって実現されます。

たとえば、猫と犬を認識するように学習したモデルがあり、トレーニングデータでウサギを見たことがないのに、ウサギを認識するように要求するとします。モデルがウサギを正しく識別できる場合、そのモデルは「ゼロサンプル/ゼロショット」機能を備えていると言えます。

この記事で「ゼロショット」とは、手動による注釈なしで AV-ASR データセットでトレーニングした場合にモデルが最先端のパフォーマンスを達成することを意味します。言い換えれば、モデルはトレーニング段階では見たことのないデータの種類や状況を処理して理解できるようになります。】

唇の動きは音声認識に強力な信号を提供する可能性があり、AV-ASR で最も頻繁に注目される領域ですが、実際のビデオでは口が直接見えないことがよくあります (自己中心的な視点、顔の覆い、低解像度など)。そのため、制約のない AV-ASR (AVATAR など) という新たな研究分野が生まれており、口の領域だけでなく、視覚フレーム全体の貢献を研究します。

しかし、AV-ASR モデルをトレーニングするためのオーディオビジュアルデータセットを構築するのは困難です。 How2 や VisSpeech などのデータセットはオンライン教育ビデオから作成されていますが、規模は小さいです。対照的に、モデル自体は通常大きく、ビジュアルエンコーダーとオーディオエンコーダーの両方を含んでいるため、これらの小さなデータセットでは過剰適合する傾向があります。それでも、LibriLight や LibriSpeech など、オーディオブックからの大量のオーディオのみのデータを使った大規模なトレーニングを通じて大幅に最適化された大規模なオーディオのみのモデルが最近リリースされています。これらのモデルには数十億のパラメータが含まれており、すぐに利用可能で、さまざまなドメインで強力な一般化機能を発揮します。

上記の課題を考慮して、「AVFormer: ゼロショット AV-ASR を実現するために、固定音声モデルにビジョンを注入する」では、軽量のドメイン適応を実行しながら、既存の大規模なオーディオのみのモデルを視覚情報で拡張するシンプルなアプローチを提案します。 AVFormer は、最小限の追加トレーニング時間とパラメータで少量の弱くラベル付けされたビデオデータでトレーニングできる軽量のトレーニング可能なアダプターを使用して、固定された ASR モデルに視覚的な埋め込みを挿入します (Flamingo が視覚テキストタスクの大規模な言語モデルに視覚情報を挿入する方法と同様)。また、モデルが音声情報と視覚情報の両方を効果的に処理できるようにするには、トレーニング中に簡単なカリキュラムスキームを導入することが重要であることがわかりました。最終的な AVFormer モデルは、3 つの異なる AV-ASR ベンチマーク (How2、VisSpeech、Ego4D) で最先端のゼロショットパフォーマンスを達成すると同時に、従来のオーディオのみの音声認識ベンチマーク (LibriSpeech) でも優れたパフォーマンスを維持します。

「制約のないオーディオビジュアル音声認識。軽量モジュールを介して固定音声モデル (BEST-RQ、灰色で表示) に視覚を注入し、パラメーターとデータ効率の高い AVFormer (青) というモデルを作成することで、ゼロショットのオーディオビジュアル ASR を実現します。視覚的なコンテキストは、特にオーディオ信号にノイズがある場合に、堅牢な音声認識に役立つ手がかりを提供できます (視覚的なパンくずリストは、生成された転写のオーディオのみのエラーを修正するのに役立ちます。「クローブ」は「ローフ」に修正されます)

軽量モジュールを使用して視覚効果を挿入する

私たちの目標は、AV や音声のみのドメインを含むさまざまなドメインへの一般化パフォーマンスを維持しながら、既存の音声のみの ASR モデルに視覚理解機能を追加することです。

この目標を達成するために、私たちは既存の最先端の ASR モデル (Best-RQ) を次の 2 つのコンポーネントで強化しました: (i) リニアビジョンプロジェクターと (ii) 軽量アダプター。前者は、視覚的な特徴をオーディオトークンの埋め込み空間に投影します。このプロセスにより、モデルは個別に事前トレーニングされた視覚的特徴と音声入力トークン表現を正しく接続できるようになります。後者は、ビデオからのマルチモーダル入力の理解を深めるためにモデルを最小限に変更します。次に、ASR モデルの出力を疑似グラウンドトゥルースとして使用し、Best-RQ モデルの残りの部分を固定したまま、HowTo100M データセットのラベルなし Web ビデオでこれらの追加モジュールをトレーニングします。このような軽量モジュールにより、データ効率とパフォーマンスの強力な一般化が可能になります。

私たちは、手動で注釈が付けられた AV-ASR データセットでモデルがトレーニングされたことのないゼロショット設定で、AV-ASR ベンチマークで拡張モデルを評価します。

視覚的な浸透のためのコース学習の設定

初期評価の後、モデルが単純な一連の共同トレーニングでアダプタと視覚プロジェクターの両方を一度に学習することは難しいことが経験的にわかりました。この問題に対処するために、ドメイン適応と視覚的特徴の統合という 2 つの要素を切り離し、ネットワークを順番にトレーニングする 2 段階のカリキュラム学習戦略を導入します。最初のフェーズでは、視覚トークンを入力せずにアダプタパラメータが最適化されます。アダプターがトレーニングされると、第 2 段階でビジョントークンを追加し、トレーニング済みのアダプターを固定したまま、ビジョン投影レイヤーを個別にトレーニングします。

最初のフェーズでは、オーディオ領域での適応に重点が置かれます。第 2 段階では、アダプターは完全にフリーズされ、ビジュアルプロジェクターは、オーディオ空間にビジュアルトークンを投影するためのビジュアルキューを生成することだけを学習する必要があります。このように、私たちのカリキュラム学習戦略により、モデルは視覚入力に対応すると同時に、AV-ASR ベンチマーク上の新しいオーディオ領域に適応できるようになります。交互のフェーズを繰り返し適用するとパフォーマンスが低下する可能性があるため、各フェーズは 1 回だけ適用します。

AVFormer の全体的なアーキテクチャとトレーニングプロセス。このアーキテクチャは、凍結された Conformer エンコーダー/デコーダーモデルと凍結された CLIP エンコーダー (凍結されたレイヤーは灰色で表示され、ロックシンボルが表示されます) で構成され、マルチモーダルドメイン適応を実現するための 2 つの軽量のトレーニング可能なモジュール (i) 視覚投影レイヤー (オレンジ) とボトルネックアダプター (青) が組み合わされています。私たちは、2 段階のカリキュラム学習戦略を提案します。まず、視覚トークンなしでアダプターをトレーニングし (青)、次に他のすべての部分を固定したまま、視覚投影レイヤーを微調整します (オレンジ)。

[編集者注: 最初の段階では、モデルの「アダプター」パラメータを最適化しました。アダプターは、モデルが新しいドメインまたはタスクに適応するのを支援するモデルの一部です。この段階では、視覚情報は使用せず、モデルが音声情報をより適切に処理できるようにしただけです。

アダプターはトレーニングが完了すると、第 2 フェーズに入ります。この段階で、視覚情報を追加し、モデルの「視覚プロジェクター」部分のトレーニングを開始します。ビジュアルプロジェクターの役割は、視覚情報をモデルが理解できる形式に変換することです。この段階では、アダプターのパラメータは変更せず、ビジョンプロジェクターのみをトレーニングします。

この段階的なトレーニング戦略により、モデルは一度にすべてを学習するのではなく、視覚情報と音声情報を処理する方法を徐々に学習できます。これを行う利点は、トレーニング中にモデルのパフォーマンスが低下するのを防ぐことです。】

次のグラフは、カリキュラム学習がない場合、すべてのデータセットにおいて AV-ASR モデルのパフォーマンスがオーディオのみのベースラインよりも低下し、視覚トークンが追加されるにつれてその差が拡大することを示しています。対照的に、私たちが提案する 2 段階のカリキュラムを適用すると、AV-ASR モデルはベースラインのオーディオのみのモデルよりも大幅に優れたパフォーマンスを発揮します。

「カリキュラム学習の効果。赤と青の線はオーディオビジョンモデルを表し、ゼロショット設定の 3 つのデータセットに表示されています (WER% が低いほど優れています)。カリキュラムのトレーニングは、3 つのデータセットすべてで大幅に役立ちます (How2 (a) と Ego4D (c) の場合、オーディオのみのパフォーマンスを上回るために重要です)。パフォーマンスは 4 つのビジュアルトークンで向上し、その時点で飽和します。」

ゼロショットAV-ASRの結果

3 つの AV-ASR ベンチマーク (How2、VisSpeech、Ego4D) でのゼロショットパフォーマンスについて、AVFormer を BEST-RQ (当社のモデルのオーディオバージョン) および AVATAR (AV-ASR の最先端技術) と比較します。 AVFormer は、LibriSpeech と完全な HowTo100M コレクションでトレーニングした場合でも、あらゆる面で AVATAR および BEST-RQ を上回ります。注目すべきは、BEST-RQ のトレーニングパラメータは 600M であるのに対し、AVFormer のトレーニングパラメータは 4M であるため、効果を得るにはトレーニングデータセットのごく一部 (HowTo100M の 5%) のみが必要であるということです。さらに、LibriSpeech でのパフォーマンスも評価し、AVFormer はオーディオのみで両方のベースラインを上回りました。

さまざまな AV-ASR データセットにおけるゼロショットパフォーマンスに関する最先端の方法との比較。オーディオのみのLibriSpeechでパフォーマンスを実証しました。結果は WER% として報告されます (低いほど良い)。 AVATAR と BEST-RQ は HowTo100M (すべてのパラメータ) でエンドツーエンドで微調整されていますが、AVFormer は微調整されたパラメータのセットが少ないため、データセットの 5% のみを使用する場合でも効果的に機能します。

結論は

既存の固定された最先端の ASR モデルを AV-ASR に適合させる軽量な方法である AVFormer を紹介します。当社のアプローチは実用的かつ効率的であり、優れたゼロショットパフォーマンスを実現します。 ASR モデルが大きくなるにつれて、事前トレーニング済みモデルのパラメータセット全体を調整することは非現実的になります (ドメインが異なる場合はさらに非現実的になります)。私たちのアプローチは、同じパラメータ効率の高いモデルでドメイン転送と視覚入力ブレンディングをシームレスに実現します。