Meta が言語認識システムをオープンソース化、6 言語でのリップ リーディング翻訳モデル認識、誰でもローカル展開可能

Meta が言語認識システムをオープンソース化、6 言語でのリップ リーディング翻訳モデル認識、誰でもローカル展開可能

今年初めにネットで人気を博した反ギャングドラマ「光弗」をまだ覚えているだろうか。最後の数話で監督がストーリーを削除したり修正したりして、俳優たちの唇の動きとセリフがまったく一致しなくなった。

読唇術を知っていて、原作のあらすじを知るために直訳を始めた熱心なドラマファンもいました。

出典: エンターテインメント ブラック・ウィドウ

Meta は最近、AI 音声ビデオ認識システム MuAViC をオープンソース化しました。このシステムにより、数回クリックするだけで誰もが沈黙している人の言っていることを理解できるようになり、騒がしい背景でも特定の人の声を正確に識別できるようになります。

Meta は、TED/TEDx のビデオとオーディオの資料を使用して、MuAViC でデータセットを作成しました。 9 つの言語で 1,200 時間分のテキスト、音声、ビデオ資料が収録されており、英語と 6 つの言語間の双方向翻訳も含まれています。

音声認識データの詳細:

英語から6つの言語への翻訳のための資料は次のとおりです。

6つの言語から英語への翻訳資料には以下が含まれます。

このシステムについては、Mate の研究者らが既存の SOTA との比較を紹介する論文も発表しました。

出典:http://arxiv.org/pdf/2303.00628.pdf

視聴覚資料の収集

英語コーパスコレクション

英語のコーパスについては、研究者らはLRS3-TEDのオーディオビジュアルデータを再利用し、元のデータに従って分割しました。

研究者たちは、LRS3-TED の書き起こしと TED2020 の原文を照合することで、機械翻訳コーパス TED2020 からこれらの講演の人間による翻訳を見つけました。

一致した LRS3-TED の例は、TED2020 の対応するターゲット文とペアリングされ、翻訳ラベルが得られます。

研究者は、最高の精度を確保するために、開発セットとテストセットの例に対して正確なテキストマッチングを使用しました。

トレーニング セットのマッチング リコールを改善するために、研究者はあいまいなテキスト マッチング戦略を開発しました。つまり、文のペアの両側に同じ数のセグメントが含まれている場合、最初に句読点を使用して TED2020 のソース文とターゲット文を分割します。

次に、TED2020 と LRS3-TED のテキストは、句読点と小文字を削除して正規化されました。

最後に、2 つのコーパス間で正確なテキスト マッチングが実行されます。

TED2020のLRS3-TEDトレーニングセットの例に一致するものがない場合、研究者はデフォルトのデコードハイパーパラメータを使用する機械翻訳モデルM2M-100 418Mから疑似翻訳ラベルを取得しました。

英語以外のデータの収集

英語以外のデータについては、研究者らは、mTEDx が以前の研究から収集した音声のみのデータ、書き起こし、テキスト翻訳を再利用しました。また、mTEDx に従ってデータを分割しました。

これらは、元の録画のビデオ トラックを取得し、処理されたビデオ データをオーディオ データと揃えて、LRS3-TED に似たオーディオビジュアル データを形成します。

mTEDx の音声データはすべて文字起こしされていますが、翻訳されているのはサブセットのみです。

研究者らは、デフォルトのデコードハイパーパラメータを使用して、翻訳されていないトレーニングセットの例について、M2M-100 418M から疑似翻訳ラベルを取得しました。

実験

実験のセットアップ

研究者らは、オーディオビジュアル音声認識(AVSR)とオーディオビジュアル音声翻訳(AVST)のために、LRS3-TEDとVoxCeleb2の英語部分の​​組み合わせでトレーニングされた英語のAV-HuBERT大規模事前トレーニング済みモデルを使用しました。

研究者らは、AV-HuBERT 論文と同じ方法でハイパーパラメータを微調整しましたが、バイリンガル モデルを 30K 更新に、多言語 AVSR モデルを 90K 更新に微調整した点が異なります。研究者らは、それぞれ X-En AVST モデルと En-X AVST モデル用に、最初の 4K と 24K に更新された事前トレーニング済みエンコーダーを凍結しました。

AVSRテスト

静かな環境で

研究者らは、オーディオのみのモード(「A」)とオーディオビジュアル(「AV」)モードの両方で AVSR モデルを評価しました。前者は微調整と推論にオーディオ モダリティのみを活用し、後者はオーディオとビジュアルの両方のモダリティを活用します。

下の表 1 に示すように、英語 AVSR モデルのテスト ビット エラー率はそれぞれ 2.5 と 2.3 です。

英語以外の AVSR については、研究者らは、事前トレーニング済みの英語 AVHuBERT モデルを、各言語別 (8 つの単一言語モデル) または英語以外の 8 つの言語すべてに対して (多言語モデル) 微調整しました。

テストビットエラー率は以下の表2に示されています。

研究者らは、オーディオビジュアル モードでは、単一言語 AVSR モデルが平均 52% の WER 削減を達成し、同等の ASR ベースライン (Transformer、単一言語) を上回っていることを発見しました。

表1

表2

表3

騒がしい環境

表 3 の最初の部分は、高ノイズ環境における研究者の AVSR モデルのテスト ビット エラー レートを示しています。

研究者らは、SOTA 多言語 ASR モデル Whisper は、この困難な設定ではパフォーマンスが悪く、言語全体で平均ビット エラー率が 174.3 であったことを指摘しました。

比較すると、研究者の単一言語 AVSR モデルは、オーディオのみのモードでそれぞれ 70.2 と 66.7 の平均ビット エラー率を達成しました。

オーディオビジュアルモードでは、研究者のモデルは平均ビットエラー率の32%という大幅な低下を達成し、視覚情報を効果的に活用して騒がしい環境からの気を散らすものを軽減できることを実証しました。

音声のみのモードと音声と映像の両方において、研究者の多言語 AVSR モデルは、エル語を除くすべての非英語言語において単一言語モデルを上回りました。

<<:  裕福なアメリカ人の 41% は、意識をアップロードすることで不老不死を実現したいと考えています。劉慈欣の「人類の存続」は私たちの未来となるのでしょうか?

>>: 

ブログ    

推薦する

AIがビジネスプロセス管理を根本的に変える方法

BPM に AI の検出機能と自動化機能を導入すると、フロントオフィス プロセス、プロセス データ分...

ニューラルネットワークにおけるBPアルゴリズムの原理とPython実装のソースコード解析

私は最近、BP アルゴリズムを体系的に研究し、この研究ノートを書きました。私の能力が限られているため...

...

人工知能が持続可能な開発を推進する5つの方法

フォーチュン 500 にランクされる世界的なテクノロジー サービス企業 DXC Technology...

2020 年に最も実用的な機械学習ツールは何ですか?

ミシュランの星付き料理を作るときと同じように、整理整頓されたキッチンを持つことは重要ですが、選択肢が...

「人工知能+教育」はどのような機会と課題をもたらすのでしょうか?

人工知能がどのような新しい形で登場するかが話題になっている一方で、教育分野では新たな一連の変化が起こ...

なぜ私はLangChainを諦めたのでしょうか?

過去数か月間の AI の爆発的な成長を追ってきた方なら、おそらく LangChain について聞いた...

最新レビュー!拡散モデルと画像編集の愛憎関係

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

RNN の効率は Transformer に匹敵し、Google は 2 つの新しいアーキテクチャをリリース: 同じ規模では Mamba よりも強力

今回、Google DeepMindは基本モデルに新たな動きを見せた。リカレント ニューラル ネット...

アメリカ人教授がAI会議での不正行為を暴露:著者は査読者と共謀し、ゴミ論文も査読を通過

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

3D モデルの「スキンを変更する」のはどれくらい簡単ですか?一言だけ

[[443015]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

GitHub、企業向けAI搭載コーディングアシスタント「Copilot Enterprise」をリリース

GitHub の新製品「GitHub Copilot Enterprise」は、企業独自のコードベー...

ついにクラウド コンピューティング、ビッグ データ、人工知能をわかりやすく説明してくれる人が現れました。

今日はクラウド コンピューティング、ビッグ データ、人工知能についてお話します。これら 3 つの単語...

2019年人工知能サバイバルガイド

「資本の冬は業界のマシュー効果と適者生存を加速させており、AI分野も例外ではありません。」Infer...