Meta が言語認識システムをオープンソース化、6 言語でのリップ リーディング翻訳モデル認識、誰でもローカル展開可能

Meta が言語認識システムをオープンソース化、6 言語でのリップ リーディング翻訳モデル認識、誰でもローカル展開可能

今年初めにネットで人気を博した反ギャングドラマ「光弗」をまだ覚えているだろうか。最後の数話で監督がストーリーを削除したり修正したりして、俳優たちの唇の動きとセリフがまったく一致しなくなった。

読唇術を知っていて、原作のあらすじを知るために直訳を始めた熱心なドラマファンもいました。

出典: エンターテインメント ブラック・ウィドウ

Meta は最近、AI 音声ビデオ認識システム MuAViC をオープンソース化しました。このシステムにより、数回クリックするだけで誰もが沈黙している人の言っていることを理解できるようになり、騒がしい背景でも特定の人の声を正確に識別できるようになります。

Meta は、TED/TEDx のビデオとオーディオの資料を使用して、MuAViC でデータセットを作成しました。 9 つの言語で 1,200 時間分のテキスト、音声、ビデオ資料が収録されており、英語と 6 つの言語間の双方向翻訳も含まれています。

音声認識データの詳細:

英語から6つの言語への翻訳のための資料は次のとおりです。

6つの言語から英語への翻訳資料には以下が含まれます。

このシステムについては、Mate の研究者らが既存の SOTA との比較を紹介する論文も発表しました。

出典:http://arxiv.org/pdf/2303.00628.pdf

視聴覚資料の収集

英語コーパスコレクション

英語のコーパスについては、研究者らはLRS3-TEDのオーディオビジュアルデータを再利用し、元のデータに従って分割しました。

研究者たちは、LRS3-TED の書き起こしと TED2020 の原文を照合することで、機械翻訳コーパス TED2020 からこれらの講演の人間による翻訳を見つけました。

一致した LRS3-TED の例は、TED2020 の対応するターゲット文とペアリングされ、翻訳ラベルが得られます。

研究者は、最高の精度を確保するために、開発セットとテストセットの例に対して正確なテキストマッチングを使用しました。

トレーニング セットのマッチング リコールを改善するために、研究者はあいまいなテキスト マッチング戦略を開発しました。つまり、文のペアの両側に同じ数のセグメントが含まれている場合、最初に句読点を使用して TED2020 のソース文とターゲット文を分割します。

次に、TED2020 と LRS3-TED のテキストは、句読点と小文字を削除して正規化されました。

最後に、2 つのコーパス間で正確なテキスト マッチングが実行されます。

TED2020のLRS3-TEDトレーニングセットの例に一致するものがない場合、研究者はデフォルトのデコードハイパーパラメータを使用する機械翻訳モデルM2M-100 418Mから疑似翻訳ラベルを取得しました。

英語以外のデータの収集

英語以外のデータについては、研究者らは、mTEDx が以前の研究から収集した音声のみのデータ、書き起こし、テキスト翻訳を再利用しました。また、mTEDx に従ってデータを分割しました。

これらは、元の録画のビデオ トラックを取得し、処理されたビデオ データをオーディオ データと揃えて、LRS3-TED に似たオーディオビジュアル データを形成します。

mTEDx の音声データはすべて文字起こしされていますが、翻訳されているのはサブセットのみです。

研究者らは、デフォルトのデコードハイパーパラメータを使用して、翻訳されていないトレーニングセットの例について、M2M-100 418M から疑似翻訳ラベルを取得しました。

実験

実験のセットアップ

研究者らは、オーディオビジュアル音声認識(AVSR)とオーディオビジュアル音声翻訳(AVST)のために、LRS3-TEDとVoxCeleb2の英語部分の​​組み合わせでトレーニングされた英語のAV-HuBERT大規模事前トレーニング済みモデルを使用しました。

研究者らは、AV-HuBERT 論文と同じ方法でハイパーパラメータを微調整しましたが、バイリンガル モデルを 30K 更新に、多言語 AVSR モデルを 90K 更新に微調整した点が異なります。研究者らは、それぞれ X-En AVST モデルと En-X AVST モデル用に、最初の 4K と 24K に更新された事前トレーニング済みエンコーダーを凍結しました。

AVSRテスト

静かな環境で

研究者らは、オーディオのみのモード(「A」)とオーディオビジュアル(「AV」)モードの両方で AVSR モデルを評価しました。前者は微調整と推論にオーディオ モダリティのみを活用し、後者はオーディオとビジュアルの両方のモダリティを活用します。

下の表 1 に示すように、英語 AVSR モデルのテスト ビット エラー率はそれぞれ 2.5 と 2.3 です。

英語以外の AVSR については、研究者らは、事前トレーニング済みの英語 AVHuBERT モデルを、各言語別 (8 つの単一言語モデル) または英語以外の 8 つの言語すべてに対して (多言語モデル) 微調整しました。

テストビットエラー率は以下の表2に示されています。

研究者らは、オーディオビジュアル モードでは、単一言語 AVSR モデルが平均 52% の WER 削減を達成し、同等の ASR ベースライン (Transformer、単一言語) を上回っていることを発見しました。

表1

表2

表3

騒がしい環境

表 3 の最初の部分は、高ノイズ環境における研究者の AVSR モデルのテスト ビット エラー レートを示しています。

研究者らは、SOTA 多言語 ASR モデル Whisper は、この困難な設定ではパフォーマンスが悪く、言語全体で平均ビット エラー率が 174.3 であったことを指摘しました。

比較すると、研究者の単一言語 AVSR モデルは、オーディオのみのモードでそれぞれ 70.2 と 66.7 の平均ビット エラー率を達成しました。

オーディオビジュアルモードでは、研究者のモデルは平均ビットエラー率の32%という大幅な低下を達成し、視覚情報を効果的に活用して騒がしい環境からの気を散らすものを軽減できることを実証しました。

音声のみのモードと音声と映像の両方において、研究者の多言語 AVSR モデルは、エル語を除くすべての非英語言語において単一言語モデルを上回りました。

<<:  裕福なアメリカ人の 41% は、意識をアップロードすることで不老不死を実現したいと考えています。劉慈欣の「人類の存続」は私たちの未来となるのでしょうか?

>>: 

ブログ    
ブログ    
ブログ    

推薦する

...

セキュリティ業界における顔認証アクセス制御の発展展望

数年前までは、アクセス制御は鍵や IC アクセス カードによって行われていたことは誰もが知っています...

次世代ビジネスインテリジェンスのトレンドと機会

ビジネス成果を明確に定義するために、多くの企業は分析にビジネス インテリジェンス ソフトウェアを活用...

ChatGPT に複数のバージョンのコンテンツを入力して一度に選択できるようにする方法

人工知能が進歩するにつれて、AI ツールに対する需要も高まっています。特に GPT のような高度なツ...

...

ジェスチャーをすると、AIが絵文字を認識し、ブラウザ上で動作する:オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ヘルスケアの革命: アジア太平洋地域におけるスマートホーム技術の台頭

アジア太平洋地域では、スマートホーム技術の登場により、ヘルスケア業界の大きな変革が起こっています。こ...

Unity が開発者向け AI ソフトウェア マーケットプレイス AI Hub を立ち上げ、株価が 15% 上昇

6月28日、Unityは開発者向けAIソフトウェアマーケット「AI Hub」を正式に立ち上げ、AIソ...

中国の自動運転が新たなブレークスルーをもたらす:百度世界2020のCCTV生中継で完全無人運転を体験

中国の自動運転は新たな進歩を遂げ、無人運転の時代が到来した。 9月15日、百度はCCTVニュースと提...

LinkedIn、ユーザーが夢の仕事を見つけるのを支援するAIチャットボットを導入

IT Homeは11月2日、LinkedInがユーザーの就職活動コーチとなり、次の仕事を見つける手助...

...

都市の気質を改善し、住みやすい環境を守る。AIはガバナンスの閉ループを開く

「新しいインフラ」は新たな方向性を表しています。新旧の成長原動力の転換という文脈において、「新インフ...

1つの記事で基本モデルの定義と動作原理を理解する

翻訳者 |ブガッティレビュー | Chonglou 1.基本モデルの定義ベースモデルは、大量のデータ...

...

...