Meta が言語認識システムをオープンソース化、6 言語でのリップ リーディング翻訳モデル認識、誰でもローカル展開可能

Meta が言語認識システムをオープンソース化、6 言語でのリップ リーディング翻訳モデル認識、誰でもローカル展開可能

今年初めにネットで人気を博した反ギャングドラマ「光弗」をまだ覚えているだろうか。最後の数話で監督がストーリーを削除したり修正したりして、俳優たちの唇の動きとセリフがまったく一致しなくなった。

読唇術を知っていて、原作のあらすじを知るために直訳を始めた熱心なドラマファンもいました。

出典: エンターテインメント ブラック・ウィドウ

Meta は最近、AI 音声ビデオ認識システム MuAViC をオープンソース化しました。このシステムにより、数回クリックするだけで誰もが沈黙している人の言っていることを理解できるようになり、騒がしい背景でも特定の人の声を正確に識別できるようになります。

Meta は、TED/TEDx のビデオとオーディオの資料を使用して、MuAViC でデータセットを作成しました。 9 つの言語で 1,200 時間分のテキスト、音声、ビデオ資料が収録されており、英語と 6 つの言語間の双方向翻訳も含まれています。

音声認識データの詳細:

英語から6つの言語への翻訳のための資料は次のとおりです。

6つの言語から英語への翻訳資料には以下が含まれます。

このシステムについては、Mate の研究者らが既存の SOTA との比較を紹介する論文も発表しました。

出典:http://arxiv.org/pdf/2303.00628.pdf

視聴覚資料の収集

英語コーパスコレクション

英語のコーパスについては、研究者らはLRS3-TEDのオーディオビジュアルデータを再利用し、元のデータに従って分割しました。

研究者たちは、LRS3-TED の書き起こしと TED2020 の原文を照合することで、機械翻訳コーパス TED2020 からこれらの講演の人間による翻訳を見つけました。

一致した LRS3-TED の例は、TED2020 の対応するターゲット文とペアリングされ、翻訳ラベルが得られます。

研究者は、最高の精度を確保するために、開発セットとテストセットの例に対して正確なテキストマッチングを使用しました。

トレーニング セットのマッチング リコールを改善するために、研究者はあいまいなテキスト マッチング戦略を開発しました。つまり、文のペアの両側に同じ数のセグメントが含まれている場合、最初に句読点を使用して TED2020 のソース文とターゲット文を分割します。

次に、TED2020 と LRS3-TED のテキストは、句読点と小文字を削除して正規化されました。

最後に、2 つのコーパス間で正確なテキスト マッチングが実行されます。

TED2020のLRS3-TEDトレーニングセットの例に一致するものがない場合、研究者はデフォルトのデコードハイパーパラメータを使用する機械翻訳モデルM2M-100 418Mから疑似翻訳ラベルを取得しました。

英語以外のデータの収集

英語以外のデータについては、研究者らは、mTEDx が以前の研究から収集した音声のみのデータ、書き起こし、テキスト翻訳を再利用しました。また、mTEDx に従ってデータを分割しました。

これらは、元の録画のビデオ トラックを取得し、処理されたビデオ データをオーディオ データと揃えて、LRS3-TED に似たオーディオビジュアル データを形成します。

mTEDx の音声データはすべて文字起こしされていますが、翻訳されているのはサブセットのみです。

研究者らは、デフォルトのデコードハイパーパラメータを使用して、翻訳されていないトレーニングセットの例について、M2M-100 418M から疑似翻訳ラベルを取得しました。

実験

実験のセットアップ

研究者らは、オーディオビジュアル音声認識(AVSR)とオーディオビジュアル音声翻訳(AVST)のために、LRS3-TEDとVoxCeleb2の英語部分の​​組み合わせでトレーニングされた英語のAV-HuBERT大規模事前トレーニング済みモデルを使用しました。

研究者らは、AV-HuBERT 論文と同じ方法でハイパーパラメータを微調整しましたが、バイリンガル モデルを 30K 更新に、多言語 AVSR モデルを 90K 更新に微調整した点が異なります。研究者らは、それぞれ X-En AVST モデルと En-X AVST モデル用に、最初の 4K と 24K に更新された事前トレーニング済みエンコーダーを凍結しました。

AVSRテスト

静かな環境で

研究者らは、オーディオのみのモード(「A」)とオーディオビジュアル(「AV」)モードの両方で AVSR モデルを評価しました。前者は微調整と推論にオーディオ モダリティのみを活用し、後者はオーディオとビジュアルの両方のモダリティを活用します。

下の表 1 に示すように、英語 AVSR モデルのテスト ビット エラー率はそれぞれ 2.5 と 2.3 です。

英語以外の AVSR については、研究者らは、事前トレーニング済みの英語 AVHuBERT モデルを、各言語別 (8 つの単一言語モデル) または英語以外の 8 つの言語すべてに対して (多言語モデル) 微調整しました。

テストビットエラー率は以下の表2に示されています。

研究者らは、オーディオビジュアル モードでは、単一言語 AVSR モデルが平均 52% の WER 削減を達成し、同等の ASR ベースライン (Transformer、単一言語) を上回っていることを発見しました。

表1

表2

表3

騒がしい環境

表 3 の最初の部分は、高ノイズ環境における研究者の AVSR モデルのテスト ビット エラー レートを示しています。

研究者らは、SOTA 多言語 ASR モデル Whisper は、この困難な設定ではパフォーマンスが悪く、言語全体で平均ビット エラー率が 174.3 であったことを指摘しました。

比較すると、研究者の単一言語 AVSR モデルは、オーディオのみのモードでそれぞれ 70.2 と 66.7 の平均ビット エラー率を達成しました。

オーディオビジュアルモードでは、研究者のモデルは平均ビットエラー率の32%という大幅な低下を達成し、視覚情報を効果的に活用して騒がしい環境からの気を散らすものを軽減できることを実証しました。

音声のみのモードと音声と映像の両方において、研究者の多言語 AVSR モデルは、エル語を除くすべての非英語言語において単一言語モデルを上回りました。

<<:  裕福なアメリカ人の 41% は、意識をアップロードすることで不老不死を実現したいと考えています。劉慈欣の「人類の存続」は私たちの未来となるのでしょうか?

>>: 

ブログ    

推薦する

AIとMLでドキュメントを自動化する方法

[[312937]] [51CTO.com クイック翻訳] かつて紙は必須の事務用品とみなされ、ほと...

...

ナレッジグラフはどのようにして「人工知能」をよりスマートにするのでしょうか?

この記事では、人工知能がインテリジェントでない領域と、ナレッジ グラフに基づく認知知能がインテリジェ...

機械に「忘却の呪文」をかける? Google、初の機械忘却チャレンジを開始

機械学習はよく話題になりますが、「機械の忘却」について聞いたことがありますか?機械学習の目的は誰もが...

将来、人間はAIに置き換えられるのでしょうか?人工知能の種類と発展段階を1つの記事で理解する

21 世紀に革命をもたらした技術が一つあるとすれば、それは人工知能です。 Googleの新社長サンダ...

コードを自動生成できるAIベースの開発ツール5選

今日、機械学習の可能性に関心を持つプログラマーは、人工知能と AI ベースのソフトウェア開発ツールを...

認知システムが機械学習とセマンティック技術を組み合わせるべき理由

ワインとチーズの組み合わせを識別するのに役立つアプリケーションを構築したいとします。最も優れたパフォ...

致命的な幻覚問題、GPU 代替品の開発、大規模モデルが直面するその他の 10 の課題

ChatGPT、GPT-4などのリリースにより、大規模モデル(LLM)の魅力が明らかになった一方で、...

...

...

...

人工知能と機械学習技術がビジネス開発を推進

IT リーダーはすでに人工知能と機械学習テクノロジーの恩恵を受けています。最近の調査によると、経済が...

トレンド検索No.1!韓国、ハリー・ポッターの「透明マント」を作るためにカメレオン型ソフトロボットを開発

[[417131]]韓国が「カメレオンソフトロボット」の開発に成功、78件のコメントがつき、ホット検...

Google Cloud Next: カンファレンス全体を通じて人工知能について語る

最近、Google は年次カンファレンス Google Cloud Next を開催しましたが、オー...

2021 年の人工知能、データ サイエンス、機械学習のトレンドの概要

人工知能とデータサイエンス、機械学習のトレンドとデータ分析AIはますますあらゆるビジネス戦略の一部に...