初のユニバーサル音声翻訳システム！ Meta が SeamlessM4T をオープンソース化: 470,000 時間のトレーニングデータを使用して 100 言語のマルチモーダル翻訳をサポート

テキストベースの翻訳システムは大きな進歩を遂げています。初期の単語マッチングや文法規則から、ニューラル翻訳システムやTransformerの事前トレーニングまで、翻訳結果はますます正確になり、サポートされている相互翻訳言語の数は200を超えています。

しかし、「音声から音声への翻訳」モデルはまだゆっくりと進歩しています。現在は主に複数のサブシステムのカスケードに依存しており、最初に入力された音声をテキストに変換し、その後徐々に翻訳結果を取得します。

最近、Meta AI とカリフォルニア大学バークレー校は、大規模な多言語、マルチモーダル機械翻訳システム SeamlessM4T を共同でリリースしました。このシステムは、1 つのモデルのみを使用して、100 の言語での音声間翻訳、音声テキスト翻訳、テキスト間翻訳、テキスト間翻訳、自動音声認識をサポートします。

ブログ投稿: https://bit.ly/45z0e6s

デモリンク: https://seamless.metademolab.com

論文リンク: https://ai.meta.com/research/publications/seamless-m4t/

オープンソースリンク: https://github.com/facebookresearch/seamless_communication

モデルの複数の機能をトレーニングするために、研究者はまず 100 万時間分のオープン音声オーディオデータを使用して、w2v-BERT 2.0 の自己教師付き音声表現を学習しました。

次に、手動で注釈を付けたデータと疑似注釈を付けたデータをフィルタリングして組み合わせ、合計 406,000 時間に及ぶ、自動的に調整された音声翻訳のマルチモーダルコーパス、SeamlessAlign を取得しました。これは、音声とテキストを同時に英語に翻訳できる初の多言語システムでもあります。

Fleurs では、SeamlessM4T が複数のターゲット言語にわたる翻訳の新しい標準を確立し、直接音声テキスト翻訳の以前の最高パフォーマンスモデルと比較して 20% の BLEU 向上を達成しました。

強力なカスケードモデルと比較すると、SeamlessM4T は、音声テキスト変換で 1.3 BLEU スコア、音声変換で 2.6 ASR-BLEU スコア、英語翻訳の品質を向上させます。

CVSSでは、SeamlessM4T-Largeは音声翻訳の2段階カスケードモデルよりも58%優れています。

データ準備

言語識別 (LID)

元の音声データを言語別に分類すると、音声セグメントのアライメント品質が向上し、下流の翻訳システムのパフォーマンスが向上します。

研究者は、ECAPA-TDNN オープンソースアーキテクチャをベースラインモデルとして選択しました。VoxLingua107 データセットで 30 エポック再トレーニングした後、分類エラー率は 5.25% でした。比較すると、オープンソースモデル VL107 HF のエラー率は 7% でした。

モデルが再現され検証された後、研究者らは最終的に 8 つの GPU で 40 エポックのトレーニングを行いましたが、これには合計 172 時間がかかりました。彼らは合計 17,000 時間の音声データを使用しました。これは言語ごとに平均 171 時間、1 時間から 600 時間の範囲です。

SeamlessM4T言語100種とVoxLingua107言語79種を使った実験では、追加言語のトレーニングによって共通言語セットの全体的なパフォーマンスがわずかに低下することがわかりました。これは、ズールー語（zul）がニャーヤ語（nya）と混同されることが多く、現代標準アラビア語（arb）がモロッコアラビア語（arry）やエジプトアラビア語（arz）と混同されるなど、より類似した言語が導入されるためと考えられます。

全体的に、新しいモデルでは 17 言語の分類性能が平均 14.6% 向上しましたが、12 言語の分類性能は低下しました (平均 9.8%)。

さらに、LIDタグの品質を向上させるために、研究者は、特定の言語で利用可能なデータの量に基づいて、開発コーパス内の各言語の正しい分類と誤って分類されたLIDスコアのガウス分布を推定し、p(正解|スコア) > p(不正解|スコア)となるようにフィルタリングしきい値を設定しました。

データの 8% を除外した後、モデルの F1 指数はさらに 3% 近く改善されました。

生の音声とテキストの大規模なコレクション

テキストの前処理の際、研究者は NLLB チームの戦略に従い、同じデータソース、クリーニング戦略、フィルタリング手順などを使用しました。

論文リンク: https://arxiv.org/abs/2207.04672

音声の前処理に関しては、研究者らはまず、公開されているウェブデータクローラーライブラリから400万時間分の生の音声（そのうち約100万時間は英語）を取得し、それを16KHzの周波数で再サンプリングし、カスタマイズされた音声イベント検出（AED）モデルを使用して音声以外のデータを除外しました。

オーディオセグメンテーション部分では、S2TT または S2ST マイニングを実現するために、研究者はオーディオファイルを可能な限り小さなブロックに分割し、各ブロックに独立した文が 1 つだけ含まれるようにしました。

しかし、音声の意味的セグメンテーションは未解決の問題です。異なる言語の休止は異なる意味を表す場合があります。そのため、研究者は最初に音声アクティビティ検出（VAD）モデルを使用してオーディオファイルをより短いセグメントに分割し、次に各ファイルで音声LIDモデルを使用しました。最後に、各セグメントに対して複数の重複する可能性のあるセグメントを作成し、マイニングアルゴリズムを使用して最適なセグメントを選択しました。オーバーセグメンテーション戦略により、潜在的なセグメントの数が8倍に増加しました。

音声マイニング

マイニングのプロセス中、研究者らはまずテキストエンコーダーと音声エンコーダーをトレーニングし、次に 2 つのエンコーダーを使用してテキストと音声のモダリティのデータを共同埋め込み空間 SONAR (文レベルのマルチモーダルおよび言語に依存しない表現) に投影しました。

テキストエンコーダのトレーニング方法は、最初にテキスト埋め込み空間をトレーニングし、次に教師と生徒のトレーニング戦略を使用してそれを音声モダリティに拡張することです。初期のテキスト SONAR 空間は、NLLB-1.3B モデルに基づくエンコーダ/デコーダアーキテクチャを使用し、200 の言語を翻訳できます。

研究者らは、平均プーリングを使用して中間表現を固定サイズのベクトルに変換しました。つまり、デコーダーは 1 つのベクトルにのみ焦点を当てる必要があり、その後、NLLB の T2TT トレーニングデータすべてを使用してアーキテクチャを微調整しました。

音声エンコーダのトレーニングでは、まず、事前トレーニング済みの XLS-R モデルの BOS 出力を通じて固定サイズの音声表現が取得され、次に、集合的な音声表現と同じ言語 (ASR 転写) または英語 (音声翻訳) の文章埋め込みとの間のコサイン損失が最大化されるようにモデルが微調整されます。

最後に、テキスト文章または他の言語の音声断片に基づいて音声断片をマイニングし、S2TT および S2ST データペアを生成して、SeamlessM4T モデルをトレーニングします。

研究者らは、ある言語のすべての音声クリップを別の言語のすべての音声クリップと比較するグローバルマイニングを実行しました。Faiss ライブラリを使用してすべての埋め込みをインデックス化することで、GPU 上で効率的な大規模な類似性検索が可能になります。

SeamlessM4Tモデルアーキテクチャ

SeamlessM4T を設計する際の研究者の目標の 1 つは、強力な音声表現学習モデルと大規模な多言語 T2TT モデルを組み合わせて、より強力な直接 X2T モデル (テキストと音声をテキストに翻訳するためのモデル) を構築することにより、大規模な多言語およびマルチモーダル設定における S2TT の直接モデルとカスケードモデル間のギャップを埋めることです。

教師なし音声事前トレーニング

音声認識や翻訳タスク、特にリソースの少ない言語では、ラベル付きデータを入手するのは非常に困難です。そのため、研究者の音声翻訳モデルのトレーニングのアイデアは、まず自己教師学習を使用して事前トレーニングを行い、次に少量のデータで微調整することです。これにより、データ量が不十分な場合でもモデルの最終的なパフォーマンスを向上させることができます。

研究者らは、Seamless M4T Large の w2v BERT 2.0 事前トレーニング済み音声エンコーダーの w2v BERT XL アーキテクチャを採用し、24 のコンフォーマーレイヤーと約 6 億のモデルパラメーターを備えました。

w2v BERT 2.0 モデルは、143 を超える言語をカバーする 100 万時間のオープン音声オーディオデータでトレーニングされています。

w2v-BERT 2.0 は、対照学習とマスク予測学習を組み合わせた w2v-BERT の設計思想を踏襲していますが、学習目標の 2 つを調整しています。

対照学習モジュールは、ガンベルベクトル量子化 (GVQ) コードブックとコンテキスト表現を学習するために使用され、次に、マスク位置での予測確率を二極化する代わりに、マスク予測学習を使用して、さまざまなタスクのコンテキスト表現を改良します。

w2v-BERT 2.0 は、単一の GVQ 語彙を使用する代わりに、2 つの GVQ コードブックの積を使用して量子化します。

X2T: テキスト翻訳と文字起こし

マルチタスク Unity フレームワークの中核部分である X2T は、マルチエンコーダーシーケンスモデルです。音声入力には Conformer ベースのエンコーダーが使用され、テキストには Transformer ベースのエンコーダーが使用されます。

X2T モデルのトレーニングデータは S2TT であり、これにはソース言語のオーディオセグメントとターゲット言語のテキストが含まれています。

研究者らは、X2T モデルを 2 段階でトレーニングしました。

最初の段階では、ラベル付けされた英語の ASR と英語の S2TT データに対して教師ありトレーニングが実行されます。このプロセスにより、X-eng (特定の言語から英語) と eng-X の両方の翻訳パフォーマンスが向上します。

このプロセスにおいて、研究者らは、モデルを 1 つのターゲット言語のみに集中させながら、多言語の音声表現で微調整することで、ターゲット言語から逆伝播される干渉信号を回避できるという仮説を立てました。

第 2 段階では、注釈付きの eng-X S2TT と非英語 ASR データが混合データセットに追加されます。

音声翻訳（S2ST）

S2ST 問題の鍵となるのは、自己教師付きの離散音響単位を使用して対象の音声を表現し、それによって S2ST 問題を音声から単位への翻訳 (S2UT) と単位から音声への変換 (U2S) に分解することです。

S2UT 問題の場合、Unity は 2 パスデコードフレームワークとして使用され、最初にテキストを生成し、次に個別の音響単位を予測します。

基本的な Unity モデルと比較すると、SemalessM4T の Unity は初期化された S2TT モデルを事前トレーニングして、T2TT、S2TT、および ASR の X2T モデルを共同で最適化します。T2U モデルはより深く、6 つの Transformer レイヤーを含みます。最初から初期化する代わりに、事前トレーニングされた T2U モデルが使用されます。

事前トレーニング済みの X2T には、より強力な音声エンコーダーと高品質のファーストパステキストデコーダーが搭載されており、大規模な事前トレーニング済みの T2U モデルでは、干渉なしで多言語ユニット生成をより適切に処理できます。

微調整の最終段階では、事前トレーニング済みの X2T モデルと事前トレーニング済みの T2U モデルを使用してマルチタスク Unity モデルを初期化した後、合計 121,000 時間の X-ENG および ENG-X S2ST 翻訳データを使用して T2U コンポーネントを微調整し、前回の微調整段階のタスクにおけるモデルのパフォーマンスが変更されないようにします。

SeamlessM4Tモデル

これまでの 3 段階のトレーニングを経て、結果として得られた SeamlessM4T-Large モデルは 23 億個のパラメーターを持ち、T2TT タスクで英語とペアになった 95 言語、ASR タスクで 96 言語、S2TT タスクで英語とペアになった 89 言語で微調整されています。

異なるサイズのモデルを提供するために、研究者は同じ手順に従って SeamlessM4T-Medium をトレーニングしました。SeamlessM4T-Medium は、SeamlessM4T-Large よりもパラメータが 57% 少なく、実験分析と改善のためにより簡単にテストおよび微調整できます。

実験的評価

研究者らは、SeamlessM4T モデルを 4 つの教師ありタスク (T2TT、ASR、S2TT、S2ST) と、テキスト音声翻訳のゼロショットタスク (T2ST、クロスリンガルテキスト音声合成) で評価しました。

S2ST および T2ST 推論プロセス中に、モデルは幅 5 の 2 パスビーム検索デコードを実行します。最初にテキストデコーダーを使用して最適な仮説を見つけ、次にその仮説を T2U に入力して最適な単位シーケンス仮説を検索します。

カスケード方式の比較

SeamlessM4T と Whisper がサポートする言語セットについて、研究者らは Whisper ASR モデルと NLLB T2TT モデルの組み合わせを比較しました。

SeamlessM4T-Large は、x-eng 方向では 3B 未満のパラメータを持つカスケードモデルよりも 2 BLEU スコアが高く、eng-x 方向では 3B 未満のパラメータを持つカスケードモデルよりも 0.5 BLEU スコアが高いことがわかります。

大規模な NLLB-3.3B T2TT モデル (40 億を超えるパラメータ) のカスケードモデルを使用する場合、eng-X 方向でのみ SeamlessM4T-Large よりも優れたパフォーマンスを発揮します。

S2ST タスクの比較では、SeamlessM4T-Large は、Fleurs X-Eng 方向で 2 段階カスケードモデルよりも 9 ASR-BLEU ポイント優れており、3 段階カスケードモデルよりも 2.6 ASR BLEU ポイント優れています。

CVSS では、SeamlessM4T-Large は 2 段階カスケードモデルよりも 14 ASR-BLEU スコア優れています。Fleurs Eng-X 方向では、SeamlessM4T-Large は 32 X-Eng 方向で平均 ASR-BLEU が 21.5 であり、Whisper-Large-v2 (ASR-BLEU に使用される ASR モデル) よりも 100 WER 高くなっています。

<<: 生体認証監視がデータセンターの物理的セキュリティを強化する方法

>>: