テキストベースの翻訳システムは大きな進歩を遂げています。初期の単語マッチングや文法規則から、ニューラル翻訳システムやTransformerの事前トレーニングまで、翻訳結果はますます正確になり、サポートされている相互翻訳言語の数は200を超えています。 しかし、「音声から音声への翻訳」モデルはまだゆっくりと進歩しています。現在は主に複数のサブシステムのカスケードに依存しており、最初に入力された音声をテキストに変換し、その後徐々に翻訳結果を取得します。 最近、Meta AI とカリフォルニア大学バークレー校は、大規模な多言語、マルチモーダル機械翻訳システム SeamlessM4T を共同でリリースしました。このシステムは、1 つのモデルのみを使用して、100 の言語での音声間翻訳、音声テキスト翻訳、テキスト間翻訳、テキスト間翻訳、自動音声認識をサポートします。 ブログ投稿: https://bit.ly/45z0e6s デモリンク: https://seamless.metademolab.com 論文リンク: https://ai.meta.com/research/publications/seamless-m4t/ オープンソースリンク: https://github.com/facebookresearch/seamless_communication モデルの複数の機能をトレーニングするために、研究者はまず 100 万時間分のオープン音声オーディオ データを使用して、w2v-BERT 2.0 の自己教師付き音声表現を学習しました。 次に、手動で注釈を付けたデータと疑似注釈を付けたデータをフィルタリングして組み合わせ、合計 406,000 時間に及ぶ、自動的に調整された音声翻訳のマルチモーダル コーパス、SeamlessAlign を取得しました。これは、音声とテキストを同時に英語に翻訳できる初の多言語システムでもあります。 Fleurs では、SeamlessM4T が複数のターゲット言語にわたる翻訳の新しい標準を確立し、直接音声テキスト翻訳の以前の最高パフォーマンス モデルと比較して 20% の BLEU 向上を達成しました。 強力なカスケード モデルと比較すると、SeamlessM4T は、音声テキスト変換で 1.3 BLEU スコア、音声変換で 2.6 ASR-BLEU スコア、英語翻訳の品質を向上させます。 CVSSでは、SeamlessM4T-Largeは音声翻訳の2段階カスケードモデルよりも58%優れています。 データ準備言語識別 (LID) 元の音声データを言語別に分類すると、音声セグメントのアライメント品質が向上し、下流の翻訳システムのパフォーマンスが向上します。 研究者は、ECAPA-TDNN オープンソース アーキテクチャをベースライン モデルとして選択しました。VoxLingua107 データセットで 30 エポック再トレーニングした後、分類エラー率は 5.25% でした。比較すると、オープンソース モデル VL107 HF のエラー率は 7% でした。 モデルが再現され検証された後、研究者らは最終的に 8 つの GPU で 40 エポックのトレーニングを行いましたが、これには合計 172 時間がかかりました。彼らは合計 17,000 時間の音声データを使用しました。これは言語ごとに平均 171 時間、1 時間から 600 時間の範囲です。 SeamlessM4T言語100種とVoxLingua107言語79種を使った実験では、追加言語のトレーニングによって共通言語セットの全体的なパフォーマンスがわずかに低下することがわかりました。これは、ズールー語(zul)がニャーヤ語(nya)と混同されることが多く、現代標準アラビア語(arb)がモロッコアラビア語(arry)やエジプトアラビア語(arz)と混同されるなど、より類似した言語が導入されるためと考えられます。 全体的に、新しいモデルでは 17 言語の分類性能が平均 14.6% 向上しましたが、12 言語の分類性能は低下しました (平均 9.8%)。 さらに、LIDタグの品質を向上させるために、研究者は、特定の言語で利用可能なデータの量に基づいて、開発コーパス内の各言語の正しい分類と誤って分類されたLIDスコアのガウス分布を推定し、p(正解|スコア) > p(不正解|スコア)となるようにフィルタリングしきい値を設定しました。 データの 8% を除外した後、モデルの F1 指数はさらに 3% 近く改善されました。 生の音声とテキストの大規模なコレクション テキストの前処理の際、研究者は NLLB チームの戦略に従い、同じデータ ソース、クリーニング戦略、フィルタリング手順などを使用しました。 論文リンク: https://arxiv.org/abs/2207.04672 音声の前処理に関しては、研究者らはまず、公開されているウェブデータクローラーライブラリから400万時間分の生の音声(そのうち約100万時間は英語)を取得し、それを16KHzの周波数で再サンプリングし、カスタマイズされた音声イベント検出(AED)モデルを使用して音声以外のデータを除外しました。 オーディオセグメンテーション部分では、S2TT または S2ST マイニングを実現するために、研究者はオーディオファイルを可能な限り小さなブロックに分割し、各ブロックに独立した文が 1 つだけ含まれるようにしました。 しかし、音声の意味的セグメンテーションは未解決の問題です。異なる言語の休止は異なる意味を表す場合があります。そのため、研究者は最初に音声アクティビティ検出(VAD)モデルを使用してオーディオファイルをより短いセグメントに分割し、次に各ファイルで音声LIDモデルを使用しました。最後に、各セグメントに対して複数の重複する可能性のあるセグメントを作成し、マイニングアルゴリズムを使用して最適なセグメントを選択しました。オーバーセグメンテーション戦略により、潜在的なセグメントの数が8倍に増加しました。 音声マイニング マイニングのプロセス中、研究者らはまずテキスト エンコーダーと音声エンコーダーをトレーニングし、次に 2 つのエンコーダーを使用してテキストと音声のモダリティのデータを共同埋め込み空間 SONAR (文レベルのマルチモーダルおよび言語に依存しない表現) に投影しました。 テキスト エンコーダのトレーニング方法は、最初にテキスト埋め込み空間をトレーニングし、次に教師と生徒のトレーニング戦略を使用してそれを音声モダリティに拡張することです。初期のテキスト SONAR 空間は、NLLB-1.3B モデルに基づくエンコーダ/デコーダ アーキテクチャを使用し、200 の言語を翻訳できます。 研究者らは、平均プーリングを使用して中間表現を固定サイズのベクトルに変換しました。つまり、デコーダーは 1 つのベクトルにのみ焦点を当てる必要があり、その後、NLLB の T2TT トレーニング データすべてを使用してアーキテクチャを微調整しました。 音声エンコーダのトレーニングでは、まず、事前トレーニング済みの XLS-R モデルの BOS 出力を通じて固定サイズの音声表現が取得され、次に、集合的な音声表現と同じ言語 (ASR 転写) または英語 (音声翻訳) の文章埋め込みとの間のコサイン損失が最大化されるようにモデルが微調整されます。 最後に、テキスト文章または他の言語の音声断片に基づいて音声断片をマイニングし、S2TT および S2ST データ ペアを生成して、SeamlessM4T モデルをトレーニングします。 研究者らは、ある言語のすべての音声クリップを別の言語のすべての音声クリップと比較するグローバルマイニングを実行しました。Faiss ライブラリを使用してすべての埋め込みをインデックス化することで、GPU 上で効率的な大規模な類似性検索が可能になります。 SeamlessM4TモデルアーキテクチャSeamlessM4T を設計する際の研究者の目標の 1 つは、強力な音声表現学習モデルと大規模な多言語 T2TT モデルを組み合わせて、より強力な直接 X2T モデル (テキストと音声をテキストに翻訳するためのモデル) を構築することにより、大規模な多言語およびマルチモーダル設定における S2TT の直接モデルとカスケード モデル間のギャップを埋めることです。 教師なし音声事前トレーニング 音声認識や翻訳タスク、特にリソースの少ない言語では、ラベル付きデータを入手するのは非常に困難です。そのため、研究者の音声翻訳モデルのトレーニングのアイデアは、まず自己教師学習を使用して事前トレーニングを行い、次に少量のデータで微調整することです。これにより、データ量が不十分な場合でもモデルの最終的なパフォーマンスを向上させることができます。 研究者らは、Seamless M4T Large の w2v BERT 2.0 事前トレーニング済み音声エンコーダーの w2v BERT XL アーキテクチャを採用し、24 のコンフォーマー レイヤーと約 6 億のモデル パラメーターを備えました。 w2v BERT 2.0 モデルは、143 を超える言語をカバーする 100 万時間のオープン音声オーディオ データでトレーニングされています。 w2v-BERT 2.0 は、対照学習とマスク予測学習を組み合わせた w2v-BERT の設計思想を踏襲していますが、学習目標の 2 つを調整しています。 対照学習モジュールは、ガンベル ベクトル量子化 (GVQ) コードブックとコンテキスト表現を学習するために使用され、次に、マスク位置での予測確率を二極化する代わりに、マスク予測学習を使用して、さまざまなタスクのコンテキスト表現を改良します。 w2v-BERT 2.0 は、単一の GVQ 語彙を使用する代わりに、2 つの GVQ コードブックの積を使用して量子化します。 X2T: テキスト翻訳と文字起こし マルチタスク Unity フレームワークの中核部分である X2T は、マルチエンコーダー シーケンス モデルです。音声入力には Conformer ベースのエンコーダーが使用され、テキストには Transformer ベースのエンコーダーが使用されます。 X2T モデルのトレーニング データは S2TT であり、これにはソース言語のオーディオ セグメントとターゲット言語のテキストが含まれています。 研究者らは、X2T モデルを 2 段階でトレーニングしました。 最初の段階では、ラベル付けされた英語の ASR と英語の S2TT データに対して教師ありトレーニングが実行されます。このプロセスにより、X-eng (特定の言語から英語) と eng-X の両方の翻訳パフォーマンスが向上します。 このプロセスにおいて、研究者らは、モデルを 1 つのターゲット言語のみに集中させながら、多言語の音声表現で微調整することで、ターゲット言語から逆伝播される干渉信号を回避できるという仮説を立てました。 第 2 段階では、注釈付きの eng-X S2TT と非英語 ASR データが混合データセットに追加されます。 音声翻訳(S2ST) S2ST 問題の鍵となるのは、自己教師付きの離散音響単位を使用して対象の音声を表現し、それによって S2ST 問題を音声から単位への翻訳 (S2UT) と単位から音声への変換 (U2S) に分解することです。 S2UT 問題の場合、Unity は 2 パス デコード フレームワークとして使用され、最初にテキストを生成し、次に個別の音響単位を予測します。 基本的な Unity モデルと比較すると、SemalessM4T の Unity は初期化された S2TT モデルを事前トレーニングして、T2TT、S2TT、および ASR の X2T モデルを共同で最適化します。T2U モデルはより深く、6 つの Transformer レイヤーを含みます。最初から初期化する代わりに、事前トレーニングされた T2U モデルが使用されます。 事前トレーニング済みの X2T には、より強力な音声エンコーダーと高品質のファーストパス テキスト デコーダーが搭載されており、大規模な事前トレーニング済みの T2U モデルでは、干渉なしで多言語ユニット生成をより適切に処理できます。 微調整の最終段階では、事前トレーニング済みの X2T モデルと事前トレーニング済みの T2U モデルを使用してマルチタスク Unity モデルを初期化した後、合計 121,000 時間の X-ENG および ENG-X S2ST 翻訳データを使用して T2U コンポーネントを微調整し、前回の微調整段階のタスクにおけるモデルのパフォーマンスが変更されないようにします。 SeamlessM4Tモデル これまでの 3 段階のトレーニングを経て、結果として得られた SeamlessM4T-Large モデルは 23 億個のパラメーターを持ち、T2TT タスクで英語とペアになった 95 言語、ASR タスクで 96 言語、S2TT タスクで英語とペアになった 89 言語で微調整されています。 異なるサイズのモデルを提供するために、研究者は同じ手順に従って SeamlessM4T-Medium をトレーニングしました。SeamlessM4T-Medium は、SeamlessM4T-Large よりもパラメータが 57% 少なく、実験分析と改善のためにより簡単にテストおよび微調整できます。 実験的評価研究者らは、SeamlessM4T モデルを 4 つの教師ありタスク (T2TT、ASR、S2TT、S2ST) と、テキスト音声翻訳のゼロショットタスク (T2ST、クロスリンガル テキスト音声合成) で評価しました。 S2ST および T2ST 推論プロセス中に、モデルは幅 5 の 2 パス ビーム検索デコードを実行します。最初にテキスト デコーダーを使用して最適な仮説を見つけ、次にその仮説を T2U に入力して最適な単位シーケンス仮説を検索します。 カスケード方式の比較 SeamlessM4T と Whisper がサポートする言語セットについて、研究者らは Whisper ASR モデルと NLLB T2TT モデルの組み合わせを比較しました。 SeamlessM4T-Large は、x-eng 方向では 3B 未満のパラメータを持つカスケード モデルよりも 2 BLEU スコアが高く、eng-x 方向では 3B 未満のパラメータを持つカスケード モデルよりも 0.5 BLEU スコアが高いことがわかります。 大規模な NLLB-3.3B T2TT モデル (40 億を超えるパラメータ) のカスケード モデルを使用する場合、eng-X 方向でのみ SeamlessM4T-Large よりも優れたパフォーマンスを発揮します。 S2ST タスクの比較では、SeamlessM4T-Large は、Fleurs X-Eng 方向で 2 段階カスケード モデルよりも 9 ASR-BLEU ポイント優れており、3 段階カスケード モデルよりも 2.6 ASR BLEU ポイント優れています。 CVSS では、SeamlessM4T-Large は 2 段階カスケード モデルよりも 14 ASR-BLEU スコア優れています。Fleurs Eng-X 方向では、SeamlessM4T-Large は 32 X-Eng 方向で平均 ASR-BLEU が 21.5 であり、Whisper-Large-v2 (ASR-BLEU に使用される ASR モデル) よりも 100 WER 高くなっています。 |
<<: 生体認証監視がデータセンターの物理的セキュリティを強化する方法
[51CTO.com クイック翻訳] 今日言及された事故のほとんどはAI自体と直接関係はありませんが...
[[443041]]今年ももうすぐ終わり、あと3日で2021年も終わりです。さまざまなAI分野でも...
大きなモデルはすべてコンテキスト ウィンドウをロールアップしました。Llama -1 のときは、標準...
11月3日、Google ResearchとDeepMindは最新の気象モデルMetNet-3を共同...
過去数十年にわたり、技術の進歩は私たちの生活、仕事、コミュニケーションの方法に革命をもたらしました。...
大規模モデルの実用化の問題に関しては、現在業界では大規模モデルを使用して質疑応答を行うのが一般的です...
近年、自然言語処理における事前トレーニングは研究分野でホットな話題となっており、有名なGPT-3も新...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
これはマイクロソフトと中国科学院大学による新たな研究の結論です。すべての LLM は 1.58 ビッ...
「分野が違えば意味も違う」とよく言われます。機械学習コミュニティは部外者から見るとどのように見えるの...
モノのインターネットは長い間、インターネットの第2フェーズとして宣伝されてきましたが、現在、コロナウ...