Google は 1,000 以上の「ロングテール」言語に対応する機械翻訳システムを開発、すでにいくつかのニッチ言語をサポート

学術および商用の機械翻訳 (MT) システムの品質は、過去 10 年間で劇的に向上しました。これらの改善は、主に機械学習の進歩と大規模な Web マイニングデータセットの利用可能性によるものです。同時に、ディープラーニング（DL）やE2Eモデル、ウェブマイニングから得られる大規模な並列単一言語データセット、バック翻訳や自己トレーニングなどのデータ拡張手法、大規模な多言語モデリングの出現により、100を超える言語をサポートできる高品質の機械翻訳システムが誕生しました。

しかし、低リソースの機械翻訳が驚異的な進歩を遂げているにもかかわらず、幅広く使用可能で汎用的な機械翻訳システムが構築されている言語は約 100 言語に限られており、これは明らかに、現在世界中で話されている 7,000 を超える言語のほんの一部にすぎません。言語の数が限られていることに加え、現在の機械翻訳システムでサポートされている言語の分布も、ヨーロッパの言語に大きく偏っています。

人口が多いにもかかわらず、アフリカ、南アジア、東南アジアで話されている言語やアメリカ先住民の言語に関連するサービスが少ないことがわかります。たとえば、Google 翻訳はフリジア語、マルタ語、アイスランド語、コルシカ語をサポートしていますが、これらの言語のネイティブスピーカーはいずれも 100 万人未満です。比較すると、Google 翻訳が対応していないビハリ語の方言人口は約 5,100 万人、オロモ語の人口は約 2,400 万人、ケチュア語の人口は約 900 万人、ティグリニャ語の人口は約 900 万人です (2022 年)。これらの言語は「ロングテール」言語と呼ばれ、データが不足しているため、十分なトレーニングデータを持つ言語を超えて一般化できる機械学習技術の適用が必要です。

これらのロングテール言語向けの機械翻訳システムの構築は、利用可能なデジタルデータセットや言語識別 (LangID) モデルなどの NLP ツールが不足しているため、大きく制限されています。これらは、高リソース言語では広く使用されています。

「次世代の 1,000 言語に対応する機械翻訳システムの構築」と題された最近の Google の論文では、20 名を超える研究者が、1,000 を超える言語をサポートする実用的な機械翻訳システムの構築に向けた取り組みの結果を発表しました。

論文アドレス: https://arxiv.org/pdf/2205.03983.pdf

具体的には、研究者らは次の 3 つの研究分野からの調査結果について説明します。

まず、言語識別とデータ駆動型フィルタリング技術のための半教師あり事前トレーニングを通じて、1500 以上の言語のクリーンな Web マイニングデータセットを作成します。

次に、100 以上の高リソース言語の教師あり並列データでトレーニングされた大規模な多言語モデルと、追加の 1000 以上の言語の単一言語データセットを通じて、サービスが不十分な言語向けの効果的な機械翻訳モデルを作成しました。

第三に、これらの言語の評価指標の限界を研究し、機械翻訳モデルの出力の定性分析を実施し、そのようなモデルのいくつかの一般的なエラーモードに焦点を当てます。

研究者たちは、この研究が、現在研究が不十分な言語の機械翻訳システムの構築に取り組んでいる実務家にとって有益な洞察を提供することを期待している。さらに、研究者たちは、この研究が、データがまばらな環境における大規模な多言語モデルの弱点を補う研究の方向性に人々の注目が集まるきっかけになることを期待している。

5月12日のI/Oカンファレンスで、Googleは同社の翻訳システムに、前述のビハリ語、オロモ語、ケチュア語、ティグリニャ語など、ニッチなアメリカ先住民の言語を含む24の新しい言語が追加されたと発表した。

論文概要

この作品は主に4つの章に分かれており、ここでは各章の内容を簡単に紹介するだけにします。

1000言語のウェブテキストデータセットを作成する

この章では、研究者が 1500 以上の言語の単一言語テキストデータセットをクロールする際に採用したアプローチについて詳しく説明します。これらの方法は、高精度データ（つまり、クリーンな言語テキストの割合が高いデータ）の回復に重点を置いているため、大部分はさまざまなフィルタリング方法です。

一般的に、研究者が使用する方法は次のとおりです。

トレーニングデータの品質とLangIDパフォーマンスが悪い言語をLangIDモデルから削除し、1629言語のCLD3 LangIDモデルと半教師ありLangID（SSLID）モデルをトレーニングします。
CLD3 モデル内の言語のエラー率に基づいてクラスタリングが実行されます。
CLD3 モデルを使用して最初の Web クロールラウンドを実行します。
ドキュメントの一貫性を使用して文をフィルタリングします。
すべてのコーパスはパーセンテージしきい値単語リストを使用してフィルタリングされました。
すべてのコーパスは半教師あり言語ID (SSLID) を使用してフィルタリングされました。
相対的再現率を使用して外れ値の言語を検出し、TF-IIF (Term-Frequency-Inverse-Internet-Frequency) を使用してフィルタリングします。
トークン頻度異常スコアを使用して外れ値の言語を検出し、それらのフィルターを手動で設計します。
すべてのコーパスに対して文レベルで重複排除が実行されます。

以下は、Web テキストで 1745 言語の CLD3 LangID モデルを使用したドキュメント一貫性スコアのヒストグラムです。

以下の表 2 は、低リソース言語 (LRL) の完全なデータセットの単一言語データ、モデルのトレーニングに使用された部分的な単一言語データ、および高リソース言語を含む完全なトレーニングセットの単一言語データを示しています。

章のリストは次のとおりです。

ロングテール言語向け機械翻訳モデルの構築

Web からマイニングされた単一言語データの場合、次の課題は、限られた量の単一言語トレーニングデータから高品質の汎用機械翻訳モデルを作成することです。この目的のために、研究者らは、高リソース言語で利用可能なすべての並列データを活用して、単一言語データしか利用できないロングテール言語の品質を向上させる実用的なアプローチを採用しました。ロングテール言語に対する直接的な監視がないため、この設定は「ゼロリソース」と呼ばれます。

研究者らは、過去数年間に機械翻訳用に開発されたいくつかの技術を使用して、ロングテール言語のゼロリソース翻訳の品質を向上させました。これらの技術には、単一言語データからの自己教師あり学習、大規模な多言語教師あり学習、大規模な逆翻訳、自己トレーニングの大容量モデルが含まれます。彼らはこれらのツールを使用して、約 100 の言語をカバーする既存の並列コーパスと、Web から構築された 1000 言語の単一言語データセットを活用して、1000 以上の言語を翻訳できる機械翻訳モデルを作成しました。

具体的には、研究者らはまず、ゼロリソース翻訳における15億と60億のパラメータを持つTransformerのパフォーマンスを比較することで、高度に多言語化されたモデルにおけるモデル容量の重要性を強調し（3.2）、次に自己教師あり言語の数を1,000に増やし、類似言語からの単一言語データがより多く利用可能になるにつれて、ほとんどのロングテール言語のパフォーマンスもそれに応じて向上することを検証しました（3.3）。研究者らの 1000 言語モデルは妥当なパフォーマンスを示しましたが、彼らはそのアプローチの長所と限界を理解するために大規模なデータ拡張を組み込みました。

さらに、研究者らは、自己トレーニングと逆翻訳を通じて、大量の合成データを含む30言語のサブセットで生成モデルを微調整しました（3.4）。さらに、微調整されたモデルの幻覚や誤った言語翻訳に対する堅牢性を高めるために、合成データをフィルタリングする実用的な方法についても説明しています（3.5）。

研究者らはまた、シーケンスレベルの蒸留を使用して、これらのモデルをより小さく、より推論しやすいアーキテクチャに精製し、教師モデルと生徒モデル間のパフォーマンスのギャップを強調しました（3.6）。

章のリストは次のとおりです。

評価する

研究者らは機械翻訳モデルを評価するために、まず英語の文章をこれらの言語に翻訳し、選択された38のロングテール言語の評価セットを構築した（4.1）。彼らはロングテール設定におけるBLEUの限界を強調し、CHRFを使用してこれらの言語を評価しました（4.2）。

研究者らはまた、参照セットが利用できない言語におけるモデルの品質を理解するために、近似的な往復翻訳ベースの参照なしメトリックを提案し、このメトリックによって測定されたモデルの品質を報告した（4.3）。彼らは28言語のサブセットでモデルを手動で評価した結果を報告し、論文で説明されている方法を使用して有用な機械翻訳システムを構築できることを確認しました（4.4）。

大規模な多言語ゼロリソースモデルの弱点を理解するために、研究者らはいくつかの言語で定性的なエラー分析を実施しました。モデルでは、「トラ」が「小さなワニ」になるなど、分布が類似している単語や概念が混同されることが多いことがわかりました（4.5）。また、リソース設定が低い場合 (4.6)、モデルのトークン翻訳能力は、出現頻度の低いトークンに対して低下します。

研究者らはまた、これらのモデルは短い入力や単語1つだけの入力を正確に翻訳できないことが多いことも発見した（4.7）。改良されたモデルの研究の結果、すべてのモデルがトレーニングデータに存在するバイアスやノイズを増幅する可能性が高いことが示されました (4.8)。

章のリストは次のとおりです。