Google は 1,000 以上の「ロングテール」言語に対応する機械翻訳システムを開発、すでにいくつかのニッチ言語をサポート

Google は 1,000 以上の「ロングテール」言語に対応する機械翻訳システムを開発、すでにいくつかのニッチ言語をサポート

学術および商用の機械翻訳 (MT) システムの品質は、過去 10 年間で劇的に向上しました。これらの改善は、主に機械学習の進歩と大規模な Web マイニング データセットの利用可能性によるものです。同時に、ディープラーニング(DL)やE2Eモデル、ウェブマイニングから得られる大規模な並列単一言語データセット、バック翻訳や自己トレーニングなどのデータ拡張手法、大規模な多言語モデリングの出現により、100を超える言語をサポートできる高品質の機械翻訳システムが誕生しました。

しかし、低リソースの機械翻訳が驚異的な進歩を遂げているにもかかわらず、幅広く使用可能で汎用的な機械翻訳システムが構築されている言語は約 100 言語に限られており、これは明らかに、現在世界中で話されている 7,000 を超える言語のほんの一部にすぎません。言語の数が限られていることに加え、現在の機械翻訳システムでサポートされている言語の分布も、ヨーロッパの言語に大きく偏っています。

人口が多いにもかかわらず、アフリカ、南アジア、東南アジアで話されている言語やアメリカ先住民の言語に関連するサービスが少ないことがわかります。たとえば、Google 翻訳はフリジア語、マルタ語、アイスランド語、コルシカ語をサポートしていますが、これらの言語のネイティブスピーカーはいずれも 100 万人未満です。比較すると、Google 翻訳が対応していないビハリ語の方言人口は約 5,100 万人、オロモ語の人口は約 2,400 万人、ケチュア語の人口は約 900 万人、ティグリニャ語の人口は約 900 万人です (2022 年)。これらの言語は「ロングテール」言語と呼ばれ、データが不足しているため、十分なトレーニングデータを持つ言語を超えて一般化できる機械学習技術の適用が必要です。

これらのロングテール言語向けの機械翻訳システムの構築は、利用可能なデジタルデータセットや言語識別 (LangID) モデルなどの NLP ツールが不足しているため、大きく制限されています。これらは、高リソース言語では広く使用されています。

「次世代の 1,000 言語に対応する機械翻訳システムの構築」と題された最近の Google の論文では、20 名を超える研究者が、1,000 を超える言語をサポートする実用的な機械翻訳システムの構築に向けた取り組みの結果を発表しました。

論文アドレス: https://arxiv.org/pdf/2205.03983.pdf

具体的には、研究者らは次の 3 つの研究分野からの調査結果について説明します。

まず、言語識別とデータ駆動型フィルタリング技術のための半教師あり事前トレーニングを通じて、1500 以上の言語のクリーンな Web マイニング データセットを作成します。

次に、100 以上の高リソース言語の教師あり並列データでトレーニングされた大規模な多言語モデルと、追加の 1000 以上の言語の単一言語データセットを通じて、サービスが不十分な言語向けの効果的な機械翻訳モデルを作成しました。

第三に、これらの言語の評価指標の限界を研究し、機械翻訳モデルの出力の定性分析を実施し、そのようなモデルのいくつかの一般的なエラーモードに焦点を当てます。

研究者たちは、この研究が、現在研究が不十分な言語の機械翻訳システムの構築に取り組んでいる実務家にとって有益な洞察を提供することを期待している。さらに、研究者たちは、この研究が、データがまばらな環境における大規模な多言語モデルの弱点を補う研究の方向性に人々の注目が集まるきっかけになることを期待している。

5月12日のI/Oカンファレンスで、Googleは同社の翻訳システムに、前述のビハリ語、オロモ語、ケチュア語、ティグリニャ語など、ニッチなアメリカ先住民の言語を含む24の新しい言語が追加されたと発表した。

論文概要

この作品は主に4つの章に分かれており、ここでは各章の内容を簡単に紹介するだけにします。

1000言語のウェブテキストデータセットを作成する

この章では、研究者が 1500 以上の言語の単一言語テキスト データセットをクロールする際に採用したアプローチについて詳しく説明します。これらの方法は、高精度データ(つまり、クリーンな言語テキストの割合が高いデータ)の回復に重点を置いているため、大部分はさまざまなフィルタリング方法です。

一般的に、研究者が使用する方法は次のとおりです。

  • トレーニングデータの品質とLangIDパフォーマンスが悪い言語をLangIDモデルから削除し、1629言語のCLD3 LangIDモデルと半教師ありLangID(SSLID)モデルをトレーニングします。
  • CLD3 モデル内の言語のエラー率に基づいてクラスタリングが実行されます。
  • CLD3 モデルを使用して最初の Web クロール ラウンドを実行します。
  • ドキュメントの一貫性を使用して文をフィルタリングします。
  • すべてのコーパスはパーセンテージしきい値単語リストを使用してフィルタリングされました。
  • すべてのコーパスは半教師あり言語ID (SSLID) を使用してフィルタリングされました。
  • 相対的再現率を使用して外れ値の言語を検出し、TF-IIF (Term-Frequency-Inverse-Internet-Frequency) を使用してフィルタリングします。
  • トークン頻度異常スコアを使用して外れ値の言語を検出し、それらのフィルターを手動で設計します。
  • すべてのコーパスに対して文レベルで重複排除が実行されます。

以下は、Web テキストで 1745 言語の CLD3 LangID モデルを使用したドキュメント一貫性スコアのヒストグラムです。

以下の表 2 は、低リソース言語 (LRL) の完全なデータセットの単一言語データ、モデルのトレーニングに使用された部分的な単一言語データ、および高リソース言語を含む完全なトレーニング セットの単一言語データを示しています。

章のリストは次のとおりです。

ロングテール言語向け機械翻訳モデルの構築

Web からマイニングされた単一言語データの場合、次の課題は、限られた量の単一言語トレーニング データから高品質の汎用機械翻訳モデルを作成することです。この目的のために、研究者らは、高リソース言語で利用可能なすべての並列データを活用して、単一言語データしか利用できないロングテール言語の品質を向上させる実用的なアプローチを採用しました。ロングテール言語に対する直接的な監視がないため、この設定は「ゼロリソース」と呼ばれます。

研究者らは、過去数年間に機械翻訳用に開発されたいくつかの技術を使用して、ロングテール言語のゼロリソース翻訳の品質を向上させました。これらの技術には、単一言語データからの自己教師あり学習、大規模な多言語教師あり学習、大規模な逆翻訳、自己トレーニングの大容量モデルが含まれます。彼らはこれらのツールを使用して、約 100 の言語をカバーする既存の並列コーパスと、Web から構築された 1000 言語の単一言語データセットを活用して、1000 以上の言語を翻訳できる機械翻訳モデルを作成しました。

具体的には、研究者らはまず、ゼロリソース翻訳における15億と60億のパラメータを持つTransformerのパフォーマンスを比較することで、高度に多言語化されたモデルにおけるモデル容量の重要性を強調し(3.2)、次に自己教師あり言語の数を1,000に増やし、類似言語からの単一言語データがより多く利用可能になるにつれて、ほとんどのロングテール言語のパフォーマンスもそれに応じて向上することを検証しました(3.3)。研究者らの 1000 言語モデルは妥当なパフォーマンスを示しましたが、彼らはそのアプローチの長所と限界を理解するために大規模なデータ拡張を組み込みました。

さらに、研究者らは、自己トレーニングと逆翻訳を通じて、大量の合成データを含む30言語のサブセットで生成モデルを微調整しました(3.4)。さらに、微調整されたモデルの幻覚や誤った言語翻訳に対する堅牢性を高めるために、合成データをフィルタリングする実用的な方法についても説明しています(3.5)。

研究者らはまた、シーケンスレベルの蒸留を使用して、これらのモデルをより小さく、より推論しやすいアーキテクチャに精製し、教師モデルと生徒モデル間のパフォーマンスのギャップを強調しました(3.6)。

章のリストは次のとおりです。

評価する

研究者らは機械翻訳モデルを評価するために、まず英語の文章をこれらの言語に翻訳し、選択された38のロングテール言語の評価セットを構築した(4.1)。彼らはロングテール設定におけるBLEUの限界を強調し、CHRFを使用してこれらの言語を評価しました(4.2)。

研究者らはまた、参照セットが利用できない言語におけるモデルの品質を理解するために、近似的な往復翻訳ベースの参照なしメトリックを提案し、このメトリックによって測定されたモデルの品質を報告した(4.3)。彼らは28言語のサブセットでモデルを手動で評価した結果を報告し、論文で説明されている方法を使用して有用な機械翻訳システムを構築できることを確認しました(4.4)。

大規模な多言語ゼロリソースモデルの弱点を理解するために、研究者らはいくつかの言語で定性的なエラー分析を実施しました。モデルでは、「トラ」が「小さなワニ」になるなど、分布が類似している単語や概念が混同されることが多いことがわかりました(4.5)。また、リソース設定が低い場合 (4.6)、モデルのトークン翻訳能力は、出現頻度の低いトークンに対して低下します。

研究者らはまた、これらのモデルは短い入力や単語1つだけの入力を正確に翻訳できないことが多いことも発見した(4.7)。改良されたモデルの研究の結果、すべてのモデルがトレーニングデータに存在するバイアスやノイズを増幅する可能性が高いことが示されました (4.8)。

章のリストは次のとおりです。

追加の実験とメモ

研究者らは上記のモデルについていくつかの追加実験を行い、英語をピボットとして使用せずに類似の言語間で直接翻訳する場合に一般的に優れていること(5.1)、および異なる文字間のゼロショット音訳に使用できること(5.2)を示しました。

彼らは、入力に終止符を付加する「ピリオドトリック」と呼ばれる実用的なトリックを説明しています。これは翻訳の品質を向上させるために使用できます(5.3)。

さらに、研究者らは、これらのモデルがすべての言語ではないが一部の言語の非標準 Unicode グリフの使用に対して堅牢であることを示し (5.4)、いくつかの非 Unicode フォントを調査しています (5.5)。

章のリストは次のとおりです。

研究の詳細については原著論文を参照してください。

<<:  繊毛もチップにできる!コーネル大学の中国人博士課程学生の初の論文がネイチャーの表紙に掲載

>>:  強風にも耐えられるドローン?カリフォルニア工科大学は12分間の飛行データを使い、ドローンに風の中での飛行を教える

ブログ    
ブログ    

推薦する

蹴り倒せない!家庭用ヒューマノイドロボットが誕生、価格は9万ドル未満

最近、障害を乗り越えるヒューマノイドロボットのビデオが話題になった。ビデオでは、ヒューマノイドロボッ...

携帯電話の顔認識はどのように機能しますか?理解を助ける記事

顔認証は一般的な生体認証の一種です。指紋認証と比較すると、顔スキャンは操作が簡単で、前面カメラを顔に...

超強力なTP-Link!北京大学と清華大学が共同で一般AI実験クラスを設立、朱松春氏が指導

史上最強の集団が力を合わせてAI開発に挑む?最近、北京大学の公式Weiboアカウントは、北京大学と清...

...

過去 2 週間で AI の進路を変える可能性が最も高い 6 つのリリース!

編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)過去 2 ...

...

...

ビジネスリーダーが AI を活用して人々の心をつかみ、成果を上げる 5 つの方法

AI がリーダーシップ能力を強化できるとしたらどうでしょうか? チームをより深く理解し、チームのニー...

人工知能とソフトウェア開発の未来

人工知能はソフトウェア開発をあらゆる面で変えています。多くの企業が AI 機能の導入を競っていますが...

EleutherAIが200億パラメータのGPT風モデルを発表: GPT-3とは異なり、無料でオープン

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Quark App、健康検索をアップグレードし、健康モデルアプリ「Quark Health Assistant」をリリース

12月25日、Quark Appは健康検索の全面的なアップグレードを発表し、健康大規模モデルアプリケ...

画像認証コードで人工バカになる

[[416826]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

ダボにおけるタイムホイールアルゴリズムの応用

[[346568]] 1 スケジュールされたタスクNetty、Quartz、Kafka、Linux ...

ボストン・ダイナミクスがマスク氏を激しく批判、それは単なる自慢なのか、それとも現実なのか?テスラロボットに関する3つの大きな推測

テスラのロボットに関しては、まず主要なタイムラインを確認しましょう。実際、テスラのロボットの構想は1...

...