研究:インターネットには低品質の機械翻訳コンテンツが溢れており、大規模な言語モデルのトレーニングではデータの罠に注意する必要がある

研究:インターネットには低品質の機械翻訳コンテンツが溢れており、大規模な言語モデルのトレーニングではデータの罠に注意する必要がある

2月4日、アマゾンクラウドコンピューティング人工知能研究所の研究者らは、インターネット上の大量のコンテンツが機械翻訳(MT)によって生成されており、複数の言語にまたがるこれらの翻訳コンテンツの質は総じて低いことを発見した。研究チームは、これは大規模言語モデル(LLM)をトレーニングする際にデータの品質とソースを考慮することの重要性を浮き彫りにしていると強調した。

この調査では、機械生成コンテンツはリソースの少ない言語からの翻訳で普及しており、ウェブコンテンツの大部分を占めていることも判明した。

IT Home は、研究チームが機械翻訳コンテンツの特性をより深く理解するために、多次元 cc マトリックス (MWccMatrix) と呼ばれる巨大なリソースを開発したことに気づきました。このリソースには、90 の言語で 64 億の固有の文章が含まれており、相互に翻訳された文章のセットである翻訳タプルも含まれています。

調査では、大量のウェブコンテンツが主に機械翻訳を通じて複数の言語に翻訳されることが多いことが判明しました。このコンテンツは、リソースの少ない言語からの翻訳でよく見られるだけでなく、これらの言語のすべての Web コンテンツの大部分を占めています。

研究者らはまた、広告収入などの目的でコンテンツが複数の言語に翻訳される際に選択的な偏りがあることも指摘した。

この論文は次のように結論づけています。「機械翻訳技術は過去 10 年間で大幅に改善されましたが、依然として人間の品質には及びません。長年にわたり、当時利用可能な機械翻訳システムを使用して機械翻訳されたコンテンツが Web に追加されてきたため、Web 上の機械翻訳されたコンテンツの多くは、現代の基準からすると低品質である可能性があります。これにより、LLM モデルがより多くの「幻覚」を生成する可能性がありますが、選択バイアスにより、機械翻訳のエラーを考慮しなくてもデータ品質が低い可能性があることが示唆されています。データ品質は、書籍や Wikipedia の記事などの高品質のコーパスが複数回アップサンプリングされることが多い LLM トレーニングにとって非常に重要です。」

<<:  グラフを考慮した対照学習により多変量時系列分類が改善

>>: 

ブログ    

推薦する

COVID-19パンデミックは顔認識技術の導入を促進している

COVID-19は顔認識技術の使用にどのような影響を与えるでしょうか? [[374366]] #p#...

清華大学のJiTuアップデート:微分可能レンダリングをサポートし、マルチタスク速度はPyTorchを上回る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ドライバー疲労モニタリングシステムの開発動向に関する簡単な分析

車両に先進運転支援システムが搭載されることで、ドライバーの安全性と快適性がさらに向上しました。先進運...

最新のAIオープンソースプロジェクト12件をダウンロードする必要があります

[[242968]] #TensorFlow に基づく強化学習フレームワークDopamine は、強...

専門家が最もよく使う機械学習ツール 15 選

[[323871]]画像ソース: unsplash機械学習は素晴らしい技術ですが、その可能性を実現す...

...

ディープフェイク動画が急速に広まっている。ブロックチェーンがこの「疫病」を阻止できるかもしれない

「フェイクニュース」という言葉が今話題になっているが、ディープフェイク(本物に見えるが実は偽の動画を...

...

アプリオリアルゴリズム原理の要約

[[182123]]関連付けアルゴリズムは、データ マイニングにおける重要なタイプのアルゴリズムです...

人工知能は核爆弾と同じくらい人類にとって脅威なのでしょうか? AI脅威理論の謎を解く

新たに世界一の富豪となり、テスラのCEO、そしてテクノロジー界の大物となったマスク氏は、ロボットが近...

「人工知能+ヘルスケア」が急成長

「人工知能+ヘルスケア」が急速に発展しています。医学は、帰納的論理、経験的学習、証拠に基づく応用に依...

言語モデルは時間をどのように認識するのでしょうか?時間ベクトルについてさらに詳しく

言語モデルは正確にはどのようにして時間を認識するのでしょうか?言語モデルの時間認識をどのように利用す...

...

AI Factory がコンセプトから産業化まで迅速かつ安全に移行する方法

[[374390]]人工知能 (AI) は、組織によって競争上の優位性を獲得するための重要なテクノロ...