研究:インターネットには低品質の機械翻訳コンテンツが溢れており、大規模な言語モデルのトレーニングではデータの罠に注意する必要がある

研究:インターネットには低品質の機械翻訳コンテンツが溢れており、大規模な言語モデルのトレーニングではデータの罠に注意する必要がある

2月4日、アマゾンクラウドコンピューティング人工知能研究所の研究者らは、インターネット上の大量のコンテンツが機械翻訳(MT)によって生成されており、複数の言語にまたがるこれらの翻訳コンテンツの質は総じて低いことを発見した。研究チームは、これは大規模言語モデル(LLM)をトレーニングする際にデータの品質とソースを考慮することの重要性を浮き彫りにしていると強調した。

この調査では、機械生成コンテンツはリソースの少ない言語からの翻訳で普及しており、ウェブコンテンツの大部分を占めていることも判明した。

IT Home は、研究チームが機械翻訳コンテンツの特性をより深く理解するために、多次元 cc マトリックス (MWccMatrix) と呼ばれる巨大なリソースを開発したことに気づきました。このリソースには、90 の言語で 64 億の固有の文章が含まれており、相互に翻訳された文章のセットである翻訳タプルも含まれています。

調査では、大量のウェブコンテンツが主に機械翻訳を通じて複数の言語に翻訳されることが多いことが判明しました。このコンテンツは、リソースの少ない言語からの翻訳でよく見られるだけでなく、これらの言語のすべての Web コンテンツの大部分を占めています。

研究者らはまた、広告収入などの目的でコンテンツが複数の言語に翻訳される際に選択的な偏りがあることも指摘した。

この論文は次のように結論づけています。「機械翻訳技術は過去 10 年間で大幅に改善されましたが、依然として人間の品質には及びません。長年にわたり、当時利用可能な機械翻訳システムを使用して機械翻訳されたコンテンツが Web に追加されてきたため、Web 上の機械翻訳されたコンテンツの多くは、現代の基準からすると低品質である可能性があります。これにより、LLM モデルがより多くの「幻覚」を生成する可能性がありますが、選択バイアスにより、機械翻訳のエラーを考慮しなくてもデータ品質が低い可能性があることが示唆されています。データ品質は、書籍や Wikipedia の記事などの高品質のコーパスが複数回アップサンプリングされることが多い LLM トレーニングにとって非常に重要です。」

<<:  グラフを考慮した対照学習により多変量時系列分類が改善

>>: 

ブログ    

推薦する

FMI2017----人工知能とビッグデータが時代を力づける

2017年8月5日、ペガサスが主催する「FMI人工知能&ビッグデータサミットフォーラム」が北京国家会...

人工知能は、いつになったら本当に考えることができるようになるのでしょうか?

「人間のように考える」、「人間のように行動する」、「合理的に考える」、「合理的に行動する」。これは...

毎日のアルゴリズム: 回転マトリックス

[[431855]]各ピクセルのサイズが 4 バイトである N × N 行列で表される画像が与えられ...

NVIDIA AI ゲーム エンジンをテスト: NPC とリアルタイムでチャット、中国語の会話は超スムーズ

『サイバーパンク2077』で黄院士が作成したインテリジェントNPCはすでに中国語を話している?実際に...

AI天気予報には依然として人間の介入が必要

業界では、デート、マーケティング、ソーシャルメディアから宇宙探査、医療の進歩に至るまで、人工知能とそ...

レビュー能力はGPT-4よりも強く、13B評価モデルAuto-Jはオープンソース化されている

生成型人工知能技術の急速な発展に伴い、大規模なモデルが人間の価値観(意図)と一致するようにすることが...

ついにAI、BI、ビッグデータ、データサイエンスをわかりやすく説明する人が出てきた

01 データデータは、携帯電話に残すデジタルフットプリントから健康記録、買い物履歴、エネルギーなどの...

...

パンデミック後、アメリカ人の半数がスマートデバイスの音声制御が不可欠だと考えている

Syntiantが最近実施したユーザー調査によると、COVID-19パンデミックの影響により、アメリ...

百度の顔認識技術のインテリジェント企業人事管理分野への応用分析

[51CTO.com からのオリジナル記事] 周知のように、人、物、オブジェクトは企業管理の 3 つ...

6144個のTPU、5400億個のパラメータ、バグ修正、ジョーク解釈など、GoogleはPathwaysを使用して大規模なモデルをトレーニングしました

Google の次世代アーキテクチャ Pathways は、大規模なモデルのトレーニングに使用されて...

Nature 誌に「室温超伝導体は科学をどう変えるのか?」という記事が掲載されました。

7月末にLK-99が引き起こした熱狂は、8月中旬には徐々に沈静化しました。いくつかの権威ある組織が...