研究:インターネットには低品質の機械翻訳コンテンツが溢れており、大規模な言語モデルのトレーニングではデータの罠に注意する必要がある

研究:インターネットには低品質の機械翻訳コンテンツが溢れており、大規模な言語モデルのトレーニングではデータの罠に注意する必要がある

2月4日、アマゾンクラウドコンピューティング人工知能研究所の研究者らは、インターネット上の大量のコンテンツが機械翻訳(MT)によって生成されており、複数の言語にまたがるこれらの翻訳コンテンツの質は総じて低いことを発見した。研究チームは、これは大規模言語モデル(LLM)をトレーニングする際にデータの品質とソースを考慮することの重要性を浮き彫りにしていると強調した。

この調査では、機械生成コンテンツはリソースの少ない言語からの翻訳で普及しており、ウェブコンテンツの大部分を占めていることも判明した。

IT Home は、研究チームが機械翻訳コンテンツの特性をより深く理解するために、多次元 cc マトリックス (MWccMatrix) と呼ばれる巨大なリソースを開発したことに気づきました。このリソースには、90 の言語で 64 億の固有の文章が含まれており、相互に翻訳された文章のセットである翻訳タプルも含まれています。

調査では、大量のウェブコンテンツが主に機械翻訳を通じて複数の言語に翻訳されることが多いことが判明しました。このコンテンツは、リソースの少ない言語からの翻訳でよく見られるだけでなく、これらの言語のすべての Web コンテンツの大部分を占めています。

研究者らはまた、広告収入などの目的でコンテンツが複数の言語に翻訳される際に選択的な偏りがあることも指摘した。

この論文は次のように結論づけています。「機械翻訳技術は過去 10 年間で大幅に改善されましたが、依然として人間の品質には及びません。長年にわたり、当時利用可能な機械翻訳システムを使用して機械翻訳されたコンテンツが Web に追加されてきたため、Web 上の機械翻訳されたコンテンツの多くは、現代の基準からすると低品質である可能性があります。これにより、LLM モデルがより多くの「幻覚」を生成する可能性がありますが、選択バイアスにより、機械翻訳のエラーを考慮しなくてもデータ品質が低い可能性があることが示唆されています。データ品質は、書籍や Wikipedia の記事などの高品質のコーパスが複数回アップサンプリングされることが多い LLM トレーニングにとって非常に重要です。」

<<:  グラフを考慮した対照学習により多変量時系列分類が改善

>>: 

ブログ    

推薦する

SDNアプリケーションルーティングアルゴリズムを実装するためのツールであるNetworkx

SDN (ソフトウェア定義ネットワーク) は、集中制御プレーンを通じてデータ層転送やその他の操作を...

Huice: 大手 e コマース企業が使用しているスマート小売管理ソフトウェアの優れた点は何でしょうか?

6月30日、北京地下鉄の改札口でデジタル人民元が支払いに使えるようになる。「孔坊兄弟」は再び変身し...

せっかちなGoogleのハードウェアから、中国と米国がAI商業化の問題をそれぞれどのように解決できるかまで

建国記念日の休日中は家にいて、Google カンファレンスを視聴しました。これらの製品のいくつかを見...

マイクロソフトが新しいハイブリッド会議機能をリリース: Teams Rooms、リモート プレゼンテーション カメオ、Viva Connections モバイル アプリ

IT Homeは9月10日、マイクロソフトが、オフラインの会議室に中央制御のオーディオデバイスを設置...

...

AIは「噂を払拭する剣」となり、今後の応用に無限の可能性を秘めている

インターネットの普及は人々に多くの利便性をもたらしましたが、噂が広がる温床にもなっています。ネット上...

マイクロソフトリサーチアジア、ウェイ・フル氏:人工知能における基礎イノベーションの第2次成長曲線

人工知能の発展の観点から見ると、GPT シリーズのモデル (ChatGPT や GPT-4 など) ...

...

...

米国NHTSAの新規制:レベル2以上の自動運転に関わる事故は報告が必要

米国道路交通安全局(NHTSA)は、SAEレベル2の先進運転支援システム(ADAS)またはSAEレベ...

人工知能はサーバーを冷却するために大量の水を必要とする

あらゆる計算集約型のアクティビティと同様に、ChatGPT のような AI システムでは大量の処理と...

実際のシナリオにおける知識グラフに基づく大規模モデル幻覚の原因、評価、緩和戦略の探究

大規模モデルの実用化の問題に関しては、現在業界では大規模モデルを使用して質疑応答を行うのが一般的です...

リアルタイムの犯罪警報: ディープラーニングで安全を守る方法

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

AIはソフトウェアテスターの仕事を「奪う」のでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...