2月4日、アマゾンクラウドコンピューティング人工知能研究所の研究者らは、インターネット上の大量のコンテンツが機械翻訳(MT)によって生成されており、複数の言語にまたがるこれらの翻訳コンテンツの質は総じて低いことを発見した。研究チームは、これは大規模言語モデル(LLM)をトレーニングする際にデータの品質とソースを考慮することの重要性を浮き彫りにしていると強調した。 この調査では、機械生成コンテンツはリソースの少ない言語からの翻訳で普及しており、ウェブコンテンツの大部分を占めていることも判明した。 IT Home は、研究チームが機械翻訳コンテンツの特性をより深く理解するために、多次元 cc マトリックス (MWccMatrix) と呼ばれる巨大なリソースを開発したことに気づきました。このリソースには、90 の言語で 64 億の固有の文章が含まれており、相互に翻訳された文章のセットである翻訳タプルも含まれています。 調査では、大量のウェブコンテンツが主に機械翻訳を通じて複数の言語に翻訳されることが多いことが判明しました。このコンテンツは、リソースの少ない言語からの翻訳でよく見られるだけでなく、これらの言語のすべての Web コンテンツの大部分を占めています。 研究者らはまた、広告収入などの目的でコンテンツが複数の言語に翻訳される際に選択的な偏りがあることも指摘した。 この論文は次のように結論づけています。「機械翻訳技術は過去 10 年間で大幅に改善されましたが、依然として人間の品質には及びません。長年にわたり、当時利用可能な機械翻訳システムを使用して機械翻訳されたコンテンツが Web に追加されてきたため、Web 上の機械翻訳されたコンテンツの多くは、現代の基準からすると低品質である可能性があります。これにより、LLM モデルがより多くの「幻覚」を生成する可能性がありますが、選択バイアスにより、機械翻訳のエラーを考慮しなくてもデータ品質が低い可能性があることが示唆されています。データ品質は、書籍や Wikipedia の記事などの高品質のコーパスが複数回アップサンプリングされることが多い LLM トレーニングにとって非常に重要です。」 |
<<: グラフを考慮した対照学習により多変量時系列分類が改善
AIブロックチェーン企業の技術が中国の重要な国家夜会で正式に使用された。 2019年のオンライン春節...
最近、Magiという検索エンジンが注目を集めています。この検索エンジンは、私たちが持っている一般的な...
OpenAI はおそらく歴史上最も困難な AI 著作権訴訟に直面している。原告のニューヨーク・タイ...
Apple による最近の研究により、高解像度画像における拡散モデルのパフォーマンスが大幅に向上しま...
家庭の安全に対する国民の意識が高まり、社会環境の動向が変化する現状において、家庭の安全は人々の日常的...
翻訳者 |ブガッティレビュー | Chonglouここ数か月で、リリースされる AI ツールの数は増...
人工知能を正しく使用するために、いくつかの提案があります。人工知能を実際に使用する際にこれらの提案を...
[[261996]] 1. 炭素隔離地球規模で見れば、温室効果ガスの排出量を減らすだけでは気温の急...
最近、マサチューセッツ大学アマースト校のヤン・チョウ博士とそのチームは、「MakeItTalk」と呼...
少し前、ビリビリのトップUP司会者「こんにちは先生、私の名前は何童雪です」が「Airdesk」を開発...