マイルストーンではありません! Facebookの100言語翻訳モデルは過大評価され、疑問視されている

マイルストーンではありません! Facebookの100言語翻訳モデルは過大評価され、疑問視されている

[[347640]]

Facebookはまた失敗したのか?

フェイスブックは昨日、自社の機械翻訳が画期的な進歩を遂げ、英語を「仲介者」として頼ることなく100言語間の相互翻訳を実現できると発表したばかりだが、今日、Redditのネットユーザーが騒ぎ始めた。

ネットユーザーは、Facebook はこれまでも宣伝を誇張していたが、今回はちょっとやりすぎだったと述べた。

Facebook の 100 言語への翻訳は画期的なことではないでしょうか?

Facebookは、最新モデルはトレーニング中に英語を仲介する必要なく、中国語からフランス語など最大100言語で直接機械翻訳を実行できると主張している。機械翻訳を評価するために広く使用されている BLEU メトリックでは、英語中心の翻訳システムよりも 10 パーセントポイント優れています。

Facebook AI Labのブログでは、Googleが4年前にこれを行っていたことには触れられていなかった。

Googleが2016年に発表したこの研究成果も、何百万もの例文から学習し、翻訳の品質を大幅に向上させるエンドツーエンドの学習フレームワークです。

この翻訳システムは、テストデータ上で翻訳品質を向上させるだけでなく、103 の言語間の翻訳をサポートし、毎日 1,400 億語以上を翻訳します。まだいくつか問題はあるものの、Google は確かに 100 言語を達成しました。

Google のシステムがどのように機能するかを見てみましょう。

Google のアルゴリズムはゼロショット学習です。日本語、英語、韓国語の例を使用して、パラメータを共有することでこれらの異なる言語ペア間で翻訳する単一の GNMT システムと同じサイズの多言語翻訳システムを実装するとします。この共有により、システムは「翻訳エクスペリエンス」をある言語ペアから別の言語ペアに転送できるようになります。

「フェイスブックが英語のデータに依存していないという主張も不正確だ」

Facebook の論文のグラフは、使用されたデータセットの一部に英語が含まれていることを示しています。英語にまったく依存していないと言うことは、英語の役割をある程度否定することになります。

これまでのところ、Google は 103 の言語でのトレーニングについて議論した論文と、「英語のデータに依存しない」別の論文を発表している。

Googleが2019年にリリースした大規模多言語機械翻訳は103の言語に対応していますが、ソース言語またはターゲット言語は英語です。

技術的な正確さの観点から見ると、英語のデータに依存せず、100 を超える言語をカバーしているという両方の要件を満たす論文を見つけるのは確かに困難です。

ネットユーザーは、「Facebook は巨大な NMT データセットを作成し、それに基づいて Transformer をトレーニングした」という表現が誤解を招かないはずだと考えています。

Facebook の声明が正確かどうかは別として、同社のモデルのパフォーマンスは確かに以前よりも向上している。同社は関連するデータセットとコードもオープンソース化しており、コンピューティング リソースを持つ学生がそれを検証できる。

では、人間による翻訳は機械翻訳に置き換えられるのでしょうか?

機械翻訳は人間の翻訳に完全に取って代わるでしょうか?熟考の上!

機械翻訳技術の継続的な進歩により、これはますます多くの人々、特に翻訳業界の人々にとって大きな懸念事項となっています。

これは根拠のない心配ではありません。

Facebook が最近オープンソース化した M2M-100 モデルであれ、Google が以前にリリースした 103 言語をサポートする AI 翻訳であれ、いずれも機械翻訳が人間の翻訳に取って代わる大きな可能性を秘めていることを示しています。

しかし、現在の機械翻訳の発展状況から判断すると、人間の翻訳を完全に置き換えることはまだ非現実的です。

技術的な観点から見ると、機械翻訳には、混乱した語順、不正確な語の意味、孤立した構文分析など、克服すべき技術的な困難がまだ多く残っています。

実用化の観点から見ると、機械翻訳は、より口語的な翻訳シナリオ、高度な専門知識の背景を必要とするシナリオ、および長い会話のシナリオでは、正確で高速な翻訳を実現できません。

これまでメディアは、大規模な会議で機械同時翻訳が支離滅裂な内容が多かったり、名前が認識されなかったり、日常会話がとんでもない形で翻訳されたりするなど、機械翻訳の「クラッシュ」を数多く報じてきました...

性能はそれほど満足できるものではないが、機械翻訳の急速な発展により、低レベルの人間の翻訳者グループが排除されることは間違いないだろう。「低レベル」の翻訳しかできない人間の翻訳者は、間違いなく機械翻訳に置き換えられるだろう。

本当に高度な翻訳者であれば、この問題をまったく心配する必要はありません。現在利用可能な最も高度な機械翻訳でさえ、「忠実性、表現力、優雅さ」という翻訳の要件を満たすには程遠い状態です。

それどころか、機械翻訳は、高度な翻訳者を機械的で退屈で単純な翻訳作業から解放し、より創造的な作業にエネルギーを割けるツールにすることができます。

実際、将来の翻訳者は編集者や品質管理の専門家とより近い立場になり、機械翻訳の初稿を修正して磨き上げ、文学作品を創作する可能性が高くなるでしょう。

つまり、現時点では機械翻訳が人間による翻訳に完全に取って代わることはなさそうです。

AI 企業は宣伝を誇張するのが好きです。人工知能は「ifelse」に基づいていますか?

人間による翻訳に代わることを目的としていると思われるFacebookのモデルは、多くの議論を巻き起こした。

ネットユーザーの中には、機械学習の分野は常に世論によって誤解されていると信じている人さえいます。

一部の大企業の研究や意見は、より容易に聞かれ、論文の受理においても一定の利点があります。

トップカンファレンスの論文レビューはダブルブラインド方式が主流ですが、査読者が著者のバックグラウンドを判断するのは簡単です。例えば、論文のモデルが数千個のTPUを使用している場合、それは間違いなく大企業の論文です。

GoogleやFacebookのような大手テクノロジー企業には、確かに多くの有利な立場があります。

一部の AI 企業は、これらの論文を利用して AI の実際的な役割を誇張することを好みます。

さらに、プレスリリースは研究者以外の人によって、限られた説明や論文の要約に基づいて書かれることがあり、事実確認が行われていない可能性があり、特定の偏見につながる可能性があります。

以前、Uberに関するツイートが大きな注目を集めた。そのツイートはプレスリリースを引用したもので、「Uberは酔った乗客を識別するために人工知能を使用する。AIシステムは、現在時刻、車の位置、ユーザーの躊躇時間などのパラメータを使用して判断を下す」と述べていた。

その下には、「それは AI ではありません。単なる if ステートメントです。」という文があります。また、このインテリジェント認識システムを実装するためのコードも示されており、これには合計 2 行が必要です。

実際のところ、それはそれほど単純ではないかもしれません。

Uber は機械学習を使用して過去のデータに基づいてモデルの重みを微調整し、誤った判断を使用して予測モデルを更新する可能性もありますが、一部の AI アプリケーションは実際には論文ほど優れていません。

では、ifelse ベースの AI アプリケーションを作成したことがありますか?

<<:  AI倫理: CIOが問うべき5つの質問

>>:  データ構造とアルゴリズム: グラフ構造

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Hehe情報:AI + ビッグデータ、デジタル金融をさらに進化させる

[51CTO.comからのオリジナル記事] 2020年、COVID-19パンデミックは世界経済に深刻...

AIが顧客体験を変革する10の方法

今日、消費者はオンライン小売業者に対して非常に高い期待を抱いています。多くの場合、顧客のショッピング...

...

マスク氏「高度なAIの開発は非常にリスクが高い。OpenAIはアルトマン氏を解雇した理由を明らかにすべき」

11月20日、テスラのCEOイーロン・マスク氏は、高度な人工知能(AI)技術の開発には大きな潜在的...

Google、異常ケース検出のターンアラウンド時間を28%短縮できるAIシステムを開発

最近、Google チームのもう一つの主要な研究成果が Nature 誌に掲載されました。研究成果は...

社会的関心の強化に基づくビデオ推奨アルゴリズム

1. 推奨ステータスまず、レコメンデーションシステムの現状について簡単に紹介します。推薦システムは、...

AIとIoTの統合が加速

近年、モノのインターネットは大きな注目を集めていますが、ほとんどのアプリケーションには 2 つの重要...

2019年、AIバブルは崩壊寸前

[[256693]]中国工業情報化部傘下の中国情報通信研究院によると、2018年上半期の世界の人工知...

...

2020 年の DevOps の 7 つのトレンド

[51CTO.com クイック翻訳] 権威ある調査によると、2017 年に DevOps は市場で ...

...

7つの主要カテゴリ、40を超える主要概念、機械学習を始める際に習得する必要があるすべての概念がここにあります

勉強すると、学んだことを忘れてしまい、忘れた後にまた学ぶという悪循環に陥ってしまう、そんな気持ちにな...

2022年、PyTorchはトップAIカンファレンスの80%を占める

2012 年にディープラーニングが再び注目されて以来、初期の学術フレームワークである Caffe ...

顔認識技術が「無人小売」時代の到来を牽引

序文:顔認識は現在最も人気のある人工知能技術として、生産と生活のあらゆる側面で広く使用されています。...

人工知能の出現は教育にどのような影響を与えるのでしょうか?

近年、科学技術における人工知能の急速な発展により、人工知能は私たちの日常生活にいくつかの新たなハイラ...