Googleなどが「AIタスクの難しさ」を明らかに：ImageNetなどの限界のあるベンチマークは「世界全体」を表現できない博物館のようなもの

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

日常生活では、個人の行動を測定するための何らかの「基準」が必要です。

科学研究においては、研究者はモデルのパフォーマンスを評価するためにいくつかの「ベンチマーク」も必要とします。

したがって、一般的な「標準」であろうと、特定の「ベンチマーク」であろうと、それらはすべて一定の参照意義を持っています。

しかし、ある日、これらの「参照オブジェクト」が現実の生活から離れつつあることに気づいたら、それらはどこに行くべきでしょうか?

最近、カリフォルニア大学バークレー校、ワシントン大学、Google Researchが共同執筆した論文「AIと全世界のあらゆるものベンチマーク」では、 ImageNetなどのベンチマークで定義されたあいまいなタスクが、限られた博物館を使って世界全体を表現するのと同じように、知的な理解を促進する上で限界があることが指摘されました。

論文アドレス: https://openreview.net/pdf?id=j6NxpQbREA1

この論文では、研究者らが、機械学習 (ML) が Common Task Framework (CTF) に過度に依存し、今日私たちが理解している「一般的な能力」を評価するベンチマークへと不適切に進化したことについて説明しています。研究チームはこれらのベンチマークの有用性を否定しているのではなく、むしろそれらをフレームワークとして使用することの本質的な欠陥を指摘したいと考えていることは注目に値する。

1. 「全世界」を展示する博物館 vs ImageNet

この論文の最も印象的な点は、導入としてストーリーブックを使用し、その筋書きを本文全体で展開することで、論文の研究内容をよりわかりやすくしている点です。

この本は、1974年に出版された「グローバーと全世界の博物館」です。この本の主人公グローバーは、「全世界」を展示していると主張する博物館を訪れました。

美術館の各ギャラリーには、さまざまなカテゴリーのものが展示されています。カテゴリーの中には、「壁に貼ってあるもの」や「部屋をくすぐる物」のように、恣意的で主観的なものもあります。また、「にんじんの部屋」のように非常に具体的なものもあれば、「背の高いホール」のように漠然としたものもあります。

グローバーが博物館のすべてを見たと思ったちょうどその時、彼は「その他すべて」と書かれたドアにたどり着きました。ドアを開けると、外の世界にいました。

子供向けの物語としては、グローバーの体験は不条理だ。しかし、AI、特に ML の分野など、現実世界の研究にも同様の本質的に誤ったロジックが存在し、多くの一般的なベンチマークは本質的に誤った仮定に依存しています。

この論文の研究者らは、「視覚的理解」や「言語理解」などのあいまいなタスクは、限られた博物館が「世界のあらゆるもの」を表現するのに役立たないのと同じように、一般的な能力の進歩を測るベンチマークとしては効果がなく、これら 2 つの誤謬の原因は類似しており、つまり、本質的には特定の、限られた、文脈が限られた環境に基づいていると主張しています。

GLUE や ImageNet などのベンチマークは、特定のモデルのパフォーマンスを検証するための基本的な一般的なタスクの定義として提案されることがよくあります。その結果、これらのベンチマークデータセットによって正当化される結論は、本来設計されたタスクをはるかに超えたり、元の開発目標を超えたりすることがよくあります。

これらのベンチマークは「普遍的な目的」に向けた進歩の兆候ではあるものの、明らかな限界があります。実際、これらのベンチマークの開発、使用、採用は、構成妥当性の問題を示しています。つまり、関連するベンチマークは、特定のデータ、測定、実践にインスタンス化されているため、一般的な適用性に関する代表的な結論を導き出すことは不可能なのです。

論文の著者らは、一般的な能力を測定する目的（つまり、一般的な物体認識、一般的な言語理解、ドメインに依存しない推論などの目的）は、データ定義のベンチマークでは適切に表現されていないと主張しています。研究者らは、現在の傾向はCTFパラダイムを不適切に拡張し、現実世界のターゲットやコンテキストとは異なる抽象的な表現タスクに適用していると指摘している。

歴史的に、CTF は、自動音声認識 (ASR) や機械翻訳 (MT) など、実用志向で厳密に範囲が定められた AI タスクを導入するために開発されました。ここでの望ましい検証は、ベンチマークが現実世界の設定でコンピューターに求められる実際のタスクを正確に反映しているかどうかです。定義が不十分な「一般的な」目標の波は、それらが導入された目的を完全に覆します。

グローバーの体験は、子供向けの物語としてではなく、むしろ深遠な寓話のようなものです。グローバーが「他のもの」への扉を開けたとき、彼は自分が博物館の外の世界にいることに気づいた。物語の結末は、この研究の結論を暗示していたかもしれない。ImageNet などのベンチマーク定義は、現実世界のすべてのぼかしタスクに適応できる「一般的な目標」を表すことはできない。

したがって、この論文には議論と考察に値する点が数多くあります。 ImageNet に欠点がある場合、他のベンチマーク定義は完璧でしょうか? ImageNet 以外に、一般的な物体認識のためのより優れたベンチマークはありますか?ベンチマークの定義がどんどん「ベンチマークらしくない」ものになってきているという問題をどう捉え、解決すべきでしょうか。

素人は興奮を観察するが、専門家は細部を見る。このような厄介な問題は専門家に任せるべきだ。

2. OpenReview は公式バージョンをどのようにレビューしますか?

最初の審査員が私たちのところに来て、この論文を「視覚と NLP における『一般的な』モノリシックなベンチマークに対する説得力のある議論だ！ 」と賞賛しました。彼は、この論文には詳細な歴史的資料、明確な視点、徹底した分析があり、本当に説得力があると感じました。

論文の研究者たちは、まず記事の中で多くの背景知識を提示し、一般的な人工知能とベンチマークに関する関連研究を読者に示し、MLベンチマークが狭い範囲のタスクのパフォーマンスを評価するための標準化された方法としていつから機能し始めたかを分析しました。結局のところ、結論は明らかです。一般的な言語理解と一般的な物体認識のベンチマークは、狭い範囲に適用されるため、本質的に欠陥があります。

最後に、この審査員は、この論文が最先端の追求にとどまらず、これら 2 つの分野でより有意義な進歩を達成することに貴重な貢献をすると信じており、コンピュータービジョンと NLP のコミュニティがこの論文を真剣に受け止めることを心から願っています。

しかし、ImageNet ベンチマークの限界が明らかになった今、これらの共通標準への過度の依存を減らす方法はあるのだろうか、というのが残念な点です。この論文の研究者たちはまだこの疑問に対する答えを見つけていないようだ。

この論文に対する2番目の審査員の評価は、 「汎用人工知能のベンチマークの誤謬」でした。この論文の読者は主に AI 分野の研究者であるため、著者は前回の記事で汎用 AI の関連ベンチマークをレビューし、読者に近づきました。さらに、グローバーの物語への言及により、この論文は興味深く、理解しやすいものになっています。

この論文は冒頭のプレゼンテーションに問題があり、主題とシームレスに繋がっていないものの、長所が欠点を上回っています。審査員2は、この論文がML分野の研究の方向性を示していると高く評価しました。

すると、3 番目の審査員が意見を述べに来ました。 「良い論文だ!」しかし、構造が変更された方が良いでしょう(よく議論された論文ですが、いくつかの再編成が提案されています)。審査員は、この論文の最大の特徴は、その独自の視点と十分な議論にあると指摘した。しかし、彼らも最初の裁判官と同じ疑問を提起した。それでは、普遍的な基準への過度の依存を減らすにはどのような解決策があるのだろうか？

最初の 3 人の審査員の「寛大さ」とは異なり、4 人目の審査員は、この論文が単に「今日使用しているベンチマークの簡単な歴史」に過ぎないと考え、5 点しか与えませんでした。このコメントから、査読者は論文に多くのベンチマークが列挙され、その限界が強調されていると感じていたが、著者チームはいかなる立場も取らなかったことが容易に分かります。

最後に、5 番目の裁判官の声が聞こえ、彼は姿を現しました。 「素晴らしい!」しかし、まだ改善の余地があります(素晴らしいですが、改善が必要です)。 5番目の審査員は、この論文は関連研究を整理して要約する上で非常に優れた仕事をしており、論文の議論を裏付ける研究がたくさんあると考えました。彼は、この論文が関連分野の研究者の注目を集めることを期待しました。

この論文に寄せられた期待が高かったため、審査員は論文に 6 点しか与えず、論文の著者が論文を改善できることを期待して、非常に詳細な改訂提案を挙げました。

3. Redditユーザーの意見

5 人の査読者からの公式コメントを読んだ後、基本的な要約は次のようになります。論文は優れており、アイデアは斬新で、議論は十分であり、解決策が提案されればさらに良いでしょう。さらに、審査員3名全員が、この論文が関連分野で注目を集めることを期待すると述べました。

この記事については Reddit でもかなり多くの議論が交わされています。情報通のネットユーザーが何と言っているか見てみましょう。

あるネットユーザーは、ImageNet などのベンチマークには「限られた博物館」のような欠点があるものの、現在、モデルをトレーニングするための最も強力なツールであると指摘しました。

確かに、上記の審査員が述べたように、ImageNet には限界がありますが、より良い解決策はあるのでしょうか?そのため、熱心なネットユーザーが論文の著者向けに要約を修正しました。「世界中のあらゆるものを収蔵できる博物館がないのと同じように、データセットですべての詳細の複雑さを完全に捉えることはできません。」

一部のネットユーザーは、この新聞は良かった、特に「セサミストリート」のストーリーラインが挿入されていて、新聞への理解が深まったと感じた。

これらのネットユーザーは、「すべてのものを展示することができない博物館」の例えを使って「いくつかのあいまいなタスクにおける ImageNet の限界」を説明するのは非常に適切だと感じています。

おそらく、論文の著者は、論文を書くことが本にもなるとは予想していなかったのだろう。ネットユーザーの中には、「この『セサミストリート』の絵本には、宇宙のあらゆることに対する答えが隠されている」とジョークを飛ばす者もいる。

より多くのネットユーザーが著者の見解に同意を表明した。結局のところ、問題を解決することに比べれば、問題を見つけることは簡単すぎるのだ。（犬の頭）

それで、解決策はどこにあるのでしょうか?

たとえ博物館が「すべてを展示することはできない」としても、その価値を否定する人はいない。同様に、ImageNet などのベンチマーク定義の重要性も疑問視することはできません。常に問題を発見し解決することによってのみ、歴史の車輪は前進することができる（犬の頭）。

<<: 今後 10 年間で最も「収益性の高い」 5 つの業界。誰がやっても儲かるでしょう。

>>: 心を込めてツイートしましょう！ Synchron 脳コンピューターインターフェースは ALS 患者が自分の考えで携帯電話を閲覧するのを助けます