AI科挙制度がイノベーションを阻害する！あなたの目に映る良いモデルは単なる「ランキングマシン」です

2010 年に ImageNet ベースのコンピュータービジョンコンペティションが開始され、ディープラーニングのアルゴリズムとデータに革命が起こりました。それ以来、ベンチマークは AI モデルのパフォーマンスを測定する重要な手段となっています。

NLP の分野には、GLUE (一般言語理解評価) ベンチマークもあります。このベンチマークでは、AI モデルを何千もの文章を含むデータセットでトレーニングし、文章が文法的であるかどうかの判断、感情の分析、2 つの文章の間に論理的含意があるかどうかなど、9 つのタスクでテストする必要があります。

GLUE が初めてリリースされたとき、最もパフォーマンスの良かったモデルのスコアは 70 点未満でした。ベンチマークの作成者であるニューヨーク大学のコンピューター科学者サム・ボーンマン氏は、少なくとも AI モデルを困惑させたという点では、このデータセットは成功だと考えていました。

わずか1年の開発期間を経て、AIモデルのパフォーマンスは90点に楽々と到達し、人間のスコア87.1点を上回りました。

2019年、研究者らはベンチマークの難易度を再び引き上げ、SuperGLUEをリリースした。一部のタスクでは、AIモデルが文章だけでなくWikipediaやニュースサイトの段落も処理し、読解力の質問に答えることが求められる。

このベンチマークが初めて発表されたときも、人間は20ポイントリードしていたが、2021年初頭にはコンピューターが89.8というスコアで再び人間を上回った。

AIモデルの知能レベルは人間のそれを上回ったのでしょうか?

「ランキング操作」では、膨大な書籍、ニュース記事、Wikipedia からの数十億語でトレーニングされた AI 言語モデルが、何度も専門家を興奮させてきました。これらのモデルは、驚くべき人間的なエッセイ、ツイート、要約メールを生成し、数十の言語間で翻訳することさえできます。

しかし、実際のアプリケーションへの導入や特定の例のテストとなると、少し混乱することがあります。AI はなぜこのような愚かな間違いを犯すのでしょうか? AI にそれを修正する方法を教えることができるのでしょうか?

2020年、マイクロソフトのコンピューター科学者マルコ・トゥリオ・リベイロ氏は、マイクロソフト、グーグル、アマゾンを含むさまざまなSOTAモデルに多くの隠れたエラーがあることを指摘するレポートを発表しました。たとえば、文中の「what's」を「what is」に変更すると、モデルの出力はまったく異なります。それまでは、これらのビジネスモデルがこれほどひどいとは誰も気づいていませんでした。

このように訓練されたAIモデルは、試験の受け方だけを知っていて成績優秀な学生のようなものです。科学者が設定したさまざまなベンチマークテストに無事合格できますが、科学者にはその理由がわかりません。これは一般に「高得点だが能力が低い」と言われています。

しかし、ほとんどの研究者は、解決策はベンチマークを放棄することではなく、それを改善することであることに同意しています。しかし、それをどのように改善するかについては意見の相違があります。

ベンチマークはより厳密であるべきだと考える人もいれば、ベンチマークはモデルの偏りを明らかにするべきだと考える人もいます。また、単一の標準的な答えがない問題 (テキスト要約など) に対処するため、または複数の評価指標を使用してモデルのパフォーマンスを測定するために、ベンチマークデータセットをより大きくしたいと考える人もいます。

ベンチマークを難しくする

ベンチマークを向上させる最も明白な方法の 1 つは、ベンチマークを難しくすることです。

AIスタートアップ企業Hugging Faceの研究リーダーであるDouwe Kiela氏は、既存のベンチマークの最もとんでもない点は、AIモデルが人間を上回ったように見えることだと考えているが、NLP実践者なら誰でも、人間レベルの言語知能に到達するにはまだ長い道のりがあることを知っている。

そこで Kiela は、GLUE などの静的ベンチマークの問題 (パフォーマンスが人間をすぐに上回ってしまう、過剰適合しやすい、評価指標が不確実または不完全であるなど) に焦点を当てた動的データ収集およびベンチマークプラットフォーム Dynabench の作成に着手しました。

Dynabench はクラウドソーシングプラットフォームに依存しています。感情分類などのタスクごとに、クラウドソーシングワーカーは人工知能モデルが誤分類すると思われるフレーズや文を提出する必要があります。モデルをうまく欺く例はベンチマークテストに追加されます。モデルはこのデータに基づいてトレーニングされ、プロセスが繰り返され、リーダーボードが古くなることなくベンチマークが継続的に進化します。

Dynabench プラットフォームは本質的には科学的な実験です。従来の静的な方法ではなく、データを動的に収集し、人々とモデルを常に最新の状態に保つことができれば、AI モデルの研究をより速く進めることができるでしょうか?

ベンチマークを改善するもう 1 つの方法は、ラボデータと実際のシナリオ間のギャップを埋めることです。既存の機械学習モデルは通常、同じデータセットからランダムに選択された例でトレーニングおよびテストされますが、実際にはデータの分布がシフトしている可能性があります。

WILDS は、スタンフォード大学のコンピューター科学者 Percy Liang 氏が開発したベンチマークです。腫瘍の特定、動物種の分類、コンピューターコードの完成などのタスクのモデルをテストするために使用できる、厳選された 10 個のデータセットで構成されています。

WILDS の最も重要なステップは、各データセットが複数のソースから取得されることです。たとえば、腫瘍画像は 5 つの異なる病院から取得されます。目的は、異なるデータセット間でのモデルの一般化能力を調べることです。

WILDS は、社会的な偏見のモデルをテストすることもできます。1 つのデータセットは、ニュースサイトのコメントプラットフォームから収集された数十万件の有害なコメントのコレクションであり、悪用される人口統計 (黒人、白人、キリスト教徒、イスラム教徒、LGBTQ など) に基づいて 8 つのドメインに分割されています。研究者は、データセット全体に対してモデルをトレーニングし、その後、データのサブセットに対してモデルをテストすることで、盲点を探すことができます。たとえば、イスラム教徒に向けられた有害なコメントを識別できるかどうかをテストします。

「スコアのみの理論」を打ち破る

より優れたベンチマークはより優れたモデルを開発するための 1 つの方法に過ぎず、開発者はリーダーボードのランキングやスコアに執着しないようにする必要があります。

アイントホーフェン工科大学のコンピューター科学者、ジョアキン・ヴァンショーレン氏は、論文におけるいわゆるSOTA（最先端技術）はイノベーションを阻害するものだと非難し、AIカンファレンスの査読者に対し、リーダーボードのスコアを重視するのをやめてイノベーションに主眼を置くよう求めた。

ほとんどのベンチマークテストには 1 つのスコアしかないため、モデルの長所と短所を完全に反映することはできません。

Dynabench では、Dynascore を使用して、精度、速度、メモリ使用量、公平性、入力変更に対する堅牢性など、さまざまな要素を網羅したベンチマークでモデルのパフォーマンスを評価します。ユーザーは、自分にとって最も重要なことに基づいてモデルをランク付けできます。たとえば、Facebook のエンジニアは、エネルギー効率を重視するスマートウォッチの設計者よりも精度を重視するかもしれません。

一方、ベンチマークデータセット内の質問には通常、絶対的な「真実」が存在しないため、スコアの精度は信頼できない可能性があります。ベンチマーク設計者の中には、データセット内のノイズとも呼ばれる、テストデータから曖昧な例や議論の余地のある例を単純に削除する人もいます。

昨年、ロンドン大学クイーン・メアリー校の計算言語学者マッシモ・ポエジオ氏とその同僚は、人間のデータ注釈者間の意見の相違から学習するモデルの能力を評価するためのベンチマークを作成した。

彼らは、人間が「面白い」と感じる程度に応じて複数のテキストスニペットをランク付けし、これを使用してモデルをトレーニングし、単に「はい」または「いいえ」の回答を提供するのではなく、2 つのテキストのうちどちらがより面白いかの確率を判断するように求めました。各モデルは、その推定が人間が注釈を付けた分布とどの程度一致するかに基づいて採点されます。

ベンチマーク調査はまだニッチな分野

現在のベンチマーク関連の研究が直面している主な問題は、インセンティブの欠如です。

昨年発表された論文の中で、Google の研究者は産業界と学界の AI 実践者 53 人にインタビューを行った。データセットを改善することはモデルを設計することほどやりがいがないと指摘する人は多くいます。論文の著者の一人であるローラ・アロヨ氏は、機械学習コミュニティはベンチマークに対する姿勢を変えつつあるが、まだニッチな研究であると考えている。

昨年の NeurIPS カンファレンスでは、データセットとベンチマークに関する論文のレビューと公開のための新しいトラックが立ち上げられ、これらのトピックの研究に新たな刺激がすぐに生まれました。何と言っても、これはトップカンファレンスです。

共同議長のヴァンショーレン氏は、主催者は数十件の応募を予想していたが、500件を超える論文が寄せられ、これが人気のある選択であることを示していると述べた。

いくつかの論文では新しいデータセットやベンチマークが提供されていますが、他の論文では既存のデータセットやベンチマークの問題が明らかにされています。研究者らは、10 の一般的な視覚、言語、音声のベンチマークで、テストデータ内のラベルの少なくとも 3% が誤っており、これらのエラーがモデルのランキングに影響することを発見しました。

多くの研究者は、より良いベンチマークを作成するためのインセンティブを望んでいますが、その一方で、その分野が自分たちにあまり焦点を当てられることを望まない研究者もいます。

グッドハートの法則は、指標が一度目標になると、もはや良い指標ではなくなるというものです。

つまり、さまざまな方法でモデルに試験の受け方を教えようとすると、試験自体の意味が失われてしまいます。

最後に、リベイロ氏は、ベンチマークは実践者のツールボックス内のツールであるべきであり、人々はベンチマークを使用してモデルの理解に代わるものとし、ベンチマークデータセットを通じて「モデルの動作」をテストすると述べました。

参考文献:

https://www.science.org/content/article/computers-ace-iq-tests-still-make-dumb-mistakes-can-different-tests-help

<<: 今年のGoogle I/Oカンファレンスは超「ハード」で、次世代のAIモデルも披露された

>>: 市場情報調査 | モノのインターネット市場における人工知能

ブログ

イェール大学教授を征服したアルゴリズムプログラマーを見て、「人間本位」を実践してスマートコミュニティの脳を開発するにはどうすればよいのでしょうか?

AI科挙制度がイノベーションを阻害する！あなたの目に映る良いモデルは単なる「ランキングマシン」です

ベンチマークを難しくする

「スコアのみの理論」を打ち破る

ベンチマーク調査はまだニッチな分野

人工知能業界では無視できない技術分野「ナレッジグラフ」

ロボットが家庭に入り込み、家事を引き受け始めています。あなたのお気に入りはどれですか?

毎秒240万ゲームフレームを処理し、AIトレーニングコストを80％削減、GoogleがRL並列コンピューティングフレームワークをオープンソース化

トマシュ・トゥングズ: AI 組織が直面する 4 つの戦略的課題

インテリジェント製造自動化、中国電子山地がインテリジェント製造の新しいモデルを実践

イェール大学教授を征服したアルゴリズムプログラマーを見て、「人間本位」を実践してスマートコミュニティの脳を開発するにはどうすればよいのでしょうか?

トランスフォーマー6周年：その年にNeurIPS Oralを受賞しなかった8人の著者が、いくつかのAIユニコーンを創設した

Xunlei 創設者 Cheng Hao: 人工知能起業における 6 つの核心課題

推薦する

マイクロソフトがAIコンテンツレビューツール「Azure AI Content Safety」を正式にリリース

LLaMa 3はGPT-4を目指し、ジェミニから教訓を得て7月に延期される可能性あり

新しい機械学習の考え方を使用して、自然な異常と人間の誤解を区別する

GitHub のネイティブ AI コード生成ツール Copilot が Visual Studio 2022 を正式にサポート

AIのマインドリーディングがサミットであなたを驚かせる！モデルが脳波を翻訳し、人間の思考がスクリーンに映し出される｜NeurIPS 2023

AirPodsは「あなたの脳を読む」ことができるのか？あるいは汗中の乳酸濃度も監視できるタイプ｜ネイチャー

ジェネレーティブAIはソフトウェア開発に3つの幻想をもたらす：高速、高品質、そしてより少ない人員

データセットには独自の世界観がありますか?いいえ、それは実際には人々の世界観です。

サイバーセキュリティの専門家は、悪意のあるAIが広がり始めると述べている

ソフトウェア開発における人工知能: 自動化と最適化

没入型環境向けロボットの開発における3つの課題