2010 年に ImageNet ベースのコンピューター ビジョン コンペティションが開始され、ディープラーニングのアルゴリズムとデータに革命が起こりました。それ以来、ベンチマークは AI モデルのパフォーマンスを測定する重要な手段となっています。 NLP の分野には、GLUE (一般言語理解評価) ベンチマークもあります。このベンチマークでは、AI モデルを何千もの文章を含むデータセットでトレーニングし、文章が文法的であるかどうかの判断、感情の分析、2 つの文章の間に論理的含意があるかどうかなど、9 つのタスクでテストする必要があります。 GLUE が初めてリリースされたとき、最もパフォーマンスの良かったモデルのスコアは 70 点未満でした。ベンチマークの作成者であるニューヨーク大学のコンピューター科学者サム・ボーンマン氏は、少なくとも AI モデルを困惑させたという点では、このデータセットは成功だと考えていました。 わずか1年の開発期間を経て、AIモデルのパフォーマンスは90点に楽々と到達し、人間のスコア87.1点を上回りました。 2019年、研究者らはベンチマークの難易度を再び引き上げ、SuperGLUEをリリースした。一部のタスクでは、AIモデルが文章だけでなくWikipediaやニュースサイトの段落も処理し、読解力の質問に答えることが求められる。 このベンチマークが初めて発表されたときも、人間は20ポイントリードしていたが、2021年初頭にはコンピューターが89.8というスコアで再び人間を上回った。 AIモデルの知能レベルは人間のそれを上回ったのでしょうか? 「ランキング操作」では、膨大な書籍、ニュース記事、Wikipedia からの数十億語でトレーニングされた AI 言語モデルが、何度も専門家を興奮させてきました。これらのモデルは、驚くべき人間的なエッセイ、ツイート、要約メールを生成し、数十の言語間で翻訳することさえできます。 しかし、実際のアプリケーションへの導入や特定の例のテストとなると、少し混乱することがあります。AI はなぜこのような愚かな間違いを犯すのでしょうか? AI にそれを修正する方法を教えることができるのでしょうか? 2020年、マイクロソフトのコンピューター科学者マルコ・トゥリオ・リベイロ氏は、マイクロソフト、グーグル、アマゾンを含むさまざまなSOTAモデルに多くの隠れたエラーがあることを指摘するレポートを発表しました。たとえば、文中の「what's」を「what is」に変更すると、モデルの出力はまったく異なります。それまでは、これらのビジネスモデルがこれほどひどいとは誰も気づいていませんでした。 このように訓練されたAIモデルは、試験の受け方だけを知っていて成績優秀な学生のようなものです。科学者が設定したさまざまなベンチマークテストに無事合格できますが、科学者にはその理由がわかりません。これは一般に「高得点だが能力が低い」と言われています。 しかし、ほとんどの研究者は、解決策はベンチマークを放棄することではなく、それを改善することであることに同意しています。しかし、それをどのように改善するかについては意見の相違があります。 ベンチマークはより厳密であるべきだと考える人もいれば、ベンチマークはモデルの偏りを明らかにするべきだと考える人もいます。また、単一の標準的な答えがない問題 (テキスト要約など) に対処するため、または複数の評価指標を使用してモデルのパフォーマンスを測定するために、ベンチマーク データセットをより大きくしたいと考える人もいます。 ベンチマークを難しくするベンチマークを向上させる最も明白な方法の 1 つは、ベンチマークを難しくすることです。 AIスタートアップ企業Hugging Faceの研究リーダーであるDouwe Kiela氏は、既存のベンチマークの最もとんでもない点は、AIモデルが人間を上回ったように見えることだと考えているが、NLP実践者なら誰でも、人間レベルの言語知能に到達するにはまだ長い道のりがあることを知っている。 そこで Kiela は、GLUE などの静的ベンチマークの問題 (パフォーマンスが人間をすぐに上回ってしまう、過剰適合しやすい、評価指標が不確実または不完全であるなど) に焦点を当てた動的データ収集およびベンチマーク プラットフォーム Dynabench の作成に着手しました。 Dynabench はクラウドソーシング プラットフォームに依存しています。感情分類などのタスクごとに、クラウドソーシング ワーカーは人工知能モデルが誤分類すると思われるフレーズや文を提出する必要があります。モデルをうまく欺く例はベンチマーク テストに追加されます。モデルはこのデータに基づいてトレーニングされ、プロセスが繰り返され、リーダーボードが古くなることなくベンチマークが継続的に進化します。 Dynabench プラットフォームは本質的には科学的な実験です。従来の静的な方法ではなく、データを動的に収集し、人々とモデルを常に最新の状態に保つことができれば、AI モデルの研究をより速く進めることができるでしょうか? ベンチマークを改善するもう 1 つの方法は、ラボ データと実際のシナリオ間のギャップを埋めることです。既存の機械学習モデルは通常、同じデータセットからランダムに選択された例でトレーニングおよびテストされますが、実際にはデータの分布がシフトしている可能性があります。 WILDS は、スタンフォード大学のコンピューター科学者 Percy Liang 氏が開発したベンチマークです。腫瘍の特定、動物種の分類、コンピューター コードの完成などのタスクのモデルをテストするために使用できる、厳選された 10 個のデータ セットで構成されています。 WILDS の最も重要なステップは、各データセットが複数のソースから取得されることです。たとえば、腫瘍画像は 5 つの異なる病院から取得されます。目的は、異なるデータセット間でのモデルの一般化能力を調べることです。 WILDS は、社会的な偏見のモデルをテストすることもできます。1 つのデータセットは、ニュース サイトのコメント プラットフォームから収集された数十万件の有害なコメントのコレクションであり、悪用される人口統計 (黒人、白人、キリスト教徒、イスラム教徒、LGBTQ など) に基づいて 8 つのドメインに分割されています。研究者は、データセット全体に対してモデルをトレーニングし、その後、データのサブセットに対してモデルをテストすることで、盲点を探すことができます。たとえば、イスラム教徒に向けられた有害なコメントを識別できるかどうかをテストします。 「スコアのみの理論」を打ち破るより優れたベンチマークはより優れたモデルを開発するための 1 つの方法に過ぎず、開発者はリーダーボードのランキングやスコアに執着しないようにする必要があります。 アイントホーフェン工科大学のコンピューター科学者、ジョアキン・ヴァンショーレン氏は、論文におけるいわゆるSOTA(最先端技術)はイノベーションを阻害するものだと非難し、AIカンファレンスの査読者に対し、リーダーボードのスコアを重視するのをやめてイノベーションに主眼を置くよう求めた。 ほとんどのベンチマーク テストには 1 つのスコアしかないため、モデルの長所と短所を完全に反映することはできません。 Dynabench では、Dynascore を使用して、精度、速度、メモリ使用量、公平性、入力変更に対する堅牢性など、さまざまな要素を網羅したベンチマークでモデルのパフォーマンスを評価します。ユーザーは、自分にとって最も重要なことに基づいてモデルをランク付けできます。たとえば、Facebook のエンジニアは、エネルギー効率を重視するスマートウォッチの設計者よりも精度を重視するかもしれません。 一方、ベンチマーク データセット内の質問には通常、絶対的な「真実」が存在しないため、スコアの精度は信頼できない可能性があります。ベンチマーク設計者の中には、データセット内のノイズとも呼ばれる、テスト データから曖昧な例や議論の余地のある例を単純に削除する人もいます。 昨年、ロンドン大学クイーン・メアリー校の計算言語学者マッシモ・ポエジオ氏とその同僚は、人間のデータ注釈者間の意見の相違から学習するモデルの能力を評価するためのベンチマークを作成した。 彼らは、人間が「面白い」と感じる程度に応じて複数のテキスト スニペットをランク付けし、これを使用してモデルをトレーニングし、単に「はい」または「いいえ」の回答を提供するのではなく、2 つのテキストのうちどちらがより面白いかの確率を判断するように求めました。各モデルは、その推定が人間が注釈を付けた分布とどの程度一致するかに基づいて採点されます。 ベンチマーク調査はまだニッチな分野現在のベンチマーク関連の研究が直面している主な問題は、インセンティブの欠如です。 昨年発表された論文の中で、Google の研究者は産業界と学界の AI 実践者 53 人にインタビューを行った。データセットを改善することはモデルを設計することほどやりがいがないと指摘する人は多くいます。論文の著者の一人であるローラ・アロヨ氏は、機械学習コミュニティはベンチマークに対する姿勢を変えつつあるが、まだニッチな研究であると考えている。 昨年の NeurIPS カンファレンスでは、データセットとベンチマークに関する論文のレビューと公開のための新しいトラックが立ち上げられ、これらのトピックの研究に新たな刺激がすぐに生まれました。何と言っても、これはトップ カンファレンスです。 共同議長のヴァンショーレン氏は、主催者は数十件の応募を予想していたが、500件を超える論文が寄せられ、これが人気のある選択であることを示していると述べた。 いくつかの論文では新しいデータセットやベンチマークが提供されていますが、他の論文では既存のデータセットやベンチマークの問題が明らかにされています。研究者らは、10 の一般的な視覚、言語、音声のベンチマークで、テスト データ内のラベルの少なくとも 3% が誤っており、これらのエラーがモデルのランキングに影響することを発見しました。 多くの研究者は、より良いベンチマークを作成するためのインセンティブを望んでいますが、その一方で、その分野が自分たちにあまり焦点を当てられることを望まない研究者もいます。 グッドハートの法則は、指標が一度目標になると、もはや良い指標ではなくなるというものです。 つまり、さまざまな方法でモデルに試験の受け方を教えようとすると、試験自体の意味が失われてしまいます。 最後に、リベイロ氏は、ベンチマークは実践者のツールボックス内のツールであるべきであり、人々はベンチマークを使用してモデルの理解に代わるものとし、ベンチマーク データセットを通じて「モデルの動作」をテストすると述べました。 参考文献: https://www.science.org/content/article/computers-ace-iq-tests-still-make-dumb-mistakes-can-different-tests-help |
<<: 今年のGoogle I/Oカンファレンスは超「ハード」で、次世代のAIモデルも披露された
>>: 市場情報調査 | モノのインターネット市場における人工知能
大規模言語モデルの幻覚問題が解決されました!最近、スタンフォード大学の研究者が、幻覚をほとんど起こさ...
前回の記事「エントリーレベルのデータベースのアルゴリズム [I]」では、いくつかのデータ アルゴリズ...
1956年に人工知能の概念が提案されて以来、人工知能と労働市場の関係については議論されてきました。...
[[342088]]基本的なデータ構造の統合は、大規模システムの基礎となります。たとえば、Redis...
こんにちは世界!プログラマーが初めて新しいプログラミング言語に触れるとき、その言語が世に登場したこと...
英国放送協会が10月25日に報じたところによると、人工知能によって制作された芸術作品がオークションで...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
みなさんこんにちは、カソンです。過去 2 年間、フロントエンド コミュニティ全体が主に 2 つの理由...
スマートロボットは、タスクをより効率的かつ正確に実行し、生産性を向上させ、人的エラーを削減するように...