オックスフォード大学の最新調査:AIはベンチマーク危機に直面し、NLPは推論テストの「取り組み」に注力

オックスフォード大学の最新調査:AIはベンチマーク危機に直面し、NLPは推論テストの「取り組み」に注力

人工知能 (AI) ベンチマークは、モデルを測定および比較するための方法を提供します。ベンチマークを上回り、SOTA に到達することは、多くの場合、トップ カンファレンスの論文の標準的な特徴になります。同時に、いくつかのベンチマークは確かに AI の発展を促進しており、たとえば ImageNet ベンチマークは近年の AI ブームに大きく貢献しています。

現在でも、ImageNet ベンチマークは研究において中心的な役割を果たしており、Google の Vision Transformer などのいくつかの新しいモデルは、論文の中で依然として ImageNet 手法と比較されています。

しかし、特定のベンチマークが常にリストのトップに表示され、その後に高品質のベンチマークが導入されない場合、ベンチマークに依存して開発を推進するというこのアプローチには問題があります。

最近、ウィーン医科大学とオックスフォード大学の研究者らがAIベンチマークマップの調査を実施し、2013年以降のCVとNLPの分野で406のタスクに対する1,688のベンチマークを数えました。調査結果:多数のベンチマークが急速に飽和状態に近づいており、一部のベンチマークは棚上げされている一方で、NLP分野では2020年以降、新しいベンチマークの確立が減少し、推論や推論に関連する高レベルのタスクへと方向転換している。

論文の中で著者らは、大規模なコミュニティのコラボレーションとベンチマークのパフォーマンスを現実世界の有用性と影響に結び付けることに重点を置く今後の取り組みを呼びかけている。

AIベンチマークの1.33%が「保留中」

上の図に示すように、単一のベンチマークから開始すると、ベンチマーク上の SOTA には、安定した成長、停滞または飽和、停滞後の飛躍という 3 つの状態があります。このうち、安定成長は技術の安定性を表し、停滞は技術の進歩能力の欠如を表し、爆発的成長は技術の飛躍的進歩を指します。

実際、近年、NLP などの主要分野における新しいベンチマークのかなりの数が急速に飽和状態になり、特定のベンチマーク機能に対して過度に最適化されたモデルが設計され、他のデータに一般化できないことが多くなりました。

現在、こうした現象は、上図の CIFAR-10 と CIFAR-100 の状況のように、同じ分野の異なるベンチマークにも広がっています。

同時に、量的には困った状況もあります。例えば、「2021年人工知能指数レポート」では、CVベンチマークの数は増え続けるタスク要件を満たすことができるかもしれないと指摘されていますが、一方でNLPモデルの成長率は既存の質問応答や自然言語理解のベンチマークを上回っています。

マルティネス・プラメッド氏のような学者たちは、CIFAR-100やSQuAD1.1など、25の一般的なAIベンチマークの背後にある「ストーリー」を分析した。彼らは、「SOTAフロンティア」は、アメリカやアジアの大学とテクノロジー企業が協力する組織など、特定の長期的協力コミュニティによって支配されていることを発見した。

さらに、他の学者は、多数の AI ベンチマーク作業におけるデータセットの使用と再利用の傾向を分析し、「よく知られている」データセットの大部分が少数の著名な組織によって提案されており、これらのデータセットの一部は新しいタスクに再利用されることが増えていることを発見しました。 NLP は例外であり、新しいタスク固有のベンチマークの導入と使用が平均を上回っています。

この研究では、ウィーン医科大学とオックスフォード大学の研究者らが、飽和と棚状化が非常に一般的であることを示しています。一般的には、次のような傾向があります。

1. 研究への関心の欠如が停滞の原因の一つである。

2. あらゆるベンチマークのほとんどは、すぐに技術的な停滞または飽和状態に達します。

3. ImageNet ベンチマークのように、継続的な成長が見られる場合もあります。

4. パフォーマンス改善のダイナミクスは、明確に識別できるパターンには従いません。場合によっては、停滞期間の後に予測できない飛躍が続くことがあります。

キャプション:ベンチマークの発展傾向には、安定成長、停滞または飽和、停滞後の飛躍という3つがあります。

さらに、1,688 のベンチマークのうち、完全に利用されていたのは 66% のみで、33% は保留中でした。同時に、ベンチマークのもう 1 つの傾向として、特定の確立された機関や企業のデータセットが主流となっていることが挙げられます。

2. NLPベンチマークは困難な課題に直面している

過去数年間、履歴書分野のベンチマークが主流でしたが、NLP も盛んになり始めています。 2020 年には、新しいベンチマークの数は減少し、Google の BIG-bench や Facebook の NetHack など、推論をテストするなど、より難しいタスクに重点が置かれるようになりました。

上の図は、NLP のベンチマーク ライフサイクルを示しています。ほとんどのタスクに対して、いくつかの主流ベンチマークが 2011 年から 2015 年の間に確立されたことがはっきりとわかります。この期間中に登場した SOTA はわずかです。 2016年以降、新しいベンチマークを確立するペースが大幅に加速し、翻訳と自然言語モデリングのパフォーマンスが最も顕著でした。2018年と2019年には、さまざまなタスクで大量のベンチマークが確立されました。2020年は転換点となり、新しいベンチマークの確立が減少し、方向は推論または推論関連の高レベルタスクに変わりました。

全体的に、AI ベンチマークの現在の傾向は、確立された機関 (業界を含む) のベンチマークの傾向により、ベンチマークの偏りと代表性に関する懸念が生じていることです。多くのベンチマークは AI のパフォーマンスを現実世界と完全に一致させていないため、さまざまな AI 機能とシナリオをカバーする、品質が保証された少数のベンチマークを開発することが望ましい場合があります。

最後に、研究者らは、将来的には、高品質のベンチマークを確立するために、多くの機関や知識分野からの大規模な共同チームによって新しいベンチマークが開発されるべきだと考えています。

<<:  インテリジェントな意思決定理論: AI 主導の意思決定企業の創出

>>:  専門家の視点:量子コンピューティングの開発動向

ブログ    
ブログ    

推薦する

...

人工知能は倫理的なジレンマに直面しており、将来の発展には法の支配が必要である

科学技術倫理とは、科学技術活動において遵守すべき価値観や行動規範であり、科学技術の発展にとって極めて...

CES 2024 AIスマートホームのハイライト

ChatGPT が AI を話題にしてから 1 年以上経ちましたが、今年の Consumer Ele...

人工知能の実例5つ

ここでは、AI が日常生活で非常に正確に使用されている 5 つのベスト例を紹介します。人工知能 (A...

この戦略は不安定なGANを安定させるのに役立ちます

敵対的生成ネットワーク (GAN) は、非常に幅広い応用が期待できる非常に強力なタイプのニューラル ...

AIの過去と現在を理解するのに役立つ、60年間の技術の簡単な歴史

[[269852]]人類の進化の歴史は、人類が道具を作り、使用してきた歴史です。さまざまな道具は人類...

AIと機械学習を活用して工場の安全を守る

自動化されたセキュリティの将来には機械学習が関与するでしょう。人工知能と機械学習の進歩により、ロボッ...

事前学習済みのNLPモデルにおける性別相関の測定

自然言語処理 (NLP) はここ数年で大きな進歩を遂げており、BERT、ALBERT、ELECTRA...

石油探査のための AI: 石油産業のデジタル変革に向けた新しい考え方

石油は産業の血液であるだけでなく、私たちの日常生活にも深く関わっていることは周知の事実です。統計によ...

人工知能は教育の新たな発展を促進し、これら3つの分野に大きな影響を与えます。

今年の流行語について聞かれたら、「人工知能」という言葉は誰もが知っていると思います。人工知能は多くの...

Google Bardは「防御を突破」し、自然言語を使ってロックを解除、インジェクションによるデータ漏洩のリスクを示唆

大規模言語モデルは、テキストを生成する際にプロンプ​​トワードに大きく依存します。この攻撃技は、プロ...

顔認識技術が明らかに、未来はもうすぐ「手の届くところ」に!

[51CTO.com からのオリジナル記事]昨日の記事「顔認識の威力はどれほどか? AIFR 技術...

中国移動研究所のチャン・ヤオビン氏:主流の人工知能技術スタックの詳細な議論と実践的な概要

はじめに:近年の人工知能技術の急速な発展は、主にニューラルネットワーク、チップ、ビッグデータという ...

...

HellobikeがAIベースのシェアモビリティ技術を発表

Hello Mobilityの非電動車両安全管理システム持続可能な交通の専門企業Hellobikeは...