オックスフォード大学の最新調査：AIはベンチマーク危機に直面し、NLPは推論テストの「取り組み」に注力

人工知能 (AI) ベンチマークは、モデルを測定および比較するための方法を提供します。ベンチマークを上回り、SOTA に到達することは、多くの場合、トップカンファレンスの論文の標準的な特徴になります。同時に、いくつかのベンチマークは確かに AI の発展を促進しており、たとえば ImageNet ベンチマークは近年の AI ブームに大きく貢献しています。

現在でも、ImageNet ベンチマークは研究において中心的な役割を果たしており、Google の Vision Transformer などのいくつかの新しいモデルは、論文の中で依然として ImageNet 手法と比較されています。

しかし、特定のベンチマークが常にリストのトップに表示され、その後に高品質のベンチマークが導入されない場合、ベンチマークに依存して開発を推進するというこのアプローチには問題があります。

最近、ウィーン医科大学とオックスフォード大学の研究者らがAIベンチマークマップの調査を実施し、2013年以降のCVとNLPの分野で406のタスクに対する1,688のベンチマークを数えました。調査結果：多数のベンチマークが急速に飽和状態に近づいており、一部のベンチマークは棚上げされている一方で、NLP分野では2020年以降、新しいベンチマークの確立が減少し、推論や推論に関連する高レベルのタスクへと方向転換している。

論文の中で著者らは、大規模なコミュニティのコラボレーションとベンチマークのパフォーマンスを現実世界の有用性と影響に結び付けることに重点を置く今後の取り組みを呼びかけている。

AIベンチマークの1.33%が「保留中」

上の図に示すように、単一のベンチマークから開始すると、ベンチマーク上の SOTA には、安定した成長、停滞または飽和、停滞後の飛躍という 3 つの状態があります。このうち、安定成長は技術の安定性を表し、停滞は技術の進歩能力の欠如を表し、爆発的成長は技術の飛躍的進歩を指します。

実際、近年、NLP などの主要分野における新しいベンチマークのかなりの数が急速に飽和状態になり、特定のベンチマーク機能に対して過度に最適化されたモデルが設計され、他のデータに一般化できないことが多くなりました。

現在、こうした現象は、上図の CIFAR-10 と CIFAR-100 の状況のように、同じ分野の異なるベンチマークにも広がっています。

同時に、量的には困った状況もあります。例えば、「2021年人工知能指数レポート」では、CVベンチマークの数は増え続けるタスク要件を満たすことができるかもしれないと指摘されていますが、一方でNLPモデルの成長率は既存の質問応答や自然言語理解のベンチマークを上回っています。

マルティネス・プラメッド氏のような学者たちは、CIFAR-100やSQuAD1.1など、25の一般的なAIベンチマークの背後にある「ストーリー」を分析した。彼らは、「SOTAフロンティア」は、アメリカやアジアの大学とテクノロジー企業が協力する組織など、特定の長期的協力コミュニティによって支配されていることを発見した。

さらに、他の学者は、多数の AI ベンチマーク作業におけるデータセットの使用と再利用の傾向を分析し、「よく知られている」データセットの大部分が少数の著名な組織によって提案されており、これらのデータセットの一部は新しいタスクに再利用されることが増えていることを発見しました。 NLP は例外であり、新しいタスク固有のベンチマークの導入と使用が平均を上回っています。

この研究では、ウィーン医科大学とオックスフォード大学の研究者らが、飽和と棚状化が非常に一般的であることを示しています。一般的には、次のような傾向があります。

1. 研究への関心の欠如が停滞の原因の一つである。

2. あらゆるベンチマークのほとんどは、すぐに技術的な停滞または飽和状態に達します。

3. ImageNet ベンチマークのように、継続的な成長が見られる場合もあります。

4. パフォーマンス改善のダイナミクスは、明確に識別できるパターンには従いません。場合によっては、停滞期間の後に予測できない飛躍が続くことがあります。

キャプション：ベンチマークの発展傾向には、安定成長、停滞または飽和、停滞後の飛躍という3つがあります。

さらに、1,688 のベンチマークのうち、完全に利用されていたのは 66% のみで、33% は保留中でした。同時に、ベンチマークのもう 1 つの傾向として、特定の確立された機関や企業のデータセットが主流となっていることが挙げられます。

2. NLPベンチマークは困難な課題に直面している

過去数年間、履歴書分野のベンチマークが主流でしたが、NLP も盛んになり始めています。 2020 年には、新しいベンチマークの数は減少し、Google の BIG-bench や Facebook の NetHack など、推論をテストするなど、より難しいタスクに重点が置かれるようになりました。

上の図は、NLP のベンチマークライフサイクルを示しています。ほとんどのタスクに対して、いくつかの主流ベンチマークが 2011 年から 2015 年の間に確立されたことがはっきりとわかります。この期間中に登場した SOTA はわずかです。 2016年以降、新しいベンチマークを確立するペースが大幅に加速し、翻訳と自然言語モデリングのパフォーマンスが最も顕著でした。2018年と2019年には、さまざまなタスクで大量のベンチマークが確立されました。2020年は転換点となり、新しいベンチマークの確立が減少し、方向は推論または推論関連の高レベルタスクに変わりました。

全体的に、AI ベンチマークの現在の傾向は、確立された機関 (業界を含む) のベンチマークの傾向により、ベンチマークの偏りと代表性に関する懸念が生じていることです。多くのベンチマークは AI のパフォーマンスを現実世界と完全に一致させていないため、さまざまな AI 機能とシナリオをカバーする、品質が保証された少数のベンチマークを開発することが望ましい場合があります。

最後に、研究者らは、将来的には、高品質のベンチマークを確立するために、多くの機関や知識分野からの大規模な共同チームによって新しいベンチマークが開発されるべきだと考えています。

<<: インテリジェントな意思決定理論: AI 主導の意思決定企業の創出

>>: 専門家の視点：量子コンピューティングの開発動向