オックスフォード大学の最新調査:AIはベンチマーク危機に直面し、NLPは推論テストの「取り組み」に注力

オックスフォード大学の最新調査:AIはベンチマーク危機に直面し、NLPは推論テストの「取り組み」に注力

人工知能 (AI) ベンチマークは、モデルを測定および比較するための方法を提供します。ベンチマークを上回り、SOTA に到達することは、多くの場合、トップ カンファレンスの論文の標準的な特徴になります。同時に、いくつかのベンチマークは確かに AI の発展を促進しており、たとえば ImageNet ベンチマークは近年の AI ブームに大きく貢献しています。

現在でも、ImageNet ベンチマークは研究において中心的な役割を果たしており、Google の Vision Transformer などのいくつかの新しいモデルは、論文の中で依然として ImageNet 手法と比較されています。

しかし、特定のベンチマークが常にリストのトップに表示され、その後に高品質のベンチマークが導入されない場合、ベンチマークに依存して開発を推進するというこのアプローチには問題があります。

最近、ウィーン医科大学とオックスフォード大学の研究者らがAIベンチマークマップの調査を実施し、2013年以降のCVとNLPの分野で406のタスクに対する1,688のベンチマークを数えました。調査結果:多数のベンチマークが急速に飽和状態に近づいており、一部のベンチマークは棚上げされている一方で、NLP分野では2020年以降、新しいベンチマークの確立が減少し、推論や推論に関連する高レベルのタスクへと方向転換している。

論文の中で著者らは、大規模なコミュニティのコラボレーションとベンチマークのパフォーマンスを現実世界の有用性と影響に結び付けることに重点を置く今後の取り組みを呼びかけている。

AIベンチマークの1.33%が「保留中」

上の図に示すように、単一のベンチマークから開始すると、ベンチマーク上の SOTA には、安定した成長、停滞または飽和、停滞後の飛躍という 3 つの状態があります。このうち、安定成長は技術の安定性を表し、停滞は技術の進歩能力の欠如を表し、爆発的成長は技術の飛躍的進歩を指します。

実際、近年、NLP などの主要分野における新しいベンチマークのかなりの数が急速に飽和状態になり、特定のベンチマーク機能に対して過度に最適化されたモデルが設計され、他のデータに一般化できないことが多くなりました。

現在、こうした現象は、上図の CIFAR-10 と CIFAR-100 の状況のように、同じ分野の異なるベンチマークにも広がっています。

同時に、量的には困った状況もあります。例えば、「2021年人工知能指数レポート」では、CVベンチマークの数は増え続けるタスク要件を満たすことができるかもしれないと指摘されていますが、一方でNLPモデルの成長率は既存の質問応答や自然言語理解のベンチマークを上回っています。

マルティネス・プラメッド氏のような学者たちは、CIFAR-100やSQuAD1.1など、25の一般的なAIベンチマークの背後にある「ストーリー」を分析した。彼らは、「SOTAフロンティア」は、アメリカやアジアの大学とテクノロジー企業が協力する組織など、特定の長期的協力コミュニティによって支配されていることを発見した。

さらに、他の学者は、多数の AI ベンチマーク作業におけるデータセットの使用と再利用の傾向を分析し、「よく知られている」データセットの大部分が少数の著名な組織によって提案されており、これらのデータセットの一部は新しいタスクに再利用されることが増えていることを発見しました。 NLP は例外であり、新しいタスク固有のベンチマークの導入と使用が平均を上回っています。

この研究では、ウィーン医科大学とオックスフォード大学の研究者らが、飽和と棚状化が非常に一般的であることを示しています。一般的には、次のような傾向があります。

1. 研究への関心の欠如が停滞の原因の一つである。

2. あらゆるベンチマークのほとんどは、すぐに技術的な停滞または飽和状態に達します。

3. ImageNet ベンチマークのように、継続的な成長が見られる場合もあります。

4. パフォーマンス改善のダイナミクスは、明確に識別できるパターンには従いません。場合によっては、停滞期間の後に予測できない飛躍が続くことがあります。

キャプション:ベンチマークの発展傾向には、安定成長、停滞または飽和、停滞後の飛躍という3つがあります。

さらに、1,688 のベンチマークのうち、完全に利用されていたのは 66% のみで、33% は保留中でした。同時に、ベンチマークのもう 1 つの傾向として、特定の確立された機関や企業のデータセットが主流となっていることが挙げられます。

2. NLPベンチマークは困難な課題に直面している

過去数年間、履歴書分野のベンチマークが主流でしたが、NLP も盛んになり始めています。 2020 年には、新しいベンチマークの数は減少し、Google の BIG-bench や Facebook の NetHack など、推論をテストするなど、より難しいタスクに重点が置かれるようになりました。

上の図は、NLP のベンチマーク ライフサイクルを示しています。ほとんどのタスクに対して、いくつかの主流ベンチマークが 2011 年から 2015 年の間に確立されたことがはっきりとわかります。この期間中に登場した SOTA はわずかです。 2016年以降、新しいベンチマークを確立するペースが大幅に加速し、翻訳と自然言語モデリングのパフォーマンスが最も顕著でした。2018年と2019年には、さまざまなタスクで大量のベンチマークが確立されました。2020年は転換点となり、新しいベンチマークの確立が減少し、方向は推論または推論関連の高レベルタスクに変わりました。

全体的に、AI ベンチマークの現在の傾向は、確立された機関 (業界を含む) のベンチマークの傾向により、ベンチマークの偏りと代表性に関する懸念が生じていることです。多くのベンチマークは AI のパフォーマンスを現実世界と完全に一致させていないため、さまざまな AI 機能とシナリオをカバーする、品質が保証された少数のベンチマークを開発することが望ましい場合があります。

最後に、研究者らは、将来的には、高品質のベンチマークを確立するために、多くの機関や知識分野からの大規模な共同チームによって新しいベンチマークが開発されるべきだと考えています。

<<:  インテリジェントな意思決定理論: AI 主導の意思決定企業の創出

>>:  専門家の視点:量子コンピューティングの開発動向

ブログ    

推薦する

AIと機械学習を活用してビジネスを完全に自動化する5つの優れた方法

アプリケーションソフトウェアや機器の更新に伴い、製品の品質に対するユーザーの要求はますます高くなり、...

AIGC時代のビデオ普及モデル、復旦チームらが分野初のレビューを発表

AI 生成コンテンツは、現在の人工知能分野で最もホットなトピックの 1 つとなっており、この分野の最...

百度技術委員会の呉華委員長:NLP技術は機械に人間の言語によるコミュニケーション能力を持たせるはずだ

[[211656]] 「人工知能を人間の生活に取り入れたいなら、人間とコミュニケーションできる言語能...

グラフディープラーニングで複雑な研究​​タイプのタスクを実装するのは、あまりにも面倒ですか?この新しいツールキットは、

ディープラーニングは、AI分野で最も注目されている分野の1つです。現在、PyGやDGLなどの主流のグ...

...

C# モザイク アルゴリズムの実装

視聴者の要望に応えて、今日は C# モザイク アルゴリズムの実装についてお話します。古いルール、理解...

AWS 上でディープラーニングホストを構築する (Windows 版)

この記事では、Amazon EC2 P2 インスタンスをレンタルして使用する方法について簡単に説明し...

...

NLP タスクに最適な 6 つの Python ライブラリ

この記事では、自然言語処理タスクに最適な 6 つの Python ライブラリを紹介します。初心者でも...

Appleがニュース編集者を雇っているにもかかわらず、アルゴリズムがあなたが読むものを決定する

[[137024]]読むものを決めるのがメディアではなく、モバイル アプリケーションやソーシャル ネ...

...

...

製薬業界はAI医薬品製造の時代に突入。医薬機械企業にどのような影響を与えるのでしょうか?

現在、莫大な研究開発費と長い研究開発サイクルが、製薬会社の研究開発とイノベーションにおける「障害」に...

SMOTE アルゴリズムを使用せずに、マルチクラスの不均衡なデータをどのように処理できますか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...