GPT-4V と大学生のどちらが良いでしょうか?まだ分かりませんが、新しいベンチマーク データセット MMMU とそれに基づくベンチマークから、次のランキングに示すように、いくつかの手がかりが得られるかもしれません。 GPT-4V はすでに、いくつかの科目で不合格になった大学生よりも優れているようです。もちろん、このデータセットを作成する目的は大学生を打ち負かすためではなく、人工知能システム、特に汎用人工知能 (AGI) の開発を支援するために、深さと幅の両方を備えたマルチモーダル AI テスト ベンチマークを提供することです。 大規模言語モデル (LLM) の急速な発展に伴い、物議を醸している AGI の概念が広く議論されるようになりました。簡単に言えば、AGI とは、ほとんどのタスクにおいて人間に匹敵するか、人間よりも優れた人工知能システムを指します。一般的に受け入れられている運用上の定義がないため、AGI についてより率直で建設的な議論をすることが困難になっています。 この問題を解決するために、Morris らの論文「AGI のレベル: AGI への道における進歩の運用化」では、一般性 (幅) とパフォーマンス (深さ) の両方を考慮した AGI 階層分類法を提案しました。 この分類では、レベル 3 はエキスパート AGI であり、これは重要なマイルストーンです。同報告書は、AIシステムは幅広い業務において「専門知識を持つ成人の90%のパフォーマンス」に達しており、多くの業界で「機械知能が人間の労働力に取って代わる代替閾値」に達する可能性があり、失業や経済混乱の重大なリスクを生み出す可能性があると指摘した。したがって、専門家 AGI の開発に細心の注意を払うことは、学術的にも社会的にも重要な意義を持ちます。 では、専門家の AGI を測定するためのベンチマークをどのように作成するのでしょうか? エキスパート AGI の定義は専門家との比較に基づいているため、さまざまな分野の大学レベルの試験は良い出発点となります。これらの試験自体は、対応する分野における人間の専門知識を評価するように設計されているからです。 MMLU や AGIEval などのベンチマークはこの戦略をうまく採用していますが、これらのベンチマークではテキストベースの質問のみが考慮されるのに対し、人間の専門家はマルチモーダルな問題を解決することができます。 同時に、テキストや画像を理解できる大規模マルチモーダルモデル (LMM) は、より汎用的な人工知能に向けて大きな一歩を踏み出しました。これらの LMM は、既存のマルチモーダル ベンチマークで一貫して優れたパフォーマンスを実現します。たとえば、CogVLM は VQA-v2 ベンチマークで 85%、ScienceQA-IMG で 92%、RefCOCO で 93% を達成しています。 しかし、既存のマルチモーダル ベンチマークのほとんどは、専門家レベルのドメイン知識や高度な推論ではなく、常識や日常的な知識に重点を置いています。この目標に最も近いベンチマークは ScienceQA です。 ScienceQA は複数の科目(幅広さ)をカバーしていますが、ほとんどの質問は小学校から中学校レベルに限定されているため、専門家の AGI のベンチマークとして機能するほどの深さがありません。 この目的のために、IN.AI Research を含む複数の機関の研究チームが、大学レベルの学際的な問題に対する AI のマルチモーダル理解および推論能力を評価するために使用できる新しいベンチマーク MMMU を構築しました。
掲載されている質問は、芸術とデザイン、ビジネス、科学、健康と医学、人文科学と社会科学、テクノロジーとエンジニアリングの 6 つの一般的な科目の大学の試験、テスト、教科書から抜粋されています。 MMMU には、30 の異なる科目と 183 のサブフィールドをカバーする、慎重に選択された 11,500 のマルチモーダル質問が含まれており、幅広い目標を満たしています。さらに、MMMU の多くの問題では、フーリエ変換や平衡理論を使用して問題の解決策を導き出すなど、専門家レベルの推論能力が求められるため、深さの目標も満たしています。 MMMU には、2 つの固有の課題もあります (図 1)。1 つ目は、写真や絵画などの視覚シーンからグラフや表まで、LMM の認識能力をテストするために使用できるさまざまな画像形式をカバーしていることです。2 つ目は、MMMU にはテキストと画像が混在する入力があることです。このベンチマークでは、AI モデルは画像とテキストを一緒に理解する必要があります。そのためには、多くの場合、主題に関する深い知識を思い出し、その理解と知識に基づいて複雑な推論を実行する必要があります。 チームはベンチマークを提案しただけでなく、14 個のオープンソース LMM と GPT-4V を含む新しいベンチマークに基づいたいくつかのモデルも評価しました。彼らはいくつかの興味深い結論に達しました。 さらに、GPT-4Vのエラー事例150件を分析したところ、エラーの35%は知覚に関連し、29%は知識不足、26%は推論プロセスの欠陥に起因することが判明しました。これらの調査結果は、MMMU が挑戦的であり、さらなる研究開発を支援するために使用できることを示しています。 MMMU ベンチマークMMMUの概要 MMMU は、Massive Multi-discipline Multimodal Understanding and Reasoning の略称で、大規模な学際的マルチモーダル理解と推論を意味します。これは、さまざまなタスクにおける基本モデルの専門家レベルのマルチモーダル理解機能を評価することを目的として構築されています。 MMMU は 6 つの分野で 30 の科目をカバーしています。図 2 は、各分野の MMMU のサンプルを示しています。 図 3 には、対象となる主題と関連する統計が詳細に示されています。 このベンチマークの質問は、さまざまな分野の 50 人の大学生によって手動で収集されたもので、データ ソースにはオンライン リソース、教科書、コース教材などが含まれています。 表 1 に示すように、MMMU には 11,500 の質問があり、少数の試行開発セット、検証セット、テスト セットの 3 つのサブセットに分かれています。 少数ショットの開発セットには、被験者ごとに 5 つの質問が含まれ、検証セットにはハイパーパラメータの選択に使用できる約 900 の質問が含まれ、テスト セットには 10,500 の質問が含まれます。 MMMU は、LMM の 3 つの基本スキル (知覚、知識、推論) を測定するように設計されています。 データ収集と処理プロセス データ収集。最初のステップとして、彼らは一般的な大学の専攻分野を調べ、どの科目をベンチマークに含めるかを決定しました。彼らは、貴重な情報を提供するためには被験者に頻繁な視覚的入力が必要であるという原則を選択しました。この原則に基づいて、法律や言語学などの一部の分野は除外されました。これらの分野では関連性のあるマルチモーダル問題を十分に見つけることが困難だったためです。最終的に、6つの異なる分野から30の被験者が選択されました。 第二段階では、これらの専攻から 50 人の大学生を募集し、質問の収集を手伝う注釈者として働いてもらいました。彼らは、専門の教科書やオンライン リソースからマルチモーダルな質問を収集し、必要に応じて独自の専門知識に基づいて新しい質問を作成します。基本モデルのデータ汚染問題を考慮して、注釈者は、回答が別のドキュメントや教科書の最後にある質問など、すぐに回答が得られない質問を選択します。その過程で、彼らは13,000件の質問を受けました。 データの品質をさらに管理するために、さらに 2 つのデータクリーニング手順を実行しました。最初のステップでは、単語の重複とソース URL の類似性を使用して、潜在的な重複の問題を特定しました。その後、これらの重複を確認し、すべて削除しました。 2 番目のステップは、これらの質問を論文の共著者に割り当て、書式設定とスペル チェックを手伝ってもらうことです。最後に、チームは質問を難易度に応じて「非常に簡単」、「簡単」、「普通」、「難しい」のランク付けをしました。問題の約 10% は非常に単純であると分類されましたが、ベンチマークの設計原則を満たすには単純すぎるため除外されました。 図 4 は、MMMU と既存のベースラインの違いを示しています。 実験チームは、MMMU に基づいてさまざまな LLM と LMM を評価しました。各タイプでは、クローズド ソース モデルとオープン ソース モデルの両方を考慮します。評価ではゼロショット設定を採用し、微調整や少数ショットのデモンストレーションなしで正確な回答を生成するモデルの能力を評価します。すべての実験は NVIDIA A100 GPU に基づいています。 主な結果 表 2 は、MMMU ベンチマークにおけるさまざまな LLM と LMM の結果の比較を示しています。 彼らはいくつかの重要な発見をしました:
しかし研究チームは、MMMU だけでは専門家 AGI を完全にテストするには不十分だとも指摘している。これは定義上限界がある。モデルの MMMU パフォーマンスと「専門知識を持つ成人の 90%」の間には直接的なマッピング関係がなく、大学の試験だけが AGI が解決すべき課題ではないからだ。しかし彼らはまた、専門家の AGI が知識の広さと深さ、専門家レベルの理解力と推論能力を実証するためには、MMMU ベンチマークで良好な結果を達成することが必要であると考えています。 画像の種類と難易度の分析 さまざまな画像タイプ。図 5 は、一般的な画像タイプにおけるさまざまなモデルのパフォーマンスを比較しています。ご覧のとおり、GPT-4V はすべてのカテゴリで一貫して他のモデルを大幅に上回っています。オープンソース モデルは、写真や絵画など、トレーニングでより一般的に使用されるタイプでは比較的良好なパフォーマンスを発揮します。しかし、幾何学的形状、楽譜、化学構造などのあまり一般的ではない画像カテゴリでは、すべてのモデルが非常に低いスコアを達成しました(ランダムな推測に近いものもありました)。これは、既存のモデルがこれらの画像タイプに対して一般化が不十分であることを示唆しています。 難易度のレベルは様々です。表 3 は、3 つの難易度レベルで選択されたモデルのパフォーマンスを比較します。 「簡単」カテゴリでは、GPT-4V はオープンソース モデルを大幅に上回り、成功率 76.1% を達成しました。 「中」難易度カテゴリーでは差は縮まりましたが、GPT-4V は依然として 55.6% でリードしています。 「難しい」レベルでは、モデル間のギャップはさらに狭まり、タスクの複雑さが増すにつれて、GPT-4V などのより高度なモデルの利点が徐々に消えていくことを示しています。これは、現在のモデルでは、最も高度なものであっても、専門家レベルの難易度の高いクエリを処理するのに限界があることを示している可能性があります。 エラー分析と今後の研究チームはGPT-4Vのエラーの詳細な分析も実施し、その機能と限界を理解するのに役立ちました。この分析は、モデルの現在の欠点を特定するだけでなく、将来の設計とトレーニングの改善にも役立ちます。彼らは GPT-4V の予測から 150 件のエラーインスタンスをランダムにサンプリングし、それらのインスタンスを専門の注釈者に分析してもらい、その知識を活用してこれらの誤った予測の根本原因を突き止めました。図 6 はこれらのエラーの分布を示しています。 知覚エラー(35%):GPT-4V のエラーの大部分は知覚エラーであり、これはさらに基本知覚エラーとドメイン固有の知覚エラーの 2 種類に分けられます。図 7 に示すように、モデルが与えられた情報を正確に処理して理解できるが、基本的な視覚情報を解釈できない場合に、基本的な知覚エラーが発生します。一方、ドメイン固有の知覚エラーは、知識不足によって引き起こされます。研究者たちは根本的な原因を分析した結果、そのようなエラーを知識不足によるものと分類した。さらに、GPT-4V はテキストを好む傾向があり、つまりテキスト情報が最初に来て、視覚的な入力が後から来る傾向があります。 知識不足(29%):前述したように、GPT-4V モデルの場合、ドメイン固有の認識エラーの根本的な原因は専門知識の不足です。同様に、専門知識の欠如も推論の問題につながる可能性があります。 推論エラー (26%): いくつかのケースでは、モデルはテキストと画像を正しく解釈し、関連する知識を見つけましたが、論理的および数学的な推論スキルをうまく適用して正確な推論を行うことができませんでした。 その他のエラー: その他のエラーには、テキスト理解エラー (6%)、質問への回答拒否 (3%)、注釈エラー (2%)、回答抽出エラー (1%) などがあります。これらのエラーの原因も、複雑なテキストの解釈の難しさ、応答生成の制限、不正確なデータ注釈、長い出力から正確な回答を抽出する際の問題など、さまざまです。 詳しくは原文をお読みください。 |
<<: 同義千文の720億パラメータモデルがオープンソース化、初の「フルサイズ・フルモード」オープンソース化を実現
>>: 蹴り倒せない!家庭用ヒューマノイドロボットが誕生、価格は9万ドル未満
偽造品、アルゴリズムの偏り、その他の問題が私たちの日常生活に及ぼす影響過去数年間、人工知能は私たちの...
現在、ビッグモデルは産業実装の初期段階にあり、高品質のデータはビッグモデルの産業化における重要な要素...
ほんの数年前までは、マーケティングに特化した AI エンジンがマーケティングの未来につながると信じて...
U+のレポートによると、風力発電所などの他のクリーンエネルギー源と組み合わせて人工知能を使用すると...
[[333298]]現在、チップのパフォーマンスの向上は限られているため、分散トレーニングは超大規模...
著者についてCtrip のフロントエンド開発者である Can は、現在ミニプログラムの開発に従事して...
本稿では、海外の人工知能分野の科学技術発展の現状を調査し、その発展動向を判断するために、2021年の...
アリは小さくても、集団で行動すると侮れません。『アントマン』を観たことがある人なら分かると思います。...
今日のデータセンターは、ほぼ克服不可能と思われる課題に直面しています。データ センターの運用はかつて...
事情に詳しい関係者によると、10月28日、Googleはこれまでの投資に加え、OpenAIの競合企業...
翻訳者 |ブガッティレビュー | Chonglouここ数か月で、リリースされる AI ツールの数は増...
最近、誰かが StackExchange で、ネットユーザーに現在世界で最も古典的なアルゴリズムのト...