GPT-4は誕生以来、さまざまな試験(ベンチマーク)で高得点を獲得する「優秀な生徒」でした。しかし今回、新たなテストでは、人間であれば92点だったのに対し、ロボットはわずか15点しか取れなかった。 「GAIA」と呼ばれるこのテストは、Meta-FAIR、Meta-GenAI、HuggingFace、AutoGPT のチームによって作成されました。推論、マルチモーダル処理、Web ブラウジング、一般的なツールの使用など、さまざまな基本能力を必要とする質問が出題されます。これらの問題は人間にとっては非常に単純ですが、ほとんどの高度な AI にとっては非常に困難です。すべての問題が解決されれば、成功したモデルは AI 研究における重要なマイルストーンとなるでしょう。 GAIA の設計哲学は、人間にとってますます困難になるタスクを設計する傾向がある現在の多くの AI ベンチマークとは異なります。これは、実際のところ、現在のコミュニティの AGI に対する理解の違いを反映しています。 GAIA の背後にあるチームは、AGI の出現は、システムが上記の「単純な」問題に対して平均的な人間と同様の堅牢性を発揮できるかどうかにかかっていると考えています。 図 1: GAIA 問題の例。これらのタスクを完了するには、大規模なモデルに推論、マルチモーダル性、ツールの使用などの特定の基本機能が必要です。答えは明確であり、設計上、トレーニング データのプレーン テキスト内で見つけることは不可能です。一部の質問には画像などの追加の証拠が付属しており、実際の使用事例を反映し、質問をより適切に制御できます。 LLM は人間が達成するのが難しいタスクを正常に完了できますが、GAIA 上の最も有能な LLM のパフォーマンスは不十分です。ツールを装備していても、GPT4 は最も簡単なタスクでは 30 パーセントしか成功せず、最も難しいタスクでは 0 パーセントしか成功しませんでした。一方、人間の回答者の平均成功率は 92 パーセントでした。 したがって、システムが GAIA で問題を解決できる場合、t-AGI システムでそれを評価できます。 t-AGIは、OpenAIのエンジニアであるリチャード・ンゴ氏が構築した詳細なAGI評価システムで、1秒AGI、1分AGI、1時間AGIなどが含まれています。人間が通常同じ時間で完了できるタスクを、AIシステムが限られた時間内に完了できるかどうかを調べるために使用されます。著者らは、GAIA テストでは、人間は通常、最も簡単な質問に答えるのに約 6 分、最も複雑な質問に答えるのに約 17 分かかると述べています。 著者らは GAIA 法を使用して 466 の質問とその回答を設計しました。彼らは開発者向けに 166 の質問と回答のセットをリリースしましたが、さらに 300 の質問は回答なしでリリースされました。ベンチマークはリーダーボードの形式で公開されます。
GAIAとはGAIA はどのように機能しますか?研究者らは、GAIA は一般的なアシスタント問題に関して AI システムをテストするためのベンチマークであると述べている。 GAIA は、これまでの LLM 評価のさまざまな欠陥を回避しようとします。これは人間が設計し注釈を付けた 466 の質問で構成されています。質問はテキストベースで、一部には付随ファイル(画像やスプレッドシートなど)があります。これらは、日常の個人的なタスク、科学、一般知識など、補助的な性質を持つさまざまなタスクをカバーします。 これらの質問は、短くて 1 つの正しい答えを指し示しているため、検証が容易です。 GAIA を使用するには、AI アシスタントに質問し、証拠(ある場合)を提供するだけです。 GAIA で満点を取るには、さまざまな基本的な能力が必要です。著者はプロジェクトの補足資料の中でさまざまな質問とメタデータを提供しています。 GAIA は、AI ベンチマークをアップグレードする必要性、および現在の LLM 評価に広く見られる欠点の両方から生まれました。 著者らは、GAIA を設計する際の第一原則は、人間にとっては退屈かもしれないが、多様で現実世界に根ざし、現在の AI システムにとっては難しい、概念的には単純な問題を対象とすることだったと述べている。これにより、専門的なスキルではなく、推論による迅速な適応、マルチモーダル理解、潜在的に多様なツールの使用などの基本的な能力に焦点を当てることができます。 これらの問題では、多くの場合、さまざまなソース (提供されたドキュメントやオープンで常に変化する Web など) から収集された情報を検索して変換し、正確な回答を生成する必要があります。図 1 の例の質問に答えるには、LLM は通常、Web を参照して研究を見つけ、正しいレジストリの場所を探す必要があります。これは、人間にとってますます困難になり、テキストのみまたは人工的な環境で操作されるようになった以前のベンチマークの傾向とは逆のものです。 GAIA の 2 番目の原則は説明可能性です。厳選された質問の数が限られているため、大量の質問に比べて新しいベンチマークが使いやすくなります。このタスクは概念的に単純(人間の成功率は 92%)であるため、ユーザーはモデルの推論の軌跡を簡単に理解できます。図 1 のレベル 1 の問題の場合、推論トレースは主に正しい Web サイトを確認して正しい番号を報告することから構成されており、検証は簡単です。 GAIA の 3 番目の原則は、メモリに対する堅牢性です。GAIA は、現在のほとんどのベンチマークよりも低い確率の推測を目指しています。タスクを完了するには、システムがいくつかのステップを計画し、正常に完了する必要があります。設計上、現在の事前トレーニング データにはプレーン テキストで生成された結果の回答が存在しないためです。精度の向上はシステムの実際の改善を反映します。これらのタスクは、その多様性とアクション空間のサイズのため、例えば真実を記憶するなどの不正行為をせずに、ブルートフォースで実行することはできません。データの汚染により正確性は増す可能性がありますが、回答に必要な正確性、事前トレーニング データに回答が存在しない、推論トレースを検査できるなどの理由により、このリスクは軽減されます。 対照的に、複数選択の回答では、推論の痕跡が誤っていても正しい選択につながる可能性があるため、汚染の評価が困難になります。これらの軽減策にもかかわらず壊滅的なメモリの問題が発生した場合は、著者が論文で提供しているガイドラインを使用して新しい問題を簡単に設計できます。 図 2. GAIA で質問に答えるには、GPT4 などの AI アシスタント (コード インタープリター付き) が、ツールを使用したりファイルを読み取ったりして、いくつかのステップを完了する必要があります。 GAIA の最後の原則は使いやすさです。タスクは簡単なプロンプトであり、追加のファイルが付属している場合があります。最も重要なのは、質問に対する回答が事実に基づいており、簡潔かつ明確であることです。これらの特性により、簡単、迅速、かつ現実的な評価が可能になります。問題はゼロショット機能をテストし、評価設定の影響を制限するように設計されています。対照的に、多くの LLM ベンチマークでは、プロンプトの数や性質、ベンチマークの実装など、実験設定に敏感な評価が必要です。 既存モデルのランニングポイントGAIA は、大規模モデルの知能レベルの評価を自動的、高速、かつ現実的に行うように設計されています。実際、特に指定がない限り、各質問には回答が必要です。回答は文字列 (1 語または数語)、数値、またはコンマで区切られた文字列または浮動小数点数のリストになりますが、正しい回答は 1 つだけです。したがって、評価は、モデルの回答と真実との準正確な一致(真実の「タイプ」に関連するある程度の正規化まで)によって行われます。システム (またはプレフィックス) ヒントは、モデルに期待される形式を伝えるために使用されます (図 2 を参照)。 実際、GPT4 レベルのモデルは GAIA 形式に簡単に従うことができます。 GAIA はすでにスコアリング機能とリーダーボードを提供しています。 現在、大規模モデル分野の「ベンチマーク」であるOpenAIのGPTシリーズのみをテストしていますが、どのバージョンでもスコアが非常に低く、レベル3のスコアがゼロになることも多いことがわかります。 GAIA を使用して LLM を評価するには、モデルを促す機能、つまり API アクセスのみが必要です。 GPT4 テストでは、人間が手動でプラグインを選択した結果が最高スコアとなりました。特に、AutoGPT はこの選択を自動的に行うことができます。 API が利用可能な場合は常に、テスト中にモデルが 3 回実行され、平均結果が報告されます。 図 4: 各方法とレベルのスコアと回答時間。 全体的に、人間はあらゆるレベルの質問応答で優れたパフォーマンスを発揮しますが、現在の最高の大規模モデルは明らかにパフォーマンスが劣っています。著者らは、GAIA は今後数か月、さらには数年にわたって改良の余地を大きく残しつつ、有能な AI アシスタントの明確なランキングを提供できると考えています。 しかし、回答にかかる時間から判断すると、GPT-4 のような大規模なモデルは既存の検索エンジンに取って代わる可能性があります。 プラグインなしの GPT4 と他の結果の違いは、ツール API を使用して LLM を強化したり、ネットワークにアクセスしたりすることで、回答の精度が向上し、多くの新しいユースケースが実現できることを示しており、この研究方向の大きな可能性を裏付けています。 AutoGPT-4 を使用すると、GPT-4 はツールを自動的に使用できますが、レベル 2 やレベル 1 の結果は、プラグインなしの GPT4 と比較すると期待外れになります。この矛盾は、AutoGPT-4 が GPT-4 API (プロンプトと生成パラメータ) に依存する方法に起因している可能性が高く、近い将来に新たな評価が必要になるでしょう。 AutoGPT4 も他の LLM に比べて遅いです。全体的に、プラグインを使用した人間と GPT-4 の連携が最も優れたパフォーマンスを発揮するようです。 図5は、機能別にモデルによって得られたスコアを示しています。当然のことながら、GPT-4 だけではドキュメントやマルチモーダル性に対応できませんが、主に答えを得るために組み合わせる必要のある情報を正しく記憶するため、Web ブラウジングを使用するアノテーターの問題を解決することができます。 図 3 左: GAIA で問題を解決するために必要な機能の数。右: 各ポイントは GAIA の問題に対応します。特定の場所では、ドットのサイズは質問の数に比例し、質問の数が最も多いレベルのみが表示されます。どちらの数字も、質問に対する人間の注釈者が報告した情報に基づいており、AI システムでは異なる方法で処理される可能性があります。 GAIA で満点を獲得するには、AI に高度な推論機能、マルチモーダル理解機能、コーディング機能、Web ブラウジングなどの一般的なツール使用機能が必要です。 AI には、PDF、スプレッドシート、画像、ビデオ、オーディオなど、さまざまなデータ形式を処理する必要性も含まれます。 Web ブラウジングは GAIA の主要コンポーネントですが、ファイルのアップロード、コメントの投稿、会議の予約など、Web サイトでの「クリック」以外のアクションを AI アシスタントに実行させる必要はありません。スパムを回避しながら実際の環境でこれらの機能をテストするには注意が必要であり、今後の作業として残されます。 難易度の増加: 問題は、問題を解決するために必要な手順と、質問に答えるために必要なさまざまなツールの数に基づいて、難易度が増加する 3 つのレベルに分けられます。当然ながら、ステップやツールの定義は 1 つではなく、特定の質問に答える方法が複数存在する場合があります。
GAIA は、小さな音声ファイル内の情報の検索など、障害のある人向けのタスクを含む、現実世界の AI アシスタント設計の問題を対象としています。最後に、データセットの言語は英語に限定されていますが、ベンチマークではさまざまな主題領域と文化をカバーするよう最大限の努力を払っています。 詳細については原文論文を参照してください。 |
<<: 「一歩ずつ考えよう」というマントラよりも効果的で、プロジェクトが改善されていることを示す
>>: 南開大学、山東大学、北京理工大学のチームがtrRosettaRNAを開発: Transformerネットワークを使用してRNAの3D構造を自動的に予測
[[391934]]スマートグラスの技術は長い間、SF作家たちの想像力をかき立ててきました。理論上、...
[[381013]]人工知能は人々の生活を変える可能性を秘めた分野です。ヘルスケア、ビジネス、金融、...
GPT-3.5が海外で発売されてからまだ1年も経っていないし、文心易言が国内で発売されてからまだ半...
従業員の定着は、長年にわたり企業経営者にとって深刻な問題となってきました。雇用の安定と従業員の忠誠心...
6 か月の遅延の後、Microsoft Copilot ファミリー全体がついに登場しました。ちょう...
ちょうど今、チューリング賞受賞者のヤン・ルカン氏がツイッターにメッセージを投稿した。「3本の論文を提...
ニューラル ネットワークを正確かつ効率的に構築する能力は、ディープラーニング エンジニアの採用担当者...
[[423968]] Leetcode を実践するには、いくつかのアルゴリズム テンプレートを知って...
[[433492]] 11月5日、海外メディアの報道によると、フェイスブックは今週、同社のプラットフ...