Google Gemini の大きな転換? Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

Google Gemini の大きな転換? Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

Gemini の推論能力は本当に GPT-4 よりも弱いのでしょうか?

以前、Google の大ヒット復讐兵器である Gemini Pro は、常識推論タスクにおいて OpenAI の GPT モデルに遅れをとることが判明しました。

その後、CMU は、Gemini Pro の多くの機能が GPT-3.5 Turbo よりわずかに遅れていることを証明する論文と実験を発表しました

しかし最近、スタンフォード大学とメタ大学の学者らがジェミニのこの「不正」を否定した。

彼らは、限られたデータセット (HellaSWAG) に基づくこの評価では、Gemini の真の常識的推論の可能性を十分に捉えていないことを発見しました。

論文アドレス: https://arxiv.org/abs/2312.17661

新しいテストセットでは、ジェミニの推論能力は以前よりもはるかに強力です。

ジェミニの真の可能性

スタンフォード大学とメタ大学の研究者らは、限られたデータセットに基づくこれまでの評価はジェミニにとって公平ではなかったと述べた。

今回、研究者らは、複雑な推論タスクにおけるジェミニのパフォーマンスを徹底的に評価するために、常識的知識のクロスモーダル統合を必要とするタスクを設計しました。

研究者らは、一般的なタスクからドメイン固有のタスクに至るまで、12 の常識推論データセットの包括的な分析を実施しました。

研究者らは、4 つの LLM 実験と 2 つの MLLM 実験で、ジェミニが現在非常に強力な常識的推論能力を備えていることを実証しました。

研究者たちは、最も人気のある4つのモデル、Llama 2-70b、Gemini Pro、GPT-3.5 Turbo、GPT-4 Turboを評価しました。

全体的に、Gemini Pro のパフォーマンスは GPT-3.5 Pro と同等でしたが、精度では GPT-4 Turbo に遅れをとっていました。

実験

データセット

実験では、11 の言語ベースのデータセットと 1 つのマルチモーダル データセットを含む、さまざまな種類の常識推論に関連する 12 のデータセットが使用されました。

言語ベースのデータセットには、常識推論問題の 3 つのカテゴリが含まれています。

1. 一般推論と文脈推論: 一般的な常識知識に焦点を当てた CommonsenseQA、物語の文脈的理解を重視する Cosmos QA、最も合理的な説明を推論するなどの演繹的推論を導入した αNLI、文脈的イベントシーケンスに関する推論に焦点を当てた HellaSWAG。

2. 専門的および知識に基づく推論: TRAM は時間に関する推論力をテストします。NumerSense は数値理解に焦点を当てます。PIQA は物理的な相互作用に関する知識を評価します。QASC は科学関連の推論を扱います。RiddleSense はなぞなぞを通じて創造的思考力を試します。

3. 社会的および道徳的推論: 社会的 IQa は、社会的相互作用の理解をテストします。倫理は、道徳的および倫理的推論を評価します。

マルチモーダル データセット (視覚と言語) については、認知レベルの視覚理解のための大規模データセットである VCR を選択します。

複数のタスクを含む TRAM や ETHICS などのデータセットの場合、研究者は実験の常識的推論の部分を抽出しました。

精度は、実験におけるすべてのデータセットのパフォーマンス メトリックとして使用されます。次の表は、データセットの概要と質問の例を示しています。

モデル

最も人気のある 4 つの大規模モデルが使用されます: オープン ソースの Llama-2-70b-chat とクローズド ソースの Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。

各モデルには、対応する API キーを使用してアクセスします。Gemini には Google Vertex AI 経由で、GPT には OpenAI API 経由で、Llama2 には DeepInfra 経由でアクセスします。

マルチモーダル データセットの場合、実験では GPT-4V (API では gpt-4-vision-preview) と Gemini Pro Vision (API では gemini-pro-vision) が考慮されます。

研究者は、API コストとレートの制約を考慮して、各言語ベースのデータセットの検証セットから 200 個の例と、VCR データセットの検証セットから 50 個の例をランダムに選択しました。

すべての評価において、モデル応答生成中に貪欲デコード(つまり、温度 = 0)が採用されました。

ヒント

言語ベースのデータセットを評価する際に、研究者らは 2 つのプロンプト設定を採用しました。言語設定におけるモデルの固有の常識能力を測定することを目的としたゼロショット標準プロンプト (SP) と、モデルのパフォーマンスの潜在的な向上を観察するために使用される数ショットの Chain of Thoughts (CoT) プロンプトです。

マルチモーダル データセットの場合、ゼロショット標準キューを使用して、MLLM のエンドツーエンドの視覚的常識推論能力を評価します。

結果

全体的なパフォーマンス比較の結果は次の表に示されています。

モデルの観点から見ると、GPT-4 Turbo は平均パフォーマンスが最も優れています。ゼロショット学習では2位のGemini Proよりも7.3%高く、少数ショット学習ではその優位性はさらに大きくなっています(9.0%)。

Gemini Pro の平均精度は GPT-3.5 Turbo よりもわずかに高くなっています (0 ショット、SP では 1.3% 高く、k ショット、CoT では 1.5% 高くなります)。

ヒント手法に関しては、CoT はすべてのデータセットのパフォーマンスを向上させ、CommonsenseQA、TRAM、および Social IQa データセットでは明らかな向上が見られます。

次の表は、マルチモーダル VCR データセットのパフォーマンスを比較したものです。

VCR の 3 つのサブタスクは、Q → A (視覚的なコンテキストに基づいて質問に対する回答を生成する)、QA → R (モデルが特定の回答の根拠を提供することを要求する)、Q → AR (質問に答え、適切な理由で回答を正当化することを要求する) です。

11 の言語ベースのデータセットは 3 つのグループに分かれており、各グループの各設定のパフォーマンスを図 1 に示します。

結果は、GPT-4 Turbo がすべてのカテゴリで一貫してパフォーマンスをリードしていることを示しています。

Gemini Pro と GPT-3.5 Turbo のパフォーマンスは同等ですが、3 つのカテゴリのうち 2 つでは Gemini Pro が GPT-3.5 Turbo をわずかに上回っています。

全体的に、すべてのモデルは社会的および道徳的推論データセットに対して強力な機能を示しています。

しかし、一般的な推論タスクと文脈上の推論タスクのパフォーマンスには大きな違いがあります。

また、より広範な常識的な原則の理解と、さまざまな状況でのその原則の適用には潜在的なギャップがあることも示唆しています。

専門的および知識的推論のカテゴリー、特に時間とパズルベースの課題の分野では、モデルは複雑な時系列を処理し、パズルを解読するために必要な抽象的および創造的思考能力に欠陥があることを示しました。

マルチモーダル データセットに関しては、図 2 にさまざまな問題タイプにおける GPT-4V と GeminiPro Vision のパフォーマンス比較の詳細を示します。

時間カテゴリに関する最後の質問では、GeminiPro Vision が競合製品を上回っていることがわかります。

MLLMの理由

MLLM の推論能力、特に常識的な質問に対して正しい回答だけでなく妥当かつ文脈に基づいた推論を提供する能力を評価するために、体系的なサンプリング手法が使用されました。

4 つの LLM を評価するために使用された 11 の言語ベースのデータセットについて、研究者は正解した質問 30 件と不正解した質問 30 件をランダムに選択しました。

データ セットで誤った回答が 30 件未満の場合、研究者は分析の包括性を保証するために、入手可能なすべての誤った回答を含めました。

これらの質問を選択した後、各モデルに「質問に対する回答の根拠は何ですか?」と説明を求めました。その後、モデルによって提供された推論は手動で検査され、その論理的妥当性と質問との関連性に基づいて真偽が評価されました。

図 3 は、GPT-4 Turbo が正解と不正解の両方に対して高度な推論メカニズムを示し、最終的な答えが不正確であっても論理的な一貫性を維持する能力があることを示しています。

さらに、Gemini Pro は優れた推論能力も実証し、包括的な常識的な推論アプローチを提供しました。

下の図は、Gemini Pro と GPT-3.5 からの 2 つの実際の例を示しており、正解と正しい理由、および不正解と不正解の理由を示しています。

サンプル問題は QASC データセットからのもので、正解は太字の赤で示されています。上の画像では、Gemini Pro がすべてのオプションを慎重に検討して最も論理的な結論に到達する、系統的な推論を示しています。

代わりに、GPT-3.5 Turbo の型破りなロジックの傾向により、想像力に富んではいるものの間違った答えが導き出されました。

これは、異なるモデルが常識推論タスクに対処するための異なる戦略を持ち、独自の機能と制限を持っていることを示しています。

Gemini Proの常識推論機能

常識的なQA

CommonsenseQA データセットを使用した一般知識評価には、「あなたが見知らぬ人である場合、人々はどうしますか?」という質問の例があります。

A. 電車 B. 奇妙 C. 人間 D. 愚か E. 危険

Gemini ProはBを選択しました。

その理由付けも注目に値します。選択肢はすべて「見知らぬ人」という概念に関連していますが、「見知らぬ人」だけが質問の中立的で自由回答的な性質を正確に捉えていることを認識しています。

この選択は、一般的な常識的な知識を解釈して適用する Gemini Pro の能力を強調します。

時間(TRAM)

TRAM データセットの Temporal Common Sense Evaluation からの質問例: 「彼はまた、彼を探しに来ると約束しました。」

彼が「彼のもとに来る」までにはどれくらいの時間がかかりますか?

A. 100年 B. 1分以内 C. 数時間

特に関係者の身元や「来る」ことの意味に関して十分な背景情報がなかったため、Gemini Pro は明確な回答を提供できませんでした。

これは、モデルが正確な時間判断を行うために特定のコンテキスト情報に依存する必要があることを示しています。

現実世界の情報伝達においては、曖昧または不完全な情報がそのような制限を引き起こす可能性もあります。

ソーシャル(ソーシャルIQa)

Social IQa データセットを使用して GeminiPro の社会的常識推論のパフォーマンスを評価したとき、興味深いシナリオが浮かび上がりました。人々が Sasha をいじめていて、Sasha が報復した場合、人々は次に何をするでしょうか?

A. サーシャの言うとおりにする B. 復讐する C. サーシャから逃げる

正解は C ですが、Gemini Pro の選択は洞察に富んでいるようです。

同委員会は、サーシャの行動が人々の復讐心を刺激する可能性が高いとして、Bを選択した。

この応答は、Gemini Pro が社会のダイナミクスと感情的な動機を微妙に理解していることを示しています。

映像(VCR)

研究者らは、VCR データセットで、個人の安全と潜在的な危険を伴うシナリオに対する Gemini Pro Vision の反応を分析しました。

このとき4番が3番を押すとどうなるでしょうか?

ジェミニ・プロ・ビジョンはこう答えた。「3号は崖から落ちて命の危険にさらされるだろう。」

この結果は、Gemini Pro Vision がすでに視覚的な常識的推論を実行し、視覚的なシーンを分析し、それらのシーンでの行動の潜在的な結果を予測できることを示しています。

これは、モデルが空間的な関係と物理的な結果を把握し、人間の認知と同様に複雑な視覚情報を処理する能力を持っていることを示唆しています。

著者について

Yuqing Wangは現在、スタンフォード大学の博士研究員です。

彼女は以前、ミネソタ大学で学士号を取得し、カリフォルニア大学サンタバーバラ校で博士号を取得しました。

Yun Zhao は現在 Meta の研究者であり、機械学習 (ディープラーニングと強化学習を含む)、人工知能、データマイニングの応用に重点を置いています。

彼は以前、清華大学で修士号を取得し、カリフォルニア大学サンタバーバラ校で博士号を取得しました。

<<:  ハイエナが次世代トランスフォーマーになる? StripedHyena-7B オープンソース: 最大 128k の入力、トレーニング速度が 50% 向上

>>:  OpenAIがChatGPTに「ドラゴン退治のテクニック」を直接教える!公式のヒントエンジニアリングガイドはこちら

ブログ    
ブログ    
ブログ    

推薦する

一目でわかるアルゴリズム「配列と連結リスト」

データ構造はソフトウェア開発の最も基本的な部分であり、プログラミングの内部的な強さを反映しています。...

中国で自動運転元年となるのは何年でしょうか? 2021年かも

インテリジェント化は将来の自動車発展の基本的な方向であり、自動運転技術は将来の自動車発展の重要な最先...

第 4 次小売革命を経て、WOT の 3 人の専門家が真のスマート小売とは何かを語ります。

[51CTO.comよりオリジナル記事] 6月21日、WOT2019グローバル人工知能技術サミット...

...

モノのインターネットにおける人工知能の役割

私たちの周りのあらゆるものがどうしてこんなにスマートになったのか、不思議に思ったことはありませんか?...

...

香港大学のチームがエンタングルメントエントロピーを測定する新しいアルゴリズムを開発、量子材料の実用化に一歩近づく

量子材料は人類の進歩を促進する上で重要な役割を果たします。科学技術分野では、特殊な特性を持つ新たな量...

ガンダムの運転をシミュレーションしますか? !優秀な学生が高度にシミュレーションされた運転体験ロボットシステムを発明し、白熱した議論を巻き起こした。

誰もがいつでもザクを操縦できるわけではありませんが、最近、優秀な大学生が「リモートコックピット」と呼...

11人が2ヶ月間集中的にトレーニングし、マスク氏がOpenAIを徹底的に攻撃! xAIの最初の大規模モデルGrokが爆発的に成長、330億のパラメータと月額16ドル

最近では、すべての家族が行動を起こす準備ができています。 OpenAI 開発者会議が近づく中、マスク...

...

2021年に人工知能はどのように発展するのでしょうか? 6つの予測

海外メディアの報道によると、人工知能はここ数年、着実な成長曲線を保っている。しかし、COVID-19...

4つのディープラーニングフレームワークの紹介:初心者はどのように選択すべきか?

[[381945]] 01 テアノTheano は、BSD ライセンスの下でリリースされたオープン...

Pangu-Agentの5つのイノベーション

大規模言語モデル (LLM) の開発と応用により、人工知能の分野で LLM ベースの自律エージェント...

シェア | Meituanのディープラーニングシステムのエンジニアリング実践

背景ディープラーニングは、AI時代の中核技術として、さまざまなシナリオに適用されてきました。システム...