Google Gemini の大きな転換？ Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

Gemini の推論能力は本当に GPT-4 よりも弱いのでしょうか?

以前、Google の大ヒット復讐兵器である Gemini Pro は、常識推論タスクにおいて OpenAI の GPT モデルに遅れをとることが判明しました。

その後、CMU は、Gemini Pro の多くの機能が GPT-3.5 Turbo よりわずかに遅れていることを証明する論文と実験を発表しました。

しかし最近、スタンフォード大学とメタ大学の学者らがジェミニのこの「不正」を否定した。

彼らは、限られたデータセット (HellaSWAG) に基づくこの評価では、Gemini の真の常識的推論の可能性を十分に捉えていないことを発見しました。

論文アドレス: https://arxiv.org/abs/2312.17661

新しいテストセットでは、ジェミニの推論能力は以前よりもはるかに強力です。

ジェミニの真の可能性

スタンフォード大学とメタ大学の研究者らは、限られたデータセットに基づくこれまでの評価はジェミニにとって公平ではなかったと述べた。

今回、研究者らは、複雑な推論タスクにおけるジェミニのパフォーマンスを徹底的に評価するために、常識的知識のクロスモーダル統合を必要とするタスクを設計しました。

研究者らは、一般的なタスクからドメイン固有のタスクに至るまで、12 の常識推論データセットの包括的な分析を実施しました。

研究者らは、4 つの LLM 実験と 2 つの MLLM 実験で、ジェミニが現在非常に強力な常識的推論能力を備えていることを実証しました。

研究者たちは、最も人気のある4つのモデル、Llama 2-70b、Gemini Pro、GPT-3.5 Turbo、GPT-4 Turboを評価しました。

全体的に、Gemini Pro のパフォーマンスは GPT-3.5 Pro と同等でしたが、精度では GPT-4 Turbo に遅れをとっていました。

実験

データセット

実験では、11 の言語ベースのデータセットと 1 つのマルチモーダルデータセットを含む、さまざまな種類の常識推論に関連する 12 のデータセットが使用されました。

言語ベースのデータセットには、常識推論問題の 3 つのカテゴリが含まれています。

1. 一般推論と文脈推論: 一般的な常識知識に焦点を当てた CommonsenseQA、物語の文脈的理解を重視する Cosmos QA、最も合理的な説明を推論するなどの演繹的推論を導入した αNLI、文脈的イベントシーケンスに関する推論に焦点を当てた HellaSWAG。

2. 専門的および知識に基づく推論: TRAM は時間に関する推論力をテストします。NumerSense は数値理解に焦点を当てます。PIQA は物理的な相互作用に関する知識を評価します。QASC は科学関連の推論を扱います。RiddleSense はなぞなぞを通じて創造的思考力を試します。

3. 社会的および道徳的推論: 社会的 IQa は、社会的相互作用の理解をテストします。倫理は、道徳的および倫理的推論を評価します。

マルチモーダルデータセット (視覚と言語) については、認知レベルの視覚理解のための大規模データセットである VCR を選択します。

複数のタスクを含む TRAM や ETHICS などのデータセットの場合、研究者は実験の常識的推論の部分を抽出しました。

精度は、実験におけるすべてのデータセットのパフォーマンスメトリックとして使用されます。次の表は、データセットの概要と質問の例を示しています。

モデル

最も人気のある 4 つの大規模モデルが使用されます: オープンソースの Llama-2-70b-chat とクローズドソースの Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。

各モデルには、対応する API キーを使用してアクセスします。Gemini には Google Vertex AI 経由で、GPT には OpenAI API 経由で、Llama2 には DeepInfra 経由でアクセスします。

マルチモーダルデータセットの場合、実験では GPT-4V (API では gpt-4-vision-preview) と Gemini Pro Vision (API では gemini-pro-vision) が考慮されます。

研究者は、API コストとレートの制約を考慮して、各言語ベースのデータセットの検証セットから 200 個の例と、VCR データセットの検証セットから 50 個の例をランダムに選択しました。

すべての評価において、モデル応答生成中に貪欲デコード（つまり、温度 = 0）が採用されました。

ヒント

言語ベースのデータセットを評価する際に、研究者らは 2 つのプロンプト設定を採用しました。言語設定におけるモデルの固有の常識能力を測定することを目的としたゼロショット標準プロンプト (SP) と、モデルのパフォーマンスの潜在的な向上を観察するために使用される数ショットの Chain of Thoughts (CoT) プロンプトです。

マルチモーダルデータセットの場合、ゼロショット標準キューを使用して、MLLM のエンドツーエンドの視覚的常識推論能力を評価します。

結果

全体的なパフォーマンス比較の結果は次の表に示されています。

モデルの観点から見ると、GPT-4 Turbo は平均パフォーマンスが最も優れています。ゼロショット学習では2位のGemini Proよりも7.3%高く、少数ショット学習ではその優位性はさらに大きくなっています(9.0%)。

Gemini Pro の平均精度は GPT-3.5 Turbo よりもわずかに高くなっています (0 ショット、SP では 1.3% 高く、k ショット、CoT では 1.5% 高くなります)。

ヒント手法に関しては、CoT はすべてのデータセットのパフォーマンスを向上させ、CommonsenseQA、TRAM、および Social IQa データセットでは明らかな向上が見られます。

次の表は、マルチモーダル VCR データセットのパフォーマンスを比較したものです。

VCR の 3 つのサブタスクは、Q → A (視覚的なコンテキストに基づいて質問に対する回答を生成する)、QA → R (モデルが特定の回答の根拠を提供することを要求する)、Q → AR (質問に答え、適切な理由で回答を正当化することを要求する) です。

11 の言語ベースのデータセットは 3 つのグループに分かれており、各グループの各設定のパフォーマンスを図 1 に示します。

結果は、GPT-4 Turbo がすべてのカテゴリで一貫してパフォーマンスをリードしていることを示しています。

Gemini Pro と GPT-3.5 Turbo のパフォーマンスは同等ですが、3 つのカテゴリのうち 2 つでは Gemini Pro が GPT-3.5 Turbo をわずかに上回っています。

全体的に、すべてのモデルは社会的および道徳的推論データセットに対して強力な機能を示しています。

しかし、一般的な推論タスクと文脈上の推論タスクのパフォーマンスには大きな違いがあります。

また、より広範な常識的な原則の理解と、さまざまな状況でのその原則の適用には潜在的なギャップがあることも示唆しています。

専門的および知識的推論のカテゴリー、特に時間とパズルベースの課題の分野では、モデルは複雑な時系列を処理し、パズルを解読するために必要な抽象的および創造的思考能力に欠陥があることを示しました。

マルチモーダルデータセットに関しては、図 2 にさまざまな問題タイプにおける GPT-4V と GeminiPro Vision のパフォーマンス比較の詳細を示します。

時間カテゴリに関する最後の質問では、GeminiPro Vision が競合製品を上回っていることがわかります。

MLLMの理由

MLLM の推論能力、特に常識的な質問に対して正しい回答だけでなく妥当かつ文脈に基づいた推論を提供する能力を評価するために、体系的なサンプリング手法が使用されました。

4 つの LLM を評価するために使用された 11 の言語ベースのデータセットについて、研究者は正解した質問 30 件と不正解した質問 30 件をランダムに選択しました。

データセットで誤った回答が 30 件未満の場合、研究者は分析の包括性を保証するために、入手可能なすべての誤った回答を含めました。

これらの質問を選択した後、各モデルに「質問に対する回答の根拠は何ですか?」と説明を求めました。その後、モデルによって提供された推論は手動で検査され、その論理的妥当性と質問との関連性に基づいて真偽が評価されました。

図 3 は、GPT-4 Turbo が正解と不正解の両方に対して高度な推論メカニズムを示し、最終的な答えが不正確であっても論理的な一貫性を維持する能力があることを示しています。

さらに、Gemini Pro は優れた推論能力も実証し、包括的な常識的な推論アプローチを提供しました。

下の図は、Gemini Pro と GPT-3.5 からの 2 つの実際の例を示しており、正解と正しい理由、および不正解と不正解の理由を示しています。

サンプル問題は QASC データセットからのもので、正解は太字の赤で示されています。上の画像では、Gemini Pro がすべてのオプションを慎重に検討して最も論理的な結論に到達する、系統的な推論を示しています。

代わりに、GPT-3.5 Turbo の型破りなロジックの傾向により、想像力に富んではいるものの間違った答えが導き出されました。

これは、異なるモデルが常識推論タスクに対処するための異なる戦略を持ち、独自の機能と制限を持っていることを示しています。

Gemini Proの常識推論機能

常識的なQA

CommonsenseQA データセットを使用した一般知識評価には、「あなたが見知らぬ人である場合、人々はどうしますか？」という質問の例があります。

A. 電車 B. 奇妙 C. 人間 D. 愚か E. 危険

Gemini ProはBを選択しました。

その理由付けも注目に値します。選択肢はすべて「見知らぬ人」という概念に関連していますが、「見知らぬ人」だけが質問の中立的で自由回答的な性質を正確に捉えていることを認識しています。

この選択は、一般的な常識的な知識を解釈して適用する Gemini Pro の能力を強調します。

時間（TRAM）

TRAM データセットの Temporal Common Sense Evaluation からの質問例: 「彼はまた、彼を探しに来ると約束しました。」

彼が「彼のもとに来る」までにはどれくらいの時間がかかりますか？

A. 100年 B. 1分以内 C. 数時間

特に関係者の身元や「来る」ことの意味に関して十分な背景情報がなかったため、Gemini Pro は明確な回答を提供できませんでした。

これは、モデルが正確な時間判断を行うために特定のコンテキスト情報に依存する必要があることを示しています。

現実世界の情報伝達においては、曖昧または不完全な情報がそのような制限を引き起こす可能性もあります。

ソーシャル（ソーシャルIQa）

Social IQa データセットを使用して GeminiPro の社会的常識推論のパフォーマンスを評価したとき、興味深いシナリオが浮かび上がりました。人々が Sasha をいじめていて、Sasha が報復した場合、人々は次に何をするでしょうか?

A. サーシャの言うとおりにする B. 復讐する C. サーシャから逃げる

正解は C ですが、Gemini Pro の選択は洞察に富んでいるようです。

同委員会は、サーシャの行動が人々の復讐心を刺激する可能性が高いとして、Bを選択した。

この応答は、Gemini Pro が社会のダイナミクスと感情的な動機を微妙に理解していることを示しています。

映像（VCR）

研究者らは、VCR データセットで、個人の安全と潜在的な危険を伴うシナリオに対する Gemini Pro Vision の反応を分析しました。

このとき4番が3番を押すとどうなるでしょうか？

ジェミニ・プロ・ビジョンはこう答えた。「3号は崖から落ちて命の危険にさらされるだろう。」

この結果は、Gemini Pro Vision がすでに視覚的な常識的推論を実行し、視覚的なシーンを分析し、それらのシーンでの行動の潜在的な結果を予測できることを示しています。

これは、モデルが空間的な関係と物理的な結果を把握し、人間の認知と同様に複雑な視覚情報を処理する能力を持っていることを示唆しています。

著者について

Yuqing Wangは現在、スタンフォード大学の博士研究員です。

彼女は以前、ミネソタ大学で学士号を取得し、カリフォルニア大学サンタバーバラ校で博士号を取得しました。

Yun Zhao は現在 Meta の研究者であり、機械学習 (ディープラーニングと強化学習を含む)、人工知能、データマイニングの応用に重点を置いています。

彼は以前、清華大学で修士号を取得し、カリフォルニア大学サンタバーバラ校で博士号を取得しました。

<<: ハイエナが次世代トランスフォーマーになる？ StripedHyena-7B オープンソース: 最大 128k の入力、トレーニング速度が 50% 向上

>>: OpenAIがChatGPTに「ドラゴン退治のテクニック」を直接教える！公式のヒントエンジニアリングガイドはこちら

Google Gemini の大きな転換？ Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

ジェミニの真の可能性

実験

データセット

モデル

ヒント

結果

MLLMの理由

Gemini Proの常識推論機能

常識的なQA

時間（TRAM）

ソーシャル（ソーシャルIQa）

映像（VCR）

著者について

百度、中国初の「工業用」医療用モデル「霊益大モデル」を発売

老子のアルゴリズム思想の分析

マイクロソフトの新特許公開：機械学習で「赤面」するリアルなアバターを作成

プログラマーが夜遅くにPythonでニューラルネットワークを実行し、中学生のようにデスクランプを消す

単一のGPUで毎秒30フレームの4Kを実現し、リアルタイムのビデオカットアウトとアップグレードにより髪の毛のディテールを完全に再現します。

PaddlePaddle パノラマビューが初めて公開され、11 の新機能とサービスハードコアリリース

今後 10 年間であなたの仕事は人工知能に置き換えられるでしょうか?

推薦する

AI、ブロックチェーン、ロボット：テクノロジーは仕事の未来をどのように変えるのでしょうか？

CVとNLPにおける対照学習の研究の進展

2021 年の機械学習の 6 つのトレンド

清華大学の唐潔氏のチームは、ダル・イーよりも優れた成果を挙げた「中国のAIデザイナー」を作成した。

機械学習モデルのトレーニングの全プロセス！

ビッグデータの時代では、ソフトウェアエンジニアは徐々に減少し、アルゴリズムエンジニアが増加しています。

Rosetta はプライバシーコンピューティングと AI をどのように結び付けるのでしょうか?

「三銃士」グループは、鉱業の諜報活動への発展を促進するためにデビューしました

AIが自動化に適した日常的なITタスク3つ

エッジコンピューティング時代の到来は AI にどのような影響を与えるのでしょうか?

Google が 17 分野を網羅し 18,000 の注釈を付した大規模な対話コーパスを公開

「MLOps」の考え方を取り入れるためのベストプラクティス