Google Gemini の大きな転換? Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

Google Gemini の大きな転換? Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

Gemini の推論能力は本当に GPT-4 よりも弱いのでしょうか?

以前、Google の大ヒット復讐兵器である Gemini Pro は、常識推論タスクにおいて OpenAI の GPT モデルに遅れをとることが判明しました。

その後、CMU は、Gemini Pro の多くの機能が GPT-3.5 Turbo よりわずかに遅れていることを証明する論文と実験を発表しました

しかし最近、スタンフォード大学とメタ大学の学者らがジェミニのこの「不正」を否定した。

彼らは、限られたデータセット (HellaSWAG) に基づくこの評価では、Gemini の真の常識的推論の可能性を十分に捉えていないことを発見しました。

論文アドレス: https://arxiv.org/abs/2312.17661

新しいテストセットでは、ジェミニの推論能力は以前よりもはるかに強力です。

ジェミニの真の可能性

スタンフォード大学とメタ大学の研究者らは、限られたデータセットに基づくこれまでの評価はジェミニにとって公平ではなかったと述べた。

今回、研究者らは、複雑な推論タスクにおけるジェミニのパフォーマンスを徹底的に評価するために、常識的知識のクロスモーダル統合を必要とするタスクを設計しました。

研究者らは、一般的なタスクからドメイン固有のタスクに至るまで、12 の常識推論データセットの包括的な分析を実施しました。

研究者らは、4 つの LLM 実験と 2 つの MLLM 実験で、ジェミニが現在非常に強力な常識的推論能力を備えていることを実証しました。

研究者たちは、最も人気のある4つのモデル、Llama 2-70b、Gemini Pro、GPT-3.5 Turbo、GPT-4 Turboを評価しました。

全体的に、Gemini Pro のパフォーマンスは GPT-3.5 Pro と同等でしたが、精度では GPT-4 Turbo に遅れをとっていました。

実験

データセット

実験では、11 の言語ベースのデータセットと 1 つのマルチモーダル データセットを含む、さまざまな種類の常識推論に関連する 12 のデータセットが使用されました。

言語ベースのデータセットには、常識推論問題の 3 つのカテゴリが含まれています。

1. 一般推論と文脈推論: 一般的な常識知識に焦点を当てた CommonsenseQA、物語の文脈的理解を重視する Cosmos QA、最も合理的な説明を推論するなどの演繹的推論を導入した αNLI、文脈的イベントシーケンスに関する推論に焦点を当てた HellaSWAG。

2. 専門的および知識に基づく推論: TRAM は時間に関する推論力をテストします。NumerSense は数値理解に焦点を当てます。PIQA は物理的な相互作用に関する知識を評価します。QASC は科学関連の推論を扱います。RiddleSense はなぞなぞを通じて創造的思考力を試します。

3. 社会的および道徳的推論: 社会的 IQa は、社会的相互作用の理解をテストします。倫理は、道徳的および倫理的推論を評価します。

マルチモーダル データセット (視覚と言語) については、認知レベルの視覚理解のための大規模データセットである VCR を選択します。

複数のタスクを含む TRAM や ETHICS などのデータセットの場合、研究者は実験の常識的推論の部分を抽出しました。

精度は、実験におけるすべてのデータセットのパフォーマンス メトリックとして使用されます。次の表は、データセットの概要と質問の例を示しています。

モデル

最も人気のある 4 つの大規模モデルが使用されます: オープン ソースの Llama-2-70b-chat とクローズド ソースの Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。

各モデルには、対応する API キーを使用してアクセスします。Gemini には Google Vertex AI 経由で、GPT には OpenAI API 経由で、Llama2 には DeepInfra 経由でアクセスします。

マルチモーダル データセットの場合、実験では GPT-4V (API では gpt-4-vision-preview) と Gemini Pro Vision (API では gemini-pro-vision) が考慮されます。

研究者は、API コストとレートの制約を考慮して、各言語ベースのデータセットの検証セットから 200 個の例と、VCR データセットの検証セットから 50 個の例をランダムに選択しました。

すべての評価において、モデル応答生成中に貪欲デコード(つまり、温度 = 0)が採用されました。

ヒント

言語ベースのデータセットを評価する際に、研究者らは 2 つのプロンプト設定を採用しました。言語設定におけるモデルの固有の常識能力を測定することを目的としたゼロショット標準プロンプト (SP) と、モデルのパフォーマンスの潜在的な向上を観察するために使用される数ショットの Chain of Thoughts (CoT) プロンプトです。

マルチモーダル データセットの場合、ゼロショット標準キューを使用して、MLLM のエンドツーエンドの視覚的常識推論能力を評価します。

結果

全体的なパフォーマンス比較の結果は次の表に示されています。

モデルの観点から見ると、GPT-4 Turbo は平均パフォーマンスが最も優れています。ゼロショット学習では2位のGemini Proよりも7.3%高く、少数ショット学習ではその優位性はさらに大きくなっています(9.0%)。

Gemini Pro の平均精度は GPT-3.5 Turbo よりもわずかに高くなっています (0 ショット、SP では 1.3% 高く、k ショット、CoT では 1.5% 高くなります)。

ヒント手法に関しては、CoT はすべてのデータセットのパフォーマンスを向上させ、CommonsenseQA、TRAM、および Social IQa データセットでは明らかな向上が見られます。

次の表は、マルチモーダル VCR データセットのパフォーマンスを比較したものです。

VCR の 3 つのサブタスクは、Q → A (視覚的なコンテキストに基づいて質問に対する回答を生成する)、QA → R (モデルが特定の回答の根拠を提供することを要求する)、Q → AR (質問に答え、適切な理由で回答を正当化することを要求する) です。

11 の言語ベースのデータセットは 3 つのグループに分かれており、各グループの各設定のパフォーマンスを図 1 に示します。

結果は、GPT-4 Turbo がすべてのカテゴリで一貫してパフォーマンスをリードしていることを示しています。

Gemini Pro と GPT-3.5 Turbo のパフォーマンスは同等ですが、3 つのカテゴリのうち 2 つでは Gemini Pro が GPT-3.5 Turbo をわずかに上回っています。

全体的に、すべてのモデルは社会的および道徳的推論データセットに対して強力な機能を示しています。

しかし、一般的な推論タスクと文脈上の推論タスクのパフォーマンスには大きな違いがあります。

また、より広範な常識的な原則の理解と、さまざまな状況でのその原則の適用には潜在的なギャップがあることも示唆しています。

専門的および知識的推論のカテゴリー、特に時間とパズルベースの課題の分野では、モデルは複雑な時系列を処理し、パズルを解読するために必要な抽象的および創造的思考能力に欠陥があることを示しました。

マルチモーダル データセットに関しては、図 2 にさまざまな問題タイプにおける GPT-4V と GeminiPro Vision のパフォーマンス比較の詳細を示します。

時間カテゴリに関する最後の質問では、GeminiPro Vision が競合製品を上回っていることがわかります。

MLLMの理由

MLLM の推論能力、特に常識的な質問に対して正しい回答だけでなく妥当かつ文脈に基づいた推論を提供する能力を評価するために、体系的なサンプリング手法が使用されました。

4 つの LLM を評価するために使用された 11 の言語ベースのデータセットについて、研究者は正解した質問 30 件と不正解した質問 30 件をランダムに選択しました。

データ セットで誤った回答が 30 件未満の場合、研究者は分析の包括性を保証するために、入手可能なすべての誤った回答を含めました。

これらの質問を選択した後、各モデルに「質問に対する回答の根拠は何ですか?」と説明を求めました。その後、モデルによって提供された推論は手動で検査され、その論理的妥当性と質問との関連性に基づいて真偽が評価されました。

図 3 は、GPT-4 Turbo が正解と不正解の両方に対して高度な推論メカニズムを示し、最終的な答えが不正確であっても論理的な一貫性を維持する能力があることを示しています。

さらに、Gemini Pro は優れた推論能力も実証し、包括的な常識的な推論アプローチを提供しました。

下の図は、Gemini Pro と GPT-3.5 からの 2 つの実際の例を示しており、正解と正しい理由、および不正解と不正解の理由を示しています。

サンプル問題は QASC データセットからのもので、正解は太字の赤で示されています。上の画像では、Gemini Pro がすべてのオプションを慎重に検討して最も論理的な結論に到達する、系統的な推論を示しています。

代わりに、GPT-3.5 Turbo の型破りなロジックの傾向により、想像力に富んではいるものの間違った答えが導き出されました。

これは、異なるモデルが常識推論タスクに対処するための異なる戦略を持ち、独自の機能と制限を持っていることを示しています。

Gemini Proの常識推論機能

常識的なQA

CommonsenseQA データセットを使用した一般知識評価には、「あなたが見知らぬ人である場合、人々はどうしますか?」という質問の例があります。

A. 電車 B. 奇妙 C. 人間 D. 愚か E. 危険

Gemini ProはBを選択しました。

その理由付けも注目に値します。選択肢はすべて「見知らぬ人」という概念に関連していますが、「見知らぬ人」だけが質問の中立的で自由回答的な性質を正確に捉えていることを認識しています。

この選択は、一般的な常識的な知識を解釈して適用する Gemini Pro の能力を強調します。

時間(TRAM)

TRAM データセットの Temporal Common Sense Evaluation からの質問例: 「彼はまた、彼を探しに来ると約束しました。」

彼が「彼のもとに来る」までにはどれくらいの時間がかかりますか?

A. 100年 B. 1分以内 C. 数時間

特に関係者の身元や「来る」ことの意味に関して十分な背景情報がなかったため、Gemini Pro は明確な回答を提供できませんでした。

これは、モデルが正確な時間判断を行うために特定のコンテキスト情報に依存する必要があることを示しています。

現実世界の情報伝達においては、曖昧または不完全な情報がそのような制限を引き起こす可能性もあります。

ソーシャル(ソーシャルIQa)

Social IQa データセットを使用して GeminiPro の社会的常識推論のパフォーマンスを評価したとき、興味深いシナリオが浮かび上がりました。人々が Sasha をいじめていて、Sasha が報復した場合、人々は次に何をするでしょうか?

A. サーシャの言うとおりにする B. 復讐する C. サーシャから逃げる

正解は C ですが、Gemini Pro の選択は洞察に富んでいるようです。

同委員会は、サーシャの行動が人々の復讐心を刺激する可能性が高いとして、Bを選択した。

この応答は、Gemini Pro が社会のダイナミクスと感情的な動機を微妙に理解していることを示しています。

映像(VCR)

研究者らは、VCR データセットで、個人の安全と潜在的な危険を伴うシナリオに対する Gemini Pro Vision の反応を分析しました。

このとき4番が3番を押すとどうなるでしょうか?

ジェミニ・プロ・ビジョンはこう答えた。「3号は崖から落ちて命の危険にさらされるだろう。」

この結果は、Gemini Pro Vision がすでに視覚的な常識的推論を実行し、視覚的なシーンを分析し、それらのシーンでの行動の潜在的な結果を予測できることを示しています。

これは、モデルが空間的な関係と物理的な結果を把握し、人間の認知と同様に複雑な視覚情報を処理する能力を持っていることを示唆しています。

著者について

Yuqing Wangは現在、スタンフォード大学の博士研究員です。

彼女は以前、ミネソタ大学で学士号を取得し、カリフォルニア大学サンタバーバラ校で博士号を取得しました。

Yun Zhao は現在 Meta の研究者であり、機械学習 (ディープラーニングと強化学習を含む)、人工知能、データマイニングの応用に重点を置いています。

彼は以前、清華大学で修士号を取得し、カリフォルニア大学サンタバーバラ校で博士号を取得しました。

<<:  ハイエナが次世代トランスフォーマーになる? StripedHyena-7B オープンソース: 最大 128k の入力、トレーニング速度が 50% 向上

>>:  OpenAIがChatGPTに「ドラゴン退治のテクニック」を直接教える!公式のヒントエンジニアリングガイドはこちら

ブログ    

推薦する

2018 年のベスト 6 無料オンライン人工知能コース!

人工知能 (AI)、自動化、認知システムを取り巻く原則と実践は、ビジネス分野、専門知識、専門分野に関...

GPT 1周年深夜の雑談: プログラミングなしで誰もが GPT を定義できる時代が到来!

執筆者 | Yun Zhao制作:51CTO テクノロジースタック(WeChat ID:blog)深...

音声認識にPythonを使用する方法を教えます

[[282998]]オンラインでいくつかの例を見つけましたが、音声をテキストに変換できる成熟したモデ...

ディープラーニングにも欠陥があり、同質のAIスタートアップ間の競争は熾烈になるだろう

[[186262]]この人工知能の波は急速に到来し、画像認識、音声認識、自動運転など、多くの難題を次...

2年後には「ロボット」が人間の活動の80%以上をこなすようになるのでしょうか? AIに関する専門家の見解を聞く

写真:人工知能カンファレンスフォーラム 撮影:新民晩報主任記者 劉欣 「私は生産性を変革し、新しい...

AI+不動産は10年後どうなるでしょうか?

[[274313]] [51CTO.com クイック翻訳] 周知のとおり、人工知能は継続的に発展し...

ビッグデータと人工知能 - 機械的思考から統計的思考へ

今日は、ビッグデータ、人工知能、認知問題の解決の関係ロジックについて話す記事を書こうと思います。した...

2023年のGenAI技術応用動向の観察

生成型人工知能 (GenAI) は技術革新の最前線にあり、さまざまな業界の変革と発展に新たな可能性を...

...

7nmプロセス限界を突破した世界初の3DウェーハレベルパッケージングプロセッサIPUがリリース

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AI、ゼロトラスト、エッジの近代化、マルチクラウド: 2024年に注目すべき技術トレンド

実際、ChatGPTによって引き起こされたこの新しいAIの波では、世界的なテクノロジー大手、AIメー...

心理測定?犯罪の予感? AIは京都の痛みを軽減できるか?

[[271752]]画像出典: Qilu.com一つの火、二本の涙。 7月18日午前10時半頃(現...

AIの冷却:ディープラーニングは万能薬ではない

[[202706]]近年、ディープラーニングはある程度の流行状態に入り、人々はこの技術を使ってあらゆ...

SAP の AI グローバル責任者、ウォルター・サン博士: ビジネスで AI を最大限に活用する

テクノロジーは私たちの世界を変えました。それは何十億もの人々に考え、アイデア、洞察を共有する機会を与...

...