Gemini と GPT-4V のどちらが優れていますか?視覚言語モデルの総合的な比較と併用

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

まとめ

みなさんこんにちは。私は現在香港大学で学んでいる Qi Zhangyang です。今日は、視覚言語モデルに関する最新の研究を皆さんと共有したいと思います。この論文では、2 つの SOTA モデル、Google の Gemini と OpenAI の GPT-4V(ision) の詳細な定性比較研究を提供します。私たちの研究では、視覚言語能力、人間との相互作用、時間理解、知的および感情的知能などの主要な側面について、両方のモデルを多面的に評価しました。完全な例と論文は、Arxiv Paper (115 ページ) で入手できます。

論文リンク: https://arxiv.org/abs/2312.15011

Geminiのユニークな入力モード

私たちの目標は、Gemini の入力モデルを明らかにすることです。 GPT-4V の入力モードは、コンテキストとして複数の画像を継続的に取り込むことをサポートし、メモリ機能が強化されています。ただし、ジェミニの場合、そのユニークな特性は次の側面に反映されています。

単一画像入力。 Gemini では一度に 1 つの画像しか入力できません。さらに、スタンドアロンの画像を処理することはできず、代わりに付随するテキストの説明が必要です。
メモリ容量が限られています。 GPT-4V とは異なり、Gemini の複数のモジュールには、過去の画像入力と出力のメモリを保持する機能がありません。したがって、複数の画像を処理する場合、私たちの方法ではすべての画像を 1 つの画像入力に結合する必要があります。明示的に指定されない限り、この包括的な入力モードが使用されます。
機密情報のシールド。ジェミニは、露骨な顔や医療情報を含む画像を処理する際に、認識できない程度まで画像をぼかしました。これにより、一般化能力がある程度制限される可能性があります。
画像とリンクの出力。テキスト出力しか生成できない GPT-4V とは異なり、Gemini はコンテンツに関連する画像を作成し、対応するリンクを提供する機能を備えています。これにより、検索エンジンの機能と同様に、より高度な関連付けが作成されます。
ビデオの入力と理解。 Gemini はビデオを理解する能力を示しており、ビデオ入力として YouTube リンクを必要とします。正確な字幕ファイルが付属するビデオを効果的に処理できることに注意することが重要です。ただし、単一の、単純な、情報量の少ないビデオを扱う場合、その理解能力は限られる可能性があります。

コンテンツ

5つの側面からの比較:

セクション 1 から 2 では、マルチモーダル評価を 5 つの側面に分類します。最初のレベルでは、画像とその中のテキストの基本的な認識が含まれます。 2 番目のレベルは認識を超えており、さらなる推論と推測が必要です。 3 番目のレベルには、複数の画像を含むマルチモーダル理解と推論が含まれます。

セクション: 画像の認識と理解。これには、さらなる推論なしで画像コンテンツの基本的な認識と理解が含まれ、ランドマーク、食べ物、ロゴ、抽象的な画像、自動運転シナリオの認識、誤った情報の検出、違いの発見、オブジェクトのカウントなどのタスクが含まれます。
セクション: 画像内のテキストの認識と理解。シーンテキスト、数式、グラフや表のテキスト認識など、画像内のテキスト認識 (OCR を含む) に重点を置いています。ここでも、テキストの内容についてはこれ以上推測しません。
セクション: 画像推論機能。この部分では、基本的な画像認識を超えて、より高度な推論が行われます。これには、ユーモアや科学的概念の理解のほか、探偵の仕事、画像の組み合わせ、知能テストでのパターンの発見、感情の理解と表現などの論理的推論スキルが含まれます。
セクション: 画像内のテキスト推論。テキスト認識を基盤として、数学的な問題の解決、図表情報の推論、論文、レポート、グラフィックデザインなどのドキュメントの理解など、テキスト認識を超えたさらなる推論が含まれます。
セクション: 画像とテキストの統合的な理解。画像とテキストに関する総合的な理解力と推論能力を評価します。たとえば、タスクはスーパーマーケットのカートから商品を選ぶことから、画像生成のガイドと修正まで多岐にわたります。

3つの専門的なタスク:

セクション 1 から 2 では、オブジェクトの位置特定、時間理解、多言語理解という 3 つの特殊なタスクのパフォーマンスを評価します。

セクション: オブジェクトのローカリゼーション。オブジェクトの配置機能を重視するには、モデルで指定されたオブジェクトの相対座標を提供する必要があります。これには、駐車場の車などの屋外の物体に焦点を合わせたり、抽象的な画像をローカライズしたりすることが含まれます。
セクション: 時間的ビデオ理解。キーフレームを通じてモデルの時間的理解を評価します。この部分には 2 つのタスクが含まれます。1 つはビデオシーケンスの理解に関するもので、もう 1 つはキーフレームの順序付けに焦点を当てたものです。
セクション: 多言語主義。複数の言語でコンテンツを認識、理解、作成する能力を総合的に評価します。これには、画像内の英語以外のコンテンツを識別し、情報を他の言語で提示する機能が含まれます。

業界アプリケーション:

第 2 章では、マルチモーダル大規模モデルのさまざまな応用シナリオを紹介します。私たちは業界にさらなる可能性を示し、革新的なアイデアを提供することを目指しています。マルチモーダル大規模モデルは、特定のドメインのニーズに合わせてカスタマイズできます。ここでは、7 つのサブ領域を紹介します。

セクション: アプリケーション: 欠陥検出。このタスクには、繊維、金属部品、医薬品などの産業用組立ライン上の製品の欠陥を検出することが含まれます。
セクション: アプリケーション: 食料品のチェックアウト。これは、ショッピングカート内のすべての商品を識別してチェックアウトするように設計されたスーパーマーケットの自動チェックアウトシステムを指します。目標は、ショッピングカート内のすべてのアイテムを完全に識別することです。
セクション: アプリケーション: 自動車保険。このタスクには、自動車事故による損害の程度を評価し、おおよその修理費用を提示するとともに、修理の推奨を行うことが含まれます。
セクション: アプリケーション: カスタム字幕ジェネレーター。目標は、条件とヒントとして事前にオブジェクト名を提供することで、シーン内のさまざまなオブジェクトの相対的な位置を識別することです。
セクション: アプリケーション: 画像生成の評価。これには、生成された画像と指定されたテキストプロンプト間の一貫性を評価し、生成されたモデルの品質を評価することが含まれます。
セクション: アプリケーション: 具現化されたインテリジェントエージェント。このアプリケーションでは、特定のスマートおよびインテリジェントホームシステムにモデルを展開して、屋内シナリオでの思考と意思決定を実現します。
セクション: アプリケーション: ナビゲーション。このタスクは、ユーザーが PC/モバイル GUI インターフェイスをナビゲートできるようにガイドし、情報の受信、オンライン検索、ショッピングのタスクを支援することに重点を置いています。

デモ

セクション2: 画像の認識と理解

ランドマーク、食べ物、ロゴ、抽象的な画像、自動運転シナリオの認識、誤った情報の検出、違いの発見、オブジェクトのカウントなどのタスクを含む、さらなる推論なしで画像コンテンツを基本的に認識および理解します。最初のレベルの最も基本的なタスクに属します。全部で9つのセクションがあります。

2.1 基本オブジェクトの識別

これは、モデルの基本的なオブジェクト認識および記述機能をテストするためです。 GPT-4V と Gemini はどちらも、基本的なオブジェクトを正確に識別し、必要に応じてテキストの説明を提供することができ、大きな違いはありませんでした。

2.2 景勝地の認定

どちらのモデルもランドマークを正確に識別することに優れていますが、GPT-4V は簡潔な説明を生成するのに対し、Gemini は観光名所や屋内でもより詳細な説明を提供する傾向があります。該当の観光スポットの他の写真や関連情報リンクも提供されています。

2.3 食品の識別

どちらのモデルも、食材、付け合わせ、調理法など、料理の画像の詳細を認識する能力を拡張し、多種多様な料理を認識する能力を実証しました。結論は基本的に景勝地の場合と同じです。

2.4 ロゴの認識

どちらのモデルもロゴを正常に認識し、デザイン、色、形状、象徴的な表現のさまざまな側面を捉えて包括的な説明を提供しました。

2.5 抽象画像認識

GPT-4V は合理的な応答を提供しましたが、Gemini はそれほど論理的ではないと思われる応答を提供しました。双子座はタングラムパズルのような抽象的な画像を認識する能力が比較的欠けています。これは、すべてのグラフ入力が連結されているためである可能性があります。

2.6 屋外シーンの理解（自動運転）

どちらのモデルも、シーンの自動運転とオブジェクトの詳細な説明を提供することに優れています。最初の例では、Gemini の説明に小さなエラーが見られます。

2.7 反事実的例（捏造されたオブジェクト）

これは、画像が与えられたことを意味します。テキストプロンプトは、モデルに画像内に存在しないオブジェクトを見つけるように要求します。どちらのモデルも、画像に表示されているシーンやオブジェクトの事実に基づいた説明を提供できることがわかりました。

2.8 物体カウント能力

課題は、写真に写っている果物の数を数えることです。どちらのモデルもカウントに関しては改善の余地があります。 GPT-4Vと比較すると、Geminiのカウント能力は比較的弱いです。 Gemini のマルチモーダルメモリ性能が比較的弱いため、正しい答えに導くことができませんでした。

2.9 さまざまな能力を見つける

ここに、違いを見つけることができる 2 枚の写真があります。 GPT-4V と Gemini はどちらも、違いを見つける際に一定の制限があります。 GPT-4V は差異を見つける能力が高く、より正確です。

セクション3: 画像内のテキスト認識と理解

シーンテキスト、数式、グラフや表のテキスト認識など、画像内のテキスト認識 (OCR を含む) に重点を置いています。ここでも、テキストの内容についてはこれ以上推測しません。最初のレベルの最も基本的なタスクに属します。全部で9つのセクションがあります。

3.1 シーンテキスト認識

ここでは、株式市場の取引ボードや屋外の店舗看板などのシーンからテキストとデジタル情報を抽出します。どちらのモデルも、多くの複雑なコンテキストでシーンテキストを認識する能力を実証しています。

3.2 数式認識

ここでは、画像の数式を Latex 形式に変換しています。GPT-4V と Gemini はどちらも数式認識機能が不足していることがわかりました。数式が複雑になると、数式を正確に読み取ることが不可能になります。

3.3 チャート情報の認識

ここで説明するのは、テーブル画像のテキスト認識と抽出です。全体的に、GPT-4V は Gemini Pro ほど機能的ではありません。

セクション4: 画像推論機能

この部分では、基本的な画像認識を超えて、より高度な推論が行われます。これには、ユーモアや科学的概念の理解のほか、探偵の仕事、画像の組み合わせ、知能テストでのパターンの発見、感情の理解と表現などの論理的推論スキルが含まれます。これは第 2 レベルに属し、基本的な認識に加えて、さらなる推論が必要であることを意味します。全部で6つのセクションがあります。

4.1 面白い情報（ミーム）を理解する

ユーモラスな絵の理解において。 GPT-4V と Gemini はどちらも、ミームに埋め込まれたユーモアを理解する十分な能力を示しています。

4.2 科学的知識の理解

GPT-4V と Gemini はどちらも科学的な常識を理解し、質問に答えるために必要な情報を収集することができます。最初の例では、Gemini の説明が省略されています。

4.3 探偵による身元確認

ここでの課題は、家の写真からその家の所有者の性格を推測することです。 GPT-4V と Gemini はどちらも常識に基づいて画像を非常にうまく推測できます。

4.4 画像合成機能

頭や体をバッグで飾っている人です。 GPT-4V と Gemini はどちらも、これら 3 つの部分を合理的な方法で組み合わせる方法を知っています。もちろん、ここで GPT-4V は、3 つのサブイメージが 1 つのイメージに結合される順序を示し、より満足のいく回答を提供します。

4.5 IQテスト（公務員試験：パターン発見）

ジェミニは、ウェクスラー成人知能検査（WAIS）のパターン発見問題で成績が悪かった。これは、複数の画像を認識および比較する能力が限られている可能性があることを示唆しています。

4.6 EQテスト（感情理解と出力）

絵に表現された感情について。 GPT-4V と Gemini はどちらも、さまざまな視覚コンテンツが人間の感情をどのように呼び起こすかを理解しています。

セクション 5: 画像内のテキスト推論

5.1 数学の問題を解く

簡単な数学の問題であれば、GPT-4V と Gemini はどちらも正確な答えを出すことができます。

5.2 アイコンの理解

ここでフローチャートの理解を示します。この例では、両方のモデルでフローチャートを Python コードに変換できます。

5.3 文書理解

ここに示すのはアパートのフロアプランです。ここでは両方のモデルが正確な答えを提供します。しかし、ジェミニの答えはより完全で体系的です。

第6章画像とテキストの統合的理解

この部分では、基本的な画像認識を超えて、より高度な推論が行われます。これには、ユーモアや科学的概念の理解のほか、探偵の仕事、画像の組み合わせ、知能テストでのパターンの発見、感情の理解と表現などの論理的推論スキルが含まれます。これは、絵と文章の総合的な理解の第 3 レベルに属します。全部で2つのセクションがあります。

6.1 インターリーブ画像とテキスト入力

この画像では、複数の請求書を入力し、それにかかる税金を計算します。 GPT-4V は正確な出力を提供しますが、Gemini は連結された画像に対して満足のいく回答を提供しません。ただし、各画像に対して個別の回答を提供するという点では優れています。

6.2 画像生成認識のスコアリング

GPT-4V は、テキストから画像へのモデル SDXL の生成されたテキストプロンプトを改善するために自己反省することで、最初のプロンプトで犬の品種について言及しなかったという間違いを反映し、正しい修正を行いました。 Gemini によって生成されたテキストプロンプトは、犬の品種を記載しており、より優れています。

セクション 7: オブジェクトのローカリゼーション

オブジェクトの配置機能に重点を置き、モデルは指定されたオブジェクトの相対座標 (左上隅と右下隅の座標) を提供する必要があります。これには、駐車場の車などの屋外の物体に焦点を合わせたり、抽象的な画像をローカライズしたりすることが含まれます。全部で2つのセクションがあります。

7.1 現実世界における物体の位置特定

ここでの目標は、駐車場にある車を識別することです。先ほど、ビール瓶の配置の例を示しました。 GPT-4V と Gemini はどちらも座標を理解して視覚的な表示出力を生成することができます。

7.2 抽象画像のローカリゼーション

ここでの目標は、抽象的なオブジェクトタングラムの一部の位置を指摘することです。 GPT-4V は、ローカリゼーションボックスの角を出力するように指示することで、抽象的なガチョウの頭をローカライズできましたが、Gemini ではこの場合は失敗しました。

セクション8: 時間的ビデオ理解

キーフレームを通じてモデルの時間的理解を評価します。この部分には 2 つのタスクが含まれます。1 つはビデオシーケンスの理解に関するもので、もう 1 つはキーフレームの順序付けに焦点を当てたものです。全部で2つのセクションがあります。

8.1 連続動作認識

一連の連続アクションが与えられると、GPT-4V と Gemini はどちらも正しい理解を生成できます。

8.2 キーフレームのソート

寿司を作る工程は順序が狂っており、GPT4-V だけが正しい順序を見つけることができましたが、Gemini はこの場合失敗しました。

第9章多言語主義

複数の言語でコンテンツを認識、理解、作成する能力を総合的に評価します。これには、画像内の英語以外のコンテンツを識別し、情報を他の言語で提示する機能が含まれます。全部で2つのセクションがあります。

9.1 画像多言語理解出力

GPT-4V と Gemini はどちらも、異なる言語で画像を記述できます。

9.2 多言語シーンテキスト理解

GPT-4V と Gemini はどちらも、これら 3 つの画像内のシーンテキストを認識できます。

第10節応用

マルチモーダル大規模モデルのさまざまな応用シナリオを紹介します。私たちは業界にさらなる可能性を示し、革新的なアイデアを提供することを目指しています。マルチモーダル大規模モデルは、特定のドメインのニーズに合わせてカスタマイズできます。ここでは、7 つのサブ領域を紹介します。

10.1 アプリケーション: 欠陥検出

ここでは、産業用組立ラインでの欠陥検出を行っています。どちらのモデルも、画像内のオブジェクトの欠陥をかなり正確に検出できます。ただし、このタイプのタスクでは、Gemini がより詳細な情報を提供する点に注意してください。

10.2 アプリケーション: 食料品のチェックアウト

こちらはスーパーマーケットのセルフサービスチェックアウトアプリケーションです。 GPT-4V はより包括的で詳細な結果を提供しますが、いくつかのエラーもあります。一方、Gemini は 4 つのオブジェクトしか認識しませんでしたが、認識は正確で、各アイテムに対応する画像も含まれていました。これは、GPT-4V が幅広い発見を提供する一方で、Gemini が正確性を提供し、このタイプのタスクを実行する際に異なる強みを発揮することを示唆しています。

10.3 アプリケーション: 自動車保険

ここで事故現場の被害の程度が判定されます。両者とも、包括的、詳細かつ正確な傷害評価を行う能力を実証しました。

10.4 アプリケーション: カスタマイズされた字幕ジェネレーター

ここでは、まずプロンプトとして単一のオブジェクトの画像と名前をモデルに入力し、次にモデルがシーン全体を入力して、その中のオブジェクトの相対的な位置を説明します。 GPT-4V はより包括的で正確かつ体系的な説明を提供しましたが、Gemini のパフォーマンスは低く、左側の画像にあるカタツムリの殻の存在を認識できず、カタツムリの位置を誤って説明しました。これは、GPT-4V が詳細かつ正確な説明を提供することに優れていることを示しています。

10.5 アプリケーション: 画像生成の評価

画像によって生成されたテキストプロンプトと生成された画像間の一致度をテストします。どちらのモデルも画像の内容を正確に記述し、対応する説明と一貫したスコアを提供します。注目すべきは、ジェミニがその評価についてより詳細な根拠を示したことです。

10.6 アプリケーション: 具現化されたインテリジェントエージェント

Embodied AIの応用について。 GPT-4V は、明確で簡潔な説明とともに正しい応答を提供しました。対照的に、Gemini が提供した回答は完全に間違っています。

10.7 アプリケーション: GUIナビゲーション

この例では、PC の Web 検索エンジンを使用して、麻婆豆腐のレシピを検索しています。ここでは、マルチモーダルモデルを使用して、コンピューターの電源を入れた直後のインターフェイスから手順を追ってガイドします。ここでは最初のステップのみを説明します。

セクション11: GPT-4VとGeminiの組み合わせ

このセクションでは、GPT-4V と Gemini を組み合わせて、それぞれの長所を活用する方法について説明します。セクションは全部で 2 つあります。

11.1 製品の識別と推奨

まず、GPT-4V を使用して画像内のすべてのオブジェクトを記述し、次に GPT-4V の回答を入力の一部として使用し、Gemini を使用して類似製品へのリンクを推奨します。

11.2 複数画像認識とストーリー生成

まず、GPT-4V を使用して画像に含まれるすべてのシーンを記述し、次に Gemini を使用して特定のスタイルで長いストーリーを生成します。

結論

私たちは、GPT-4V と Gemini のマルチモーダル理解および推論機能について、複数の側面を網羅した包括的な比較を実施し、以下の結論に達しました。

画像の認識と理解。基本的な画像認識タスクでは、2 つのモデルは同等のパフォーマンスを示し、タスクを効果的に完了することができました。
画像内のテキスト認識と理解。どちらのモデルも、画像からテキストを抽出して認識するのに優れています。ただし、複雑な数式やダッシュボードの認識にはまだ改善の余地があります。 Gemini はテーブル情報を読み取るのが得意です。
画像推論機能。画像推論の点では、どちらのモデルも常識理解において優れたパフォーマンスを発揮します。 GPT-4Vと比較すると、Geminiはパターンを見つける能力（知能テスト）がわずかに劣ります。感情理解テストでは、両者とも感情を理解することができ、美的判断能力も持っていた。
画像内のテキスト推論。テキスト推論の分野では、Gemini は複雑な表ベースの推論や数学的な問題解決タスクを扱う際に比較的低いパフォーマンスレベルを示しました。さらに、Gemini はより詳細な出力を提供する傾向があります。
画像とテキストの理解を統合します。複雑なテキストと画像を伴うタスクでは、Gemini は、1 つの画像でのテキスト推論の処理においては GPT-4V と同様のパフォーマンスを発揮しますが、一度に複数の画像を入力できないため、いくつかの点で GPT-4V に遅れをとっています。
オブジェクトの配置。どちらのモデルも現実世界のオブジェクトの位置特定に関しては同様のパフォーマンスを発揮しますが、Gemini は抽象的な画像 (タングラム) の位置特定に関しては若干パフォーマンスが劣ります。
時間的なビデオ理解。時間性の理解に関しては、Gemini の単一画像入力モデルは、特にシーケンスの理解において、いくつかの領域で GPT-4V に劣っています。
多言語対応。どちらのモデルも、優れた多言語認識、理解、出力機能を備えており、多言語タスクを効果的に完了できます。

産業用途の面では、Gemini は具体的なインテリジェントエージェントと GUI ナビゲーションの点で GPT-4V に劣りますが、これは Gemini の単一イメージ、非メモリ入力モードにも起因します。これら 2 つの大きなモデルを組み合わせることで、それぞれの長所を引き出すことができます。全体的に、Gemini と GPT-4V はどちらも強力で印象的なマルチモーダル大型モデルです。全体的なパフォーマンスに関しては、GPT-4V は Gemini Pro よりもわずかに優れています。これはジェミニが報告した結果と一致しています。ビジュアルマルチモーダルアプリケーションの分野にさらなる可能性をもたらすことが期待される Gemini Ultra と GPT-4.5 のリリースを楽しみにしています。

引用

これが役に立つと思われる場合は、引用してください:

 @misc{qi2023gemini, title={Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases}, author={Zhangyang Qi and Ye Fang and Mengchen Zhang and Zeyi Sun and Tong Wu and Ziwei Liu and Dahua Lin and Jiaqi Wang and Hengshuang Zhao}, year={2023}, eprint={2312.15011}, archivePrefix={arXiv}, primaryClass={cs.CV} }

オリジナルリンク: https://mp.weixin.qq.com/s/ueSAHlSYdPP_emTYxMa2DQ

<<: MonoLSS: 視覚的な 3D 検出トレーニングのためのサンプル選択

>>: スマートロボットについて知っておくべきことすべて

まとめ

Geminiのユニークな入力モード

コンテンツ

5つの側面からの比較:

3つの専門的なタスク:

業界アプリケーション:

デモ

セクション2: 画像の認識と理解

2.1 基本オブジェクトの識別

2.2 景勝地の認定

2.3 食品の識別

2.4 ロゴの認識

2.5 抽象画像認識

2.6 屋外シーンの理解（自動運転）

2.7 反事実的例（捏造されたオブジェクト）

2.8 物体カウント能力

2.9 さまざまな能力を見つける

セクション3: 画像内のテキスト認識と理解

3.1 シーンテキスト認識

3.2 数式認識

3.3 チャート情報の認識

セクション4: 画像推論機能

4.1 面白い情報（ミーム）を理解する

4.2 科学的知識の理解

4.3 探偵による身元確認

4.4 画像合成機能

4.5 IQテスト（公務員試験：パターン発見）

4.6 EQテスト（感情理解と出力）

セクション 5: 画像内のテキスト推論

5.1 数学の問題を解く

5.2 アイコンの理解

5.3 文書理解

第6章 画像とテキストの統合的理解

6.1 インターリーブ画像とテキスト入力

6.2 画像生成認識のスコアリング

セクション 7: オブジェクトのローカリゼーション

7.1 現実世界における物体の位置特定

7.2 抽象画像のローカリゼーション

セクション8: 時間的ビデオ理解

8.1 連続動作認識

8.2 キーフレームのソート

第9章 多言語主義

9.1 画像多言語理解出力

9.2 多言語シーンテキスト理解

第10節 応用

10.1 アプリケーション: 欠陥検出

10.2 アプリケーション: 食料品のチェックアウト

10.3 アプリケーション: 自動車保険

10.4 アプリケーション: カスタマイズされた字幕ジェネレーター

10.5 アプリケーション: 画像生成の評価

10.6 アプリケーション: 具現化されたインテリジェントエージェント

10.7 アプリケーション: GUIナビゲーション

セクション11: GPT-4VとGeminiの組み合わせ

11.1 製品の識別と推奨

11.2 複数画像認識とストーリー生成

結論

引用

推薦する

第6章画像とテキストの統合的理解

第9章多言語主義

第10節応用