Google Gemini がゲームを逆転！マルチモーダル機能は GPT-4V と同等 | 香港中国語 128 ページの総合評価レポート

Google がゲームを撤回しました!

Gemini が API を公開してから1 週間も経たないうちに、CUHK などの教育機関が評価を完了し、128 ページのレポートを共同で公開しました。その結果は次のとおりです。

37 の視覚理解タスクにおいて、 Gemini-Pro は GPT-4V に匹敵する能力を示しました。

マルチモーダルの独自ベンチマーク MME では、Gemini-Pro の総合的な知覚および認知パフォーマンスが 1933.4 という高いスコアを直接達成し、GPT-4V (1926.6) を上回りました。

以前、CMU の評価では、 Gemini-Pro の全体的な機能はGPT-3.5 と類似していることが判明しました。

現在、Gemini-Pro は、その主なセールスポイントの 1 つであるマルチモダリティの面でようやく復活しました。

それで、詳細は何か?

評価レポートは全部で128ページありますので、要点だけ見ていきましょう。

Gemini-Pro の最初のマルチモーダル機能レポートはこちら

このレビューは主に、Gemini-Pro の視覚的理解能力を評価することを目的としています。

基本的な知覚、高度な認知、困難な視覚タスク、さまざまな専門的能力という 4 つの主要領域をカバーし、37 のサブタスク項目について定性的な比較を実施します。

定量的な評価は、大規模なマルチモーダル言語モデル用に特別に設計された MME 評価ベンチマークに基づいて実行されます。

まずは定量テストの結果を見てみましょう。

MMEの全体的なパフォーマンスはGPT-4Vよりも優れています

MME ベンチマークは、2 つの主要なタスクカテゴリで構成されています。

1つは知覚であり、対象物の存在判断、物体数え、位置関係、色彩判断、OCR認識、ポスター認識、著名人認識、シーン認識、ランドマーク認識、アートワーク認識をカバーします。

1 つは認知であり、常識的な推論、数値計算、テキストの翻訳、コード推論をカバーします。

結果は次のとおりです。

Gemini-Pro と GPT-4V にはそれぞれ長所があることがわかります。

スコアリングによると、Gemini-Pro の合計スコアは 1933.4 で、GPT-4V (1926.6) よりもわずかに高くなっています。

具体的には：

1. Gemini-Pro は、テキスト翻訳、色/ランドマーク/人物認識、OCR などのタスクで優れたパフォーマンスを発揮します。

2. GPT-4Vは有名人認識タスクで0点を獲得しましたが、これは主に有名人に関する質問に答えることを拒否したためです。

3. Gemini と GPT-4V はどちらも位置認識タスクのパフォーマンスが悪く、空間的な位置情報に鈍感であることを示しています。

4. オープンソースモデル SPHINX は、知覚タスクでは GPT-4V や Gemini と同等かそれ以上ですが、認知においては両者の間に大きなギャップがあります。

以下は、4 つの主要タスクに関する定性的な結果です。

基本的な認識

知覚は、生の視覚入力を取得して処理する際のモデルの精度と有効性を決定するため、高レベルのタスクにおけるモデルの能力に直接影響します。

このレポートでは、モデルのオブジェクトレベルの認識機能、シーンレベルの認識機能、知識ベースの認識機能をそれぞれテストしました。

具体的なタスクは全部で 10 個あります。

スペースが限られているため、ここでは 5 つだけ紹介します。

1. 空間関係

左と右の区別はありません。しかし、GPT-4V はいくつかのコンテキストサンプルを使用してこのタスクを学習し、正しい答えを出すことができます。

2. 物体の数え方

単純な例は一般的には問題ありませんが、より複雑な例は完全に失敗します。しかし、NBA バスケットボール選手の数を数えるとなると、Gemini-Pro の答えはかなり近いです (正解は 42 人)。

3. 視覚的錯覚

左の例では、両方の梨の明るさはほぼ同じです。 Gemini Pro は正しく識別しましたが、GPT-4V と SPHNIX は騙されました。

4. シーン理解

モデルはシーンの主要な視覚要素を描写することができます。対照的に、GPT-4V はより詳細な説明と幻覚の少ない事例で優れたパフォーマンスを示しています。

5. ビデオシーンの理解

Gemini Pro は、ビデオから 3 つの瞬間のキーフレームを抽出することで、さまざまなフレームの情報を一貫したシーンの説明に統合できます。

一方、GPT-4V は、画像の内容をフレームごとに単純に記述します。対照的に、SPHNIX の説明では、画像シーケンスの包括的な理解は示されていません。

高度な認知

このようなタスクでは、深い推論、問題解決、意思決定を実行するモデルが必要です。

ここで、レポートでは、モデルのテキストが豊富な視覚的推論能力、抽象的な視覚的推論能力、科学的問題解決能力、感情分析能力、および知的ゲーム能力をテストしました。具体的には、13 個のサブタスクがあります。スペースの制限により、そのうちのいくつかのみを示します。

1. コード生成

構造化されたビジュアルコンテンツを対応するコードに変換することは、大規模なマルチモーダルモデルにとって重要なスキルです。ここでは、数式を識別して LaTex コードを生成するモデルと、Web ページを識別して HTML コードを生成するモデルの機能をテストしました。

Gemini Pro と GPT-4V は数式認識においてより良い結果を示していますが、それでも一部の小さな文字や記号を誤認識します。

3 つのモデルが Web ページを識別し、対応する HTML コードを生成する能力には、まだ改善の余地が大いにあります。

2. 抽象的な視覚刺激

抽象的な視覚刺激や記号を理解し推論することは、人間の知能の基本的な能力です。 GPT-4V は、オブジェクトがどのように形状で構成されているかを詳細に説明し、最高の抽象化パフォーマンスを示しました。 Gemini Pro はいくつかの単純な抽象パターンを認識できます。

3. 画像感情分析

モデルは、ビューを説明し、その中で起こり得る感情を提供するのに最適です。 GPT-4V の観察は中立的であり、感情は主観的であることを強調しながら、より包括的な分析を提供します。 Gemini Pro は感情的な好みを直接出力する傾向があります。

4. 感情制御出力

感情調整出力は、マルチモーダル大規模モデルが、事前定義された感情に基づいて条件付けられた視覚コンテキストを記述できるようにすることです。

Gemini Pro と GPT-4V は、生成されたテキストに対応する感情を正しく挿入できましたが、どちらも幻覚の問題に悩まされていました。

5. 数独

入力として画像のみを指定すると、Gemini Pro は出力マトリックス内で回答を提供しようとしますが、空白の場所を正しく識別できず、GPT-4V と SPHNIX は光学文字認識の最初のステップを実行できません。さらに、対応するテキスト入力があれば、Gemini Pro と GPT-4V はどちらも正しい答えを出すことができます。

困難な視覚課題

標準的な視覚的な質問応答の範囲を超えたさまざまな困難な視覚タスクにおける大規模なマルチモーダルモデルのパフォーマンスを評価します。

モデルには深い視覚認識と理解能力が求められ、そのようなパフォーマンスを評価することで、複数の分野でのモデルの実現可能性についての洞察を得ることができます。

このレポートでは、画像ビジョンタスクと時系列ビジョンタスクにおけるモデルのパフォーマンスをそれぞれテストします。具体的には、次の 7 つのサブタスクが含まれます。

ここでは3を示します。

1. 指示表現の理解

Gemini Pro と GPT-4V はどちらも参照対象のおおよその位置を識別できますが、正確な座標とボックスサイズを提供するのは困難です。 SPHNIX は、参照オブジェクトの正確な位置とサイズを提供する機能を実証しました。

2. ターゲット追跡

Gemini Pro と GPT-4V はどちらも追跡対象オブジェクトの詳細を描写できましたが、次の 2 つのフレームでは誤った境界ボックスが提供されました。

3. ビジュアルストーリーの生成

このタスクでは、モデルが画像内の情報を完全に理解し、生成されたストーリー内で論理的に整理する必要があります。

Gemini Pro と SPHNIX は一貫したストーリーを提供していますが、コミックにあまり忠実ではありません。

GPT-4V は各イラストについて正確な説明を提供しましたが、タスクで要求されているようにそれらをまとまりのあるストーリーにまとめることはできませんでした。

様々な専門家の能力

専門知識は、学習した知識とスキルをさまざまな専門分野に適用するための大規模なマルチモーダルモデルの一般化能力を測定します。上記の知覚および認知タスクに加えて、特殊かつ独自のシナリオにおける大規模なマルチモーダルモデルの堅牢性は、より実用的な参照上の重要性を持つことがよくあります。 7 つのサブタスクもあります。

ここでは 3 も示します:

1. 欠陥検出

欠陥検出には高い精度と細部への注意が必要です。明らかな欠陥のある画像の場合、モデルは正しい回答を提供でき、GPT-4V はより詳細な理由と説明を出力します。

下図のねじ山損傷の例では、Gemini Pro は過度に一般的な回答を出し、SPHNIX は外観を誤って説明し、GPT-4V は標準的な回答を出しました。

2. 経済分析

レポートには、質問に答える 2 つの株価チャートが表示されます。 Gemini Pro は専門的な金融知識に優れており、正しい回答を提供できます。 GPT-4V はセキュリティ上のリスクのため明確な回答をしませんでした。 SPHNIX は関連するトレーニングデータが不足しているため、このような質問を理解できません。

3. ロボットの動作計画

ロボットの計画では、特定の目標を達成するために、ロボットが特定の状況でどのように行動するかを決定できることが求められます。

Gemini ProとGPT-4Vはどちらも体系的で詳細な手順を提供でき、バッテリーの取り付け順序など、GPT-4VはGemini Proよりも合理的な決定を下すように見えますが、SPHNIXは携帯電話の組み立てを完了できず、その一般化能力には限界があることを示しています。

要約と評価：どれも同じ

優れたマルチモーダル推論機能を考えると、 Gemini は確かに GPT-4V に対する強力な挑戦者です。

ほとんどの場合、Gemini の回答精度は GPT-4V と競合し、異なる回答スタイルと好みを示します。

GPT-4V は知覚タスクに対してより詳細な説明を生成し、認知タスクに対して詳細な分析と段階的な中間推論を提供する傾向がありますが、 Gemini は回答に対して直接的かつ簡潔な応答を提供することを好み、ユーザーが関連情報をすばやく見つけられるようにします。

しかし、この 2 つのモデルには、空間認識が弱い、複雑な OCR と抽象的な視覚理解が不十分、推論プロセスの結果に一貫性がない、設計を促す堅牢性が不十分など、共通の問題もあります。多くの場合、まだ問題を抱えています。

したがって、現在の結果から判断すると、どちらもほぼ同じです。

著者の最終的な結論は次のとおりです。

大規模モデルのマルチモーダル機能については、一般的にまだ長い道のりが残っています。

私たちは一体どこへ行くのでしょうか？

3 つの側面: 視覚表現のエンコード (きめ細かい外観、空間関係の認識)、マルチモーダルアライメント (幻覚の軽減、OCR の精度)、およびモデル推論能力 (定量的処理、論理的一貫性)。

Gemini Pro、GPT-4V、SPHNIX の詳細な評価比較については、元の論文をご覧ください。

<<: 浙江大学の「ホッキョクグマセーター」がサイエンス誌に掲載、ダウンジャケットの5倍の断熱効果

>>: Midjourney はテキストを生成できます。 V6バージョンの5つの主要なアップグレードがネットユーザーを驚かせる

「世界AI人材追跡調査」：米国の上級AI研究者の29％は中国出身。人材を追放することは自らの道を断つことに等しい

Google Gemini がゲームを逆転！マルチモーダル機能は GPT-4V と同等 | 香港中国語 128 ページの総合評価レポート

Gemini-Pro の最初のマルチモーダル機能レポートはこちら

MMEの全体的なパフォーマンスはGPT-4Vよりも優れています

基本的な認識

高度な認知

困難な視覚課題

様々な専門家の能力

要約と評価：どれも同じ

「世界AI人材追跡調査」：米国の上級AI研究者の29％は中国出身。人材を追放することは自らの道を断つことに等しい

ディープラーニングの救済: 不十分な注釈付きデータによるディープラーニング手法

2021年に自動運転はどのように発展するのでしょうか？

なぜ人間は自分たちよりも賢い人工知能を作り出すのでしょうか?舞台裏では複雑なネットワークサポートが行われている

TransformerはAI分野を支配するのでしょうか？結論を出すのは時期尚早だ

スタンフォード大学：大きなモデルは間違った方向に「転がっている」のか？コンテキストウィンドウが長くなるほど、モデルは愚かになります。

Google Brain の最新研究: AutoML メソッドが Dropout モードを自動的に学習

協働ロボットが製造業の未来に与える大きな影響

推薦する

データベース列ストレージ: 最適な圧縮アルゴリズムを設計するための近道

Google の自動運転車の秘密の世界を解明: 初めて公開された強力なツールの数々

顔認識はより便利で安全になるべきだ

AI受験者が発狂！上級数学試験の正解率は81％で、競争試験のスコアはコンピュータドクターのスコアよりも高い。

テスト効率が2倍になりました!第2回NCTS中国クラウドテストサミットがAIテストの新たなパラダイムを切り開く

生成 AI は、技術チームの全員が価値を実現するのにどのように役立ちますか?

IT サービス管理における 3 つの主要な NLP 使用例