この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 まとめみなさんこんにちは。私は現在香港大学で学んでいる Qi Zhangyang です。今日は、視覚言語モデルに関する最新の研究を皆さんと共有したいと思います。この論文では、2 つの SOTA モデル、Google の Gemini と OpenAI の GPT-4V(ision) の詳細な定性比較研究を提供します。私たちの研究では、視覚言語能力、人間との相互作用、時間理解、知的および感情的知能などの主要な側面について、両方のモデルを多面的に評価しました。完全な例と論文は、Arxiv Paper (115 ページ) で入手できます。 論文リンク: https://arxiv.org/abs/2312.15011 Geminiのユニークな入力モード私たちの目標は、Gemini の入力モデルを明らかにすることです。 GPT-4V の入力モードは、コンテキストとして複数の画像を継続的に取り込むことをサポートし、メモリ機能が強化されています。ただし、ジェミニの場合、そのユニークな特性は次の側面に反映されています。
コンテンツ5つの側面からの比較:セクション 1 から 2 では、マルチモーダル評価を 5 つの側面に分類します。最初のレベルでは、画像とその中のテキストの基本的な認識が含まれます。 2 番目のレベルは認識を超えており、さらなる推論と推測が必要です。 3 番目のレベルには、複数の画像を含むマルチモーダル理解と推論が含まれます。
3つの専門的なタスク:セクション 1 から 2 では、オブジェクトの位置特定、時間理解、多言語理解という 3 つの特殊なタスクのパフォーマンスを評価します。
業界アプリケーション:第 2 章では、マルチモーダル大規模モデルのさまざまな応用シナリオを紹介します。私たちは業界にさらなる可能性を示し、革新的なアイデアを提供することを目指しています。マルチモーダル大規模モデルは、特定のドメインのニーズに合わせてカスタマイズできます。ここでは、7 つのサブ領域を紹介します。
デモセクション2: 画像の認識と理解ランドマーク、食べ物、ロゴ、抽象的な画像、自動運転シナリオの認識、誤った情報の検出、違いの発見、オブジェクトのカウントなどのタスクを含む、さらなる推論なしで画像コンテンツを基本的に認識および理解します。最初のレベルの最も基本的なタスクに属します。全部で9つのセクションがあります。 2.1 基本オブジェクトの識別これは、モデルの基本的なオブジェクト認識および記述機能をテストするためです。 GPT-4V と Gemini はどちらも、基本的なオブジェクトを正確に識別し、必要に応じてテキストの説明を提供することができ、大きな違いはありませんでした。 2.2 景勝地の認定どちらのモデルもランドマークを正確に識別することに優れていますが、GPT-4V は簡潔な説明を生成するのに対し、Gemini は観光名所や屋内でもより詳細な説明を提供する傾向があります。該当の観光スポットの他の写真や関連情報リンクも提供されています。 2.3 食品の識別どちらのモデルも、食材、付け合わせ、調理法など、料理の画像の詳細を認識する能力を拡張し、多種多様な料理を認識する能力を実証しました。結論は基本的に景勝地の場合と同じです。 2.4 ロゴの認識どちらのモデルもロゴを正常に認識し、デザイン、色、形状、象徴的な表現のさまざまな側面を捉えて包括的な説明を提供しました。 2.5 抽象画像認識GPT-4V は合理的な応答を提供しましたが、Gemini はそれほど論理的ではないと思われる応答を提供しました。双子座はタングラムパズルのような抽象的な画像を認識する能力が比較的欠けています。これは、すべてのグラフ入力が連結されているためである可能性があります。 2.6 屋外シーンの理解(自動運転)どちらのモデルも、シーンの自動運転とオブジェクトの詳細な説明を提供することに優れています。最初の例では、Gemini の説明に小さなエラーが見られます。 2.7 反事実的例(捏造されたオブジェクト)これは、画像が与えられたことを意味します。テキスト プロンプトは、モデルに画像内に存在しないオブジェクトを見つけるように要求します。どちらのモデルも、画像に表示されているシーンやオブジェクトの事実に基づいた説明を提供できることがわかりました。 2.8 物体カウント能力課題は、写真に写っている果物の数を数えることです。どちらのモデルもカウントに関しては改善の余地があります。 GPT-4Vと比較すると、Geminiのカウント能力は比較的弱いです。 Gemini のマルチモーダルメモリ性能が比較的弱いため、正しい答えに導くことができませんでした。 2.9 さまざまな能力を見つけるここに、違いを見つけることができる 2 枚の写真があります。 GPT-4V と Gemini はどちらも、違いを見つける際に一定の制限があります。 GPT-4V は差異を見つける能力が高く、より正確です。 セクション3: 画像内のテキスト認識と理解シーンテキスト、数式、グラフや表のテキスト認識など、画像内のテキスト認識 (OCR を含む) に重点を置いています。ここでも、テキストの内容についてはこれ以上推測しません。最初のレベルの最も基本的なタスクに属します。全部で9つのセクションがあります。 3.1 シーンテキスト認識ここでは、株式市場の取引ボードや屋外の店舗看板などのシーンからテキストとデジタル情報を抽出します。どちらのモデルも、多くの複雑なコンテキストでシーンテキストを認識する能力を実証しています。 3.2 数式認識ここでは、画像の数式を Latex 形式に変換しています。GPT-4V と Gemini はどちらも数式認識機能が不足していることがわかりました。数式が複雑になると、数式を正確に読み取ることが不可能になります。 3.3 チャート情報の認識ここで説明するのは、テーブル画像のテキスト認識と抽出です。全体的に、GPT-4V は Gemini Pro ほど機能的ではありません。 セクション4: 画像推論機能この部分では、基本的な画像認識を超えて、より高度な推論が行われます。これには、ユーモアや科学的概念の理解のほか、探偵の仕事、画像の組み合わせ、知能テストでのパターンの発見、感情の理解と表現などの論理的推論スキルが含まれます。これは第 2 レベルに属し、基本的な認識に加えて、さらなる推論が必要であることを意味します。全部で6つのセクションがあります。 4.1 面白い情報(ミーム)を理解するユーモラスな絵の理解において。 GPT-4V と Gemini はどちらも、ミームに埋め込まれたユーモアを理解する十分な能力を示しています。 4.2 科学的知識の理解GPT-4V と Gemini はどちらも科学的な常識を理解し、質問に答えるために必要な情報を収集することができます。最初の例では、Gemini の説明が省略されています。 4.3 探偵による身元確認ここでの課題は、家の写真からその家の所有者の性格を推測することです。 GPT-4V と Gemini はどちらも常識に基づいて画像を非常にうまく推測できます。 4.4 画像合成機能頭や体をバッグで飾っている人です。 GPT-4V と Gemini はどちらも、これら 3 つの部分を合理的な方法で組み合わせる方法を知っています。もちろん、ここで GPT-4V は、3 つのサブイメージが 1 つのイメージに結合される順序を示し、より満足のいく回答を提供します。 4.5 IQテスト(公務員試験:パターン発見)ジェミニは、ウェクスラー成人知能検査(WAIS)のパターン発見問題で成績が悪かった。これは、複数の画像を認識および比較する能力が限られている可能性があることを示唆しています。 4.6 EQテスト(感情理解と出力)絵に表現された感情について。 GPT-4V と Gemini はどちらも、さまざまな視覚コンテンツが人間の感情をどのように呼び起こすかを理解しています。 セクション 5: 画像内のテキスト推論この部分では、基本的な画像認識を超えて、より高度な推論が行われます。これには、ユーモアや科学的概念の理解のほか、探偵の仕事、画像の組み合わせ、知能テストでのパターンの発見、感情の理解と表現などの論理的推論スキルが含まれます。これは第 2 レベルに属し、基本的な認識に加えて、さらなる推論が必要であることを意味します。全部で3つのセクションがあります。 5.1 数学の問題を解く簡単な数学の問題であれば、GPT-4V と Gemini はどちらも正確な答えを出すことができます。 5.2 アイコンの理解ここでフローチャートの理解を示します。この例では、両方のモデルでフローチャートを Python コードに変換できます。 5.3 文書理解ここに示すのはアパートのフロアプランです。ここでは両方のモデルが正確な答えを提供します。しかし、ジェミニの答えはより完全で体系的です。 第6章 画像とテキストの統合的理解この部分では、基本的な画像認識を超えて、より高度な推論が行われます。これには、ユーモアや科学的概念の理解のほか、探偵の仕事、画像の組み合わせ、知能テストでのパターンの発見、感情の理解と表現などの論理的推論スキルが含まれます。これは、絵と文章の総合的な理解の第 3 レベルに属します。全部で2つのセクションがあります。 6.1 インターリーブ画像とテキスト入力この画像では、複数の請求書を入力し、それにかかる税金を計算します。 GPT-4V は正確な出力を提供しますが、Gemini は連結された画像に対して満足のいく回答を提供しません。ただし、各画像に対して個別の回答を提供するという点では優れています。 6.2 画像生成認識のスコアリングGPT-4V は、テキストから画像へのモデル SDXL の生成されたテキスト プロンプトを改善するために自己反省することで、最初のプロンプトで犬の品種について言及しなかったという間違いを反映し、正しい修正を行いました。 Gemini によって生成されたテキスト プロンプトは、犬の品種を記載しており、より優れています。 セクション 7: オブジェクトのローカリゼーションオブジェクトの配置機能に重点を置き、モデルは指定されたオブジェクトの相対座標 (左上隅と右下隅の座標) を提供する必要があります。これには、駐車場の車などの屋外の物体に焦点を合わせたり、抽象的な画像をローカライズしたりすることが含まれます。全部で2つのセクションがあります。 7.1 現実世界における物体の位置特定ここでの目標は、駐車場にある車を識別することです。先ほど、ビール瓶の配置の例を示しました。 GPT-4V と Gemini はどちらも座標を理解して視覚的な表示出力を生成することができます。 7.2 抽象画像のローカリゼーションここでの目標は、抽象的なオブジェクト タングラムの一部の位置を指摘することです。 GPT-4V は、ローカリゼーション ボックスの角を出力するように指示することで、抽象的なガチョウの頭をローカライズできましたが、Gemini ではこの場合は失敗しました。 セクション8: 時間的ビデオ理解キーフレームを通じてモデルの時間的理解を評価します。この部分には 2 つのタスクが含まれます。1 つはビデオ シーケンスの理解に関するもので、もう 1 つはキー フレームの順序付けに焦点を当てたものです。全部で2つのセクションがあります。 8.1 連続動作認識一連の連続アクションが与えられると、GPT-4V と Gemini はどちらも正しい理解を生成できます。 8.2 キーフレームのソート寿司を作る工程は順序が狂っており、GPT4-V だけが正しい順序を見つけることができましたが、Gemini はこの場合失敗しました。 第9章 多言語主義複数の言語でコンテンツを認識、理解、作成する能力を総合的に評価します。これには、画像内の英語以外のコンテンツを識別し、情報を他の言語で提示する機能が含まれます。全部で2つのセクションがあります。 9.1 画像多言語理解出力GPT-4V と Gemini はどちらも、異なる言語で画像を記述できます。 9.2 多言語シーンテキスト理解GPT-4V と Gemini はどちらも、これら 3 つの画像内のシーン テキストを認識できます。 第10節 応用マルチモーダル大規模モデルのさまざまな応用シナリオを紹介します。私たちは業界にさらなる可能性を示し、革新的なアイデアを提供することを目指しています。マルチモーダル大規模モデルは、特定のドメインのニーズに合わせてカスタマイズできます。ここでは、7 つのサブ領域を紹介します。 10.1 アプリケーション: 欠陥検出ここでは、産業用組立ラインでの欠陥検出を行っています。どちらのモデルも、画像内のオブジェクトの欠陥をかなり正確に検出できます。ただし、このタイプのタスクでは、Gemini がより詳細な情報を提供する点に注意してください。 10.2 アプリケーション: 食料品のチェックアウトこちらはスーパーマーケットのセルフサービスチェックアウトアプリケーションです。 GPT-4V はより包括的で詳細な結果を提供しますが、いくつかのエラーもあります。一方、Gemini は 4 つのオブジェクトしか認識しませんでしたが、認識は正確で、各アイテムに対応する画像も含まれていました。これは、GPT-4V が幅広い発見を提供する一方で、Gemini が正確性を提供し、このタイプのタスクを実行する際に異なる強みを発揮することを示唆しています。 10.3 アプリケーション: 自動車保険ここで事故現場の被害の程度が判定されます。両者とも、包括的、詳細かつ正確な傷害評価を行う能力を実証しました。 10.4 アプリケーション: カスタマイズされた字幕ジェネレーターここでは、まずプロンプトとして単一のオブジェクトの画像と名前をモデルに入力し、次にモデルがシーン全体を入力して、その中のオブジェクトの相対的な位置を説明します。 GPT-4V はより包括的で正確かつ体系的な説明を提供しましたが、Gemini のパフォーマンスは低く、左側の画像にあるカタツムリの殻の存在を認識できず、カタツムリの位置を誤って説明しました。これは、GPT-4V が詳細かつ正確な説明を提供することに優れていることを示しています。 10.5 アプリケーション: 画像生成の評価画像によって生成されたテキストプロンプトと生成された画像間の一致度をテストします。どちらのモデルも画像の内容を正確に記述し、対応する説明と一貫したスコアを提供します。注目すべきは、ジェミニがその評価についてより詳細な根拠を示したことです。 10.6 アプリケーション: 具現化されたインテリジェントエージェントEmbodied AIの応用について。 GPT-4V は、明確で簡潔な説明とともに正しい応答を提供しました。対照的に、Gemini が提供した回答は完全に間違っています。 10.7 アプリケーション: GUIナビゲーションこの例では、PC の Web 検索エンジンを使用して、麻婆豆腐のレシピを検索しています。ここでは、マルチモーダル モデルを使用して、コンピューターの電源を入れた直後のインターフェイスから手順を追ってガイドします。ここでは最初のステップのみを説明します。 セクション11: GPT-4VとGeminiの組み合わせこのセクションでは、GPT-4V と Gemini を組み合わせて、それぞれの長所を活用する方法について説明します。セクションは全部で 2 つあります。 11.1 製品の識別と推奨まず、GPT-4V を使用して画像内のすべてのオブジェクトを記述し、次に GPT-4V の回答を入力の一部として使用し、Gemini を使用して類似製品へのリンクを推奨します。 11.2 複数画像認識とストーリー生成まず、GPT-4V を使用して画像に含まれるすべてのシーンを記述し、次に Gemini を使用して特定のスタイルで長いストーリーを生成します。 結論私たちは、GPT-4V と Gemini のマルチモーダル理解および推論機能について、複数の側面を網羅した包括的な比較を実施し、以下の結論に達しました。 画像の認識と理解。基本的な画像認識タスクでは、2 つのモデルは同等のパフォーマンスを示し、タスクを効果的に完了することができました。 産業用途の面では、Gemini は具体的なインテリジェント エージェントと GUI ナビゲーションの点で GPT-4V に劣りますが、これは Gemini の単一イメージ、非メモリ入力モードにも起因します。これら 2 つの大きなモデルを組み合わせることで、それぞれの長所を引き出すことができます。全体的に、Gemini と GPT-4V はどちらも強力で印象的なマルチモーダル大型モデルです。全体的なパフォーマンスに関しては、GPT-4V は Gemini Pro よりもわずかに優れています。これはジェミニが報告した結果と一致しています。ビジュアルマルチモーダルアプリケーションの分野にさらなる可能性をもたらすことが期待される Gemini Ultra と GPT-4.5 のリリースを楽しみにしています。 引用これが役に立つと思われる場合は、引用してください: オリジナルリンク: https://mp.weixin.qq.com/s/ueSAHlSYdPP_emTYxMa2DQ |
<<: MonoLSS: 視覚的な 3D 検出トレーニングのためのサンプル選択
やっていることをやめて、窓の外の鳥やリス、昆虫などを眺めてみましょう。これらの生物は、食物を見つけた...
テクノロジー業界にとって、2018年は忘れられない年になる運命にある。結局、シェアサイクルのバブルは...
[[244014]]過去 10 年間で、機械学習への関心は爆発的に高まりました。ほぼ毎日、さまざまな...
海外メディアの報道によると、人工知能技術を利用した新薬の発見は成果を上げているようだ。マサチューセッ...
【51CTO.comオリジナル記事】 1. はじめに上記の記事を通じて、レコメンデーション アルゴリ...
[51CTO.com クイック翻訳] 現在、人工知能技術に対する人々の見解は主に2つの陣営に分かれて...
[[386332]] 1950 年代に、SF 作家のフレドリック・ブラウンは超知能機械についての物...
18歳の時に撮った写真が様々な賞賛を浴びる中、また新たな年を迎えました。 [[215597]]本来な...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
ガベージ コレクション アルゴリズムは、さまざまな観点から分類できます。基本的なリサイクル戦略によれ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
米国の自動運転業界を取り巻く規制環境は静かに変化しつつある。過去10年間、米国は世界の自動運転分野に...