GPT-4Vを試した後、マイクロソフトは166ページに及ぶ評価レポートを作成した。業界関係者：上級ユーザー必読

1週間前、ChatGPTはメジャーアップデートを受けました。GPT-4とGPT-3.5の両モデルは、画像に基づいて分析と会話を実行できます。それに応じて、GPT-4V モデルのマルチモーダルバージョンの関連ドキュメントも公開されました。当時、OpenAIが公開したドキュメントはわずか18ページであり、多くの内容が不明でした。GPT-4Vの応用をより深く理解したい人にとっては、まだかなり難しいです。

わずか数日後、OpenAI が公開した 18 ページの文書に誰もがまだ苦労していたとき、Microsoft は GPT-4V の機能と使用方法を定性的に調査した 166 ページのレポートを公開しました。

レポートアドレス: https://arxiv.org/pdf/2309.17421.pdf

MedARC (医療人工知能研究センター) の共同創設者兼 CEO である Tanishq Mathew Abraham 氏は、「このレポートは、GPT-4V の上級ユーザーにとって必読の資料となるでしょう」と述べています。

このレポートは11章に分かれており、最新モデルGPT-4V(ision)の分析に重点を置き、LMM(Large Multimodal Model)に対する一般の理解を深めています。この記事では、GPT-4V が実行できるタスクの紹介に多くのスペースを割いています。これには、テストサンプルを使用して GPT-4V の品質と汎用性を調べること、この段階で GPT-4V がサポートできる入力モードと動作モード、およびモデルを促すための効果的な方法が含まれます。

GPT-4V を調査する過程で、この研究ではさまざまな分野とタスクをカバーする一連の定性的なサンプルも慎重に整理しました。これらのサンプルを観察すると、GPT-4V は任意にインターリーブされたマルチモーダル入力を処理する前例のない能力を備えており、その機能の汎用性により GPT-4V は強力なマルチモーダル汎用システムになっていることがわかります。

さらに、GPT-4V の画像を理解する独自の能力により、視覚的な参照プロンプトなどの新しい人間とコンピューターの対話方法を生み出すことができます。このレポートは、GPT-4V ベースのシステムの新たなアプリケーションシナリオと将来の研究方向についての詳細な議論で締めくくられています。この初期の調査が、次世代のマルチモーダルタスクの定式化に関する将来の研究に刺激を与え、LMM が現実世界の問題を解決するための新しい方法を開発および強化し、マルチモーダルの基礎モデルをより深く理解することを願っています。

以下、各章の具体的な内容を一つずつ紹介していきます。

論文概要

論文の第 1 章では、研究全体の基本的な状況を紹介しています。著者らは、GPT-V4 に関する議論は主に以下の質問によって導かれたと述べています。

1. GPT-4V はどのような入力と動作モードをサポートしていますか?マルチモーダルモデルの汎用性を確保するには、必然的に、システムが異なる入力モダリティのあらゆる組み合わせを処理できることが必要になります。 GPT-4V は、入力画像、サブ画像、テキスト、シーンテキスト、ビジュアルポインターの任意の組み合わせを理解して処理する前例のない能力を示します。また、GPT-4V は、命令追跡、思考連鎖、コンテキストに基づく少数ショット学習など、LLM で観察されるテスト時の手法を適切にサポートできることも実証しています。

2. さまざまなドメインやタスクにおける GPT-4V の品質と汎用性はどのようなものですか? GPT-4V の機能を理解するために、著者らは、オープンワールドの視覚理解、視覚的説明、マルチモーダル知識、常識、シーンテキスト理解、ドキュメント推論、エンコーディング、時間的推論、抽象的推論、感情理解など、幅広いドメインとタスクをカバーするクエリをサンプリングしました。 GPT-4V は、多くの実験領域で人間レベルの優れた能力を発揮します。

3. GPT-4V を効果的に使用し、促す方法は何ですか? GPT-4V は、入力画像に描画された視覚的なポインターやシーンテキストなどのピクセル空間編集を適切に理解できます。この機能に着想を得て、入力画像を直接編集して興味のあるタスクを示すことができる「視覚参照キュー」について説明します。視覚的な参照キューは、他の画像やテキストキューとシームレスに連携し、指導や例のデモンストレーションのための微妙なインターフェイスを提供します。

4. 今後の開発の方向性は？ GPT-4V のさまざまなドメインやタスクにわたる強力な機能を考えると、マルチモーダル学習、さらには人工知能の今後はどうなるのかと自問せずにはいられません。著者は、思考と探求を、注意が必要な新たなアプリケーションシナリオと、GPT-4V システムに基づく将来の研究方向という 2 つの側面に分けます。彼らは、将来の研究に刺激を与えるために予備的な調査結果を発表します。

GPT-4V入力モード

論文の第 2 章では、GPT-4V でサポートされている入力についてまとめています。入力は、プレーンテキスト、単一の画像とテキストのペア、インターリーブされた画像とテキストの入力の 3 つのケースに分かれています (図 1 を参照)。

GPT-4Vの動作モードと迅速な技術

論文の第 3 章では、GPT-4V の動作モードとプロンプト技術について次のようにまとめています。

1. 指示に従ってください:

2. 視覚的なガイダンスと視覚的な参照プロンプト:

3. ビジュアル + テキストプロンプト:

4. コンテキストに応じた少量学習:

視覚言語能力

論文の第 4 章では、GPT-4V を使用して視覚世界を理解し、解釈する方法について説明します。

まず、セクション 4.1 では、さまざまな有名人を認識し、その職業、行動、背景、出来事、その他の情報を詳細に記述するなど、さまざまなドメインの画像を認識する GPT-4V の能力について説明します。

GPT-4V は、有名人を識別するだけでなく、テスト画像内のランドマークを正確に識別し、ランドマークの特徴を捉えた鮮明で詳細な説明を生成することができます。

GPT-4V はさまざまな料理を認識し、料理の特定の材料、付け合わせ、調理方法を提案することもできます。

さらに、GPT-4V は一般的な病気も特定できます。たとえば、肺の CT スキャンに基づいて潜在的な問題を指摘したり、歯と顎の特定の X 線写真に基づいて下顎の左下と右下に生えている親知らずを抜く必要があるかもしれないと説明したりできます。GPT-4V はロゴを正しく識別し、そのデザイン、色、形、シンボルを含む詳細な説明を提供できます。プロンプトの問題が写真と一致しない場合、GPT-4V は反事実的推論も実行できます。

セクション 4.2 では、オブジェクトの位置特定、カウント、高密度キャプション生成のための GPT-4V について説明します。

下の図は、フリスビーと人物の空間関係を識別するなど、GPT-4V が画像内の人物と物体の空間関係を理解できることを示しています。

GPT-4V は、画像内の指定されたオブジェクトの数を判別できます。下の図は、GPT-4V がリンゴ、オレンジ、人など、画像内に存在するオブジェクトの数を正常に計算していることを示しています。

GPT-4V は、画像内の個人を正確に特定して識別し、各個人の簡潔な説明を提供します。

セクション 4.3 では、GPT-4V がマルチモーダル理解を実行し、常識を習得する能力について説明します。次の図は、GPT-4V がジョークやミームを説明できることを示しています。

GPT-4V は次のような科学的な質問に答えることができます。

GPT-4V はマルチモーダル常識推論も実行できます。

セクション 4.4 では、シーンのテキスト、表、グラフ、ドキュメントに対する GPT-4V の推論機能について説明します。

GPT-4V は数学的推論を実行できます。

フローチャートを理解する:

テーブルの詳細を理解する:

GPT-4V は、複数ページの技術レポートを読み取り、各セクションの内容を理解し、技術レポートを要約することもできます。

セクション4.5では、GPT-4Vの多言語およびマルチモーダルコンテキストの理解について説明します。

GPT-4V はさまざまな言語で画像の説明を生成できます。

GPT-4V による多言語テキスト認識、翻訳、説明の結果:

セクション4.6では、GPT-4Vのエンコード機能について説明します。

手書きの数式に基づいて LaTeX コードを生成する機能:

GPT-4V は、画像内の表を再構築するための Markdown/LaTex コードを生成する機能を備えています。

GPT-4V は入力グラフを複製するコードを記述できます。

人間とのインタラクション: 視覚的な参照手がかり

特定の空間位置を指すことは、視覚ベースの会話の実施など、マルチモーダルシステムを使用した人間とコンピュータの対話における基本的な機能です。セクション 5.1 では、GPT-4V が画像上に直接描画された視覚的なポインターをうまく理解できることを示しています。この観察に基づいて、研究者は「視覚的参照プロンプト」と呼ばれる新しいモデルインタラクション方法を提案しました。図 50 に示すように、中心となるアイデアは、画像のピクセル空間を直接編集し、人間のための参照インジケーターとして視覚的なポインターまたはシーンテキストを描画することです。著者は、このアプローチの用途と利点をセクション 5.2 で詳しく説明しています。

最後に、セクション 5.3 では、GPT-4V が人間との対話のために視覚的なポインター出力を生成できるようにする方法について説明します。これらの視覚的な手がかりは、人間と機械の両方にとって直感的に生成および理解でき、人間とコンピューターの相互作用に適したチャネルです。

時間とビデオの理解

第 6 章では、著者らは GPT4V の時間的およびビデオ理解機能について説明します。 GPT4V は主に画像を入力として受け取りますが、時系列やビデオコンテンツを理解する能力を評価することは、全体的な評価において依然として重要な側面です。これは、現実世界の出来事は時間の経過とともに展開し、AI システムがこれらの動的なプロセスを理解する能力が現実世界のアプリケーションにおいて非常に重要になるためです。時系列予測、時系列ソート、時系列ローカリゼーション、時系列推論、基本的な時系列理解などの機能は、一連の静止画像内のイベントの順序を理解し、将来のイベント発生を予測し、時間の経過とともに変化するアクティビティを分析するモデルの能力を測定するのに役立ちます。

GPT-4V は画像中心ですが、人間の理解と同様の方法でビデオや時系列を理解することができます。 GPT-4V のような複雑な AI モデルの汎用性と適用性を向上させるには、この種のテストが開発と改善に不可欠です。

この章の実験では、研究者は複数の選択されたビデオフレームを入力として使用し、モデルが時系列とビデオコンテンツを理解する能力をテストしました。

複数の画像シーケンス

ビデオの理解

時間的理解に基づく視覚的参照手がかり

視覚的推論とIQテスト

抽象的な視覚刺激や記号を理解し推論することは、人間の知能の基本的な能力です。論文の第 7 章では、GPT-4V が視覚信号から意味を抽象化し、さまざまな種類の人間の IQ テストを実行できるかどうかをテストします。

抽象的な視覚刺激

部品とオブジェクトの検出と関連付け

ウェクスラー成人知能検査

レイヴンの数学テスト

感情指数テスト

GPT-4V は人間と対話する際に、人間の感情を理解し共有するために共感力と感情的知性 (EQ) を備えている必要があります。人間の感情知能テストの定義に着想を得て、著者らは、GPT-4V が顔の表情から人間の感情を認識して解釈する能力、さまざまな視覚コンテンツがどのように感情を呼び起こすかを理解する能力、望ましい感情や感情に基づいて適切なテキスト出力を生成する能力を研究しました。

表情から感情を読み取る

視覚コンテンツがどのように感情を呼び起こすかを理解する

感情条件出力

新興アプリケーションのハイライト

この章では、GPT-4V の優れた機能によって実現できる、価値の高い無数のアプリケーションシナリオと新しいユースケースについて説明します。確かに、これらのユースケースのいくつかは、既存の視覚および言語 (VL) モデルを微調整するための慎重にキュレートされたトレーニングデータを使用して実現できますが、著者は、GPT-4V の真の力は、すぐに簡単に使用できることにあると強調したいと考えています。さらに、GPT-4V を外部ツールやプラグインとシームレスに統合して、その可能性をさらに広げ、より革新的で共同的なアプリケーションを実現する方法も紹介しました。

違いを見つける

業界

薬

自動車保険

写真のキャプションを書く

画像の理解と生成

具現化されたエージェント

グラフィカルユーザーインターフェイス (GUI) の操作