Microsoft は GPT-4V マニュアルを作成しました。166 ページに及ぶ完全かつ詳細な説明と、プロンプトワードのデモ例が含まれています。

マルチモーダルキングボムモデルGPT-4V、 166ページの「取扱説明書」を公開！これは Microsoft チームによって制作されました。

166 ページにどのような論文を書くことができますか?

基本的な画像認識から複雑な論理的推論まで、 10 の主要タスクにおける GPT-4V のパフォーマンスを詳細に評価するだけでなく、

マルチモーダルな大規模モデルプロンプトを使用するためのヒントもすべて教えられます——

回答の専門性は一目でわかり、GPT-4V を使用するハードルが本当にゼロになります。

この論文の著者も「全員中国人チーム」であることは特筆に値します。7人の著者は全員中国人で、マイクロソフトで17年間勤務した女性の主任研究マネージャーがチームを率いています。

166 ページのレポートが公開される前に、彼らは OpenAI の最新の DALL·E 3 研究にも参加しており、この分野について深い理解を持っています。

OpenAI の 18 ページの GPT-4V 論文と比較すると、この 166 ページの「使用ガイド」は、リリースされるとすぐに GPT-4V ユーザーにとって必読の書とみなされました。

一部のネットユーザーは「これは論文ではなく、ほぼ166ページの本だ」と嘆いた。

これを見たネットユーザーの中にはすでにパニックに陥っている者もいた。

GPT-4V の回答の詳細だけを見るのではなく、AI が示す潜在的な能力に本当に恐怖を感じます。

では、Microsoft のこの「論文」は具体的に何について語っているのでしょうか。また、GPT-4V のどのような「可能性」を示しているのでしょうか。

Microsoft の 166 ページのレポートには何が書かれていますか?

この論文の GPT-4V の研究方法の核心は、 「試してみる」という一言にあります。

Microsoft の研究者は、複数のドメインをカバーする一連の入力を設計し、それを GPT-4V に供給し、GPT-4V の出力を観察して記録しました。

その後、研究者らはGPT-4Vがさまざまなタスクを完了する能力を評価し、GPT-4Vを使用するための新しいプロンプトワードスキルも提供しました。具体的には、次の4つの側面が含まれます。

1. GPT-4Vの使用方法:

5 つの使用モード: 入力画像、サブ画像、テキスト、シーンテキスト、ビジュアルポインター。

サポートされている 3 つの機能: 指示の追跡、思考の連鎖、コンテキスト内少数ショット学習。

例えば、思考の連鎖に基づいて質問方法を変更した後、GPT-4V が示した指示に従う能力は次のとおりです。

2. 10のタスクにおけるGPT-4Vのパフォーマンス:

オープンワールドの視覚理解、視覚的説明、マルチモーダル知識、常識、シーンテキスト理解、文書推論、コーディング、時間的推論、抽象的推論、感情理解

これには、回答するためにある程度の IQ を必要とする「イメージ推論の質問」が含まれます。

3. GPT-4Vのようなマルチモーダル大規模モデルのヒント:

入力画像を直接編集することで興味のあるタスクを示し、他のプロンプト技術と組み合わせて使用できる新しいマルチモーダルプロンプト技術「視覚参照プロンプト」が提案されています。

4. マルチモーダル大規模モデルの研究と実装の可能性:

マルチモーダル学習の研究者が注力すべき 2 つの領域として、実装 (潜在的なアプリケーションシナリオ) と研究の方向性が予測されます。

たとえば、これは研究者が GPT-4V が有用であるとわかったシナリオの 1 つです (障害検出)。

しかし、新しいプロンプトワード技術であろうと、GPT-4V の応用シナリオであろうと、誰もが最も関心を持っているのは、GPT-4V の真の強みです。

そのため、この「取扱説明書」では、150 ページ以上にわたってさまざまなデモを紹介し、さまざまな回答に直面した場合の GPT-4V の機能を詳しく説明しました。

GPT-4V のマルチモーダル機能がどこまで進化したかを見てみましょう。

専門分野の映像に精通し、その場で知識を学ぶこともできる

画像認識

最も基本的な認識は、もちろん、テクノロジー、スポーツ、エンターテインメント界の有名人など、非常に簡単です。

これらの人々が誰であるかがわかるだけでなく、彼らが何をしているのかも解釈できます。たとえば、下の写真では、Huang が Nvidia の新発売のグラフィックカード製品を紹介しています。

人物だけでなく、ランドマークとなる建物も GPT-4V なら簡単に特定できます。名前や場所を特定するだけでなく、詳細な紹介も行えます。

△左：ニューヨーク・タイムズスクエア、右：京都・金閣寺

ただし、人物や場所が有名であればあるほど、判断が容易になるため、GPT-4V の機能を実証するには、より難しい写真が必要になります。

たとえば、医療画像処理では、GPT-4V は以下の肺 CT 画像に対して次のような結論を出します。

両肺の複数の領域に凝固とすりガラス陰影が見られ、肺の感染または炎症を示している可能性があります。右上葉に腫瘤または結節が存在する場合もあります。

GPT-4V に画像の種類や場所を伝えなくても、GPT-4V が独自に判断することができます。

この写真では、GPT-4V はこれが脳の磁気共鳴画像 (MRI) 画像であることを正常に識別しました。

同時に、GPT-4Vでは大量の体液蓄積も発見され、これは高悪性度の脳神経膠腫であると考えられました。

専門家の判断により、GPT-4V によって出された結論は完全に正しいと判明しました。

GPT-4Vは、こうした「真面目な」内容に加え、現代人類社会の「無形文化遺産」である絵文字も把握しました。

△機械翻訳、参考のみ

GPT-4 は、絵文字のミームを解釈できるだけでなく、現実世界の人間の表情で表現される感情も解釈できます。

これらの実際の画像に加えて、テキスト認識もマシンビジョンにおける重要なタスクです。

この点で、GPT-4Vはラテン語で書かれた言語だけでなく、中国語、日本語、ギリシャ語などの他の文字も認識できます。

手書きの数式でも:

画像推論

上記のデモは、どれほど専門的であったり、理解しにくいものであっても、まだ認識の域を出ていませんが、これは GPT-4V のスキルの氷山の一角にすぎません。

GPT-4V は、画像の内容を理解するだけでなく、特定の推論機能も備えています。

簡単に言えば、GPT-4V は 2 つの画像の違いを見つけることができます (ただし、まだいくつかのエラーがあります)。

次の一連の写真では、クラウンとボウの違いが GPT-4V によって発見されました。

難易度を上げると、GPT-4V は IQ テストのグラフィック問題も解くことができます。

上記の 3 つの質問の特徴や論理関係は比較的単純ですが、次の質問では難易度が高くなります。

もちろん、グラフ自体に難しさがあるわけではありません。グラフ内の 4 番目のテキストの説明に注目してください。元の質問のグラフの配置は、グラフに示されているとおりではありません。

画像注釈

GPT-4V は、テキストでさまざまな質問に答えるだけでなく、画像に対してさまざまな操作を実行することもできます。

たとえば、4 人の AI 巨人の集合写真があり、GPT-4V で人物をフレームに収め、名前と簡単な紹介をマークしたいとします。

GPT-4V はまずこれらの質問にテキストで回答し、次に処理された画像を提供しました。

動的コンテンツ分析

GPT-4V はこれらの静的コンテンツに加えて動的分析も実行できますが、モデルにビデオを直接供給することはありません。

以下の 5 つの写真は寿司の作り方のチュートリアルビデオから取られたもので、GPT-4V のタスクは、（コンテンツを理解した上で）これらの写真が表示される順序を推測することです。

同じ一連の写真でも、理解の仕方が異なる場合があり、GPT-4V はテキストプロンプトに基づいて判断を行います。

たとえば、次の一連の写真では、人物の動作がドアを開けることなのか、ドアを閉めることなのかによって、ソート結果はまったく逆になります。

もちろん、複数の画像でキャラクターの状態の変化を見ることで、彼らが何をしているのかを推測することもできます。

次に何が起こるかを予測する:

「現地学習」

GPT-4V は強力な視覚機能を備えているだけでなく、さらに重要なことに、すぐに学習して適用することができます。

別の例を見てみましょう。GPT-4V に車のダッシュボードを読み取らせます。最初に得た答えは間違っていました。

その後、私は GPT-4V にその方法を言葉で伝えましたが、答えはまだ間違っていました。

次に、この例を GPT-4V に示しましたが、答えは同様でしたが、残念ながら数字は架空のものでした。

1 つの例だけでは確かに少し少なすぎますが、サンプル数が増えるにつれて(実際には 1 つだけ増えただけ) 、GPT-4V は懸命な努力の末、ようやく正しい答えを返しました。

GPT-4V の効果は以上です。もちろん、ここでは一つ一つ紹介しきれないほど多くの分野やタスクもサポートしています。ご興味がおありの方は、元のレポートをお読みください。

では、GPT-4V の驚くべき効果の背後にはどのようなチームがいるのでしょうか?

清華大学の卒業生が率いる

この論文の著者は全部で 7 名おり、全員が中国人で、そのうち 6 名が中心著者です。

このプロジェクトの主執筆者である Lijuan Wang 氏は、マイクロソフトのクラウドコンピューティングおよび AI 担当の主任研究マネージャーです。

彼女は中国の華中科技大学で学士号を取得し、清華大学で博士号を取得しました。2006 年に Microsoft Research Asia に入社し、2016 年にレドモンドの Microsoft Research に入社しました。

彼女の研究分野は、マルチモーダル知覚知能に基づくディープラーニングと機械学習であり、具体的には、視覚言語モデルの事前トレーニング、画像キャプション生成、オブジェクト検出などの AI テクノロジーが含まれます。

元のアドレス: https://arxiv.org/abs/2309.17421

<<: 最大400万のトークンコンテキストと22倍の推論速度を備えたStreamingLLMは人気を博し、GitHubで2.5Kのスターを獲得しました。

>>:

ブログ

コンピュータービジョンを使用してフィッシング攻撃を検出するにはどうすればよいでしょうか?

Microsoft は GPT-4V マニュアルを作成しました。166 ページに及ぶ完全かつ詳細な説明と、プロンプトワードのデモ例が含まれています。

Microsoft の 166 ページのレポートには何が書かれていますか?

専門分野の映像に精通し、その場で知識を学ぶこともできる

画像認識

△機械翻訳、参考のみ

画像推論

画像注釈

動的コンテンツ分析

「現地学習」

清華大学の卒業生が率いる

コンピュータービジョンを使用してフィッシング攻撃を検出するにはどうすればよいでしょうか?

Alipayの検索エクスペリエンスを向上させるために、Antと北京大学は階層的コントラスト学習を使用してテキストフレームワークを生成

なぜ機械学習モデルの90%が実稼働に至らないのか

深層強化学習入門: TensorFlow で初めてのゲーム AI を構築する

古典的な構造から改良された方法まで、ニューラルネットワーク言語モデルのレビュー

トップ 10 のディープラーニングフレームワークの比較分析

推薦する

時系列予測におけるディープラーニングの概要と今後の方向性の分析

人工知能がビジネスを徐々に変えていく

データマイニングのコアアルゴリズムの一つである回帰

労働者は一生懸命働かなければなりません！ AI仮想人間が労働力に参入しようとしている

AIエンジニアリングについて知っておくべきこと

「検索」は終わり、「レコメンド」も終わるのか？

AIファースト戦略への移行に向けた5つのポイント

610億ドルを費やす！半導体大手ブロードコム、ソフトウェアとハードウェアの統合実現のためVMwareを買収

言語は「絆」であり、イメージバインドを超えて、さまざまなモードでパンチとキックを行う

分散トレーニング入門: PyTorch を使用してマルチ GPU 分散トレーニングを実装する方法

Big Vsが推奨するAI論文の引用数は倍増するでしょうか？過去5年間の2人のTwitterブロガーのツイートの影響が明らかに