マルチモーダルキングボムモデルGPT-4V、 166ページの「取扱説明書」を公開!これは Microsoft チームによって制作されました。 166 ページにどのような論文を書くことができますか? 基本的な画像認識から複雑な論理的推論まで、 10 の主要タスクにおける GPT-4V のパフォーマンスを詳細に評価するだけでなく、 マルチモーダルな大規模モデルプロンプトを使用するためのヒントもすべて教えられます—— 回答の専門性は一目でわかり、GPT-4V を使用するハードルが本当にゼロになります。 この論文の著者も「全員中国人チーム」であることは特筆に値します。7人の著者は全員中国人で、マイクロソフトで17年間勤務した女性の主任研究マネージャーがチームを率いています。 166 ページのレポートが公開される前に、彼らは OpenAI の最新の DALL·E 3 研究にも参加しており、この分野について深い理解を持っています。 OpenAI の 18 ページの GPT-4V 論文と比較すると、この 166 ページの「使用ガイド」は、リリースされるとすぐに GPT-4V ユーザーにとって必読の書とみなされました。 一部のネットユーザーは「これは論文ではなく、ほぼ166ページの本だ」と嘆いた。 これを見たネットユーザーの中にはすでにパニックに陥っている者もいた。
では、Microsoft のこの「論文」は具体的に何について語っているのでしょうか。また、GPT-4V のどのような「可能性」を示しているのでしょうか。 Microsoft の 166 ページのレポートには何が書かれていますか?この論文の GPT-4V の研究方法の核心は、 「試してみる」という一言にあります。 Microsoft の研究者は、複数のドメインをカバーする一連の入力を設計し、それを GPT-4V に供給し、GPT-4V の出力を観察して記録しました。 その後、研究者らはGPT-4Vがさまざまなタスクを完了する能力を評価し、GPT-4Vを使用するための新しいプロンプトワードスキルも提供しました。具体的には、次の4つの側面が含まれます。 1. GPT-4Vの使用方法: 5 つの使用モード: 入力画像、サブ画像、テキスト、シーン テキスト、ビジュアル ポインター。 サポートされている 3 つの機能: 指示の追跡、思考の連鎖、コンテキスト内少数ショット学習。 例えば、思考の連鎖に基づいて質問方法を変更した後、GPT-4V が示した指示に従う能力は次のとおりです。 2. 10のタスクにおけるGPT-4Vのパフォーマンス: オープンワールドの視覚理解、視覚的説明、マルチモーダル知識、常識、シーンテキスト理解、文書推論、コーディング、時間的推論、抽象的推論、感情理解 これには、回答するためにある程度の IQ を必要とする「イメージ推論の質問」が含まれます。 3. GPT-4Vのようなマルチモーダル大規模モデルのヒント: 入力画像を直接編集することで興味のあるタスクを示し、他のプロンプト技術と組み合わせて使用できる新しいマルチモーダルプロンプト技術「視覚参照プロンプト」が提案されています。 4. マルチモーダル大規模モデルの研究と実装の可能性: マルチモーダル学習の研究者が注力すべき 2 つの領域として、実装 (潜在的なアプリケーション シナリオ) と研究の方向性が予測されます。 たとえば、これは研究者が GPT-4V が有用であるとわかったシナリオの 1 つです (障害検出)。 しかし、新しいプロンプトワード技術であろうと、GPT-4V の応用シナリオであろうと、誰もが最も関心を持っているのは、GPT-4V の真の強みです。 そのため、この「取扱説明書」では、150 ページ以上にわたってさまざまなデモを紹介し、さまざまな回答に直面した場合の GPT-4V の機能を詳しく説明しました。 GPT-4V のマルチモーダル機能がどこまで進化したかを見てみましょう。 専門分野の映像に精通し、その場で知識を学ぶこともできる画像認識最も基本的な認識は、もちろん、テクノロジー、スポーツ、エンターテインメント界の有名人など、非常に簡単です。 これらの人々が誰であるかがわかるだけでなく、彼らが何をしているのかも解釈できます。たとえば、下の写真では、Huang が Nvidia の新発売のグラフィック カード製品を紹介しています。 人物だけでなく、ランドマークとなる建物も GPT-4V なら簡単に特定できます。名前や場所を特定するだけでなく、詳細な紹介も行えます。 △左:ニューヨーク・タイムズスクエア、右:京都・金閣寺 ただし、人物や場所が有名であればあるほど、判断が容易になるため、GPT-4V の機能を実証するには、より難しい写真が必要になります。 たとえば、医療画像処理では、GPT-4V は以下の肺 CT 画像に対して次のような結論を出します。
GPT-4V に画像の種類や場所を伝えなくても、GPT-4V が独自に判断することができます。 この写真では、GPT-4V はこれが脳の磁気共鳴画像 (MRI) 画像であることを正常に識別しました。 同時に、GPT-4Vでは大量の体液蓄積も発見され、これは高悪性度の脳神経膠腫であると考えられました。 専門家の判断により、GPT-4V によって出された結論は完全に正しいと判明しました。 GPT-4Vは、こうした「真面目な」内容に加え、現代人類社会の「無形文化遺産」である絵文字も把握しました。 △機械翻訳、参考のみGPT-4 は、絵文字のミームを解釈できるだけでなく、現実世界の人間の表情で表現される感情も解釈できます。 これらの実際の画像に加えて、テキスト認識もマシンビジョンにおける重要なタスクです。 この点で、GPT-4Vはラテン語で書かれた言語だけでなく、中国語、日本語、ギリシャ語などの他の文字も認識できます。 手書きの数式でも: 画像推論上記のデモは、どれほど専門的であったり、理解しにくいものであっても、まだ認識の域を出ていませんが、これは GPT-4V のスキルの氷山の一角にすぎません。 GPT-4V は、画像の内容を理解するだけでなく、特定の推論機能も備えています。 簡単に言えば、GPT-4V は 2 つの画像の違いを見つけることができます (ただし、まだいくつかのエラーがあります)。 次の一連の写真では、クラウンとボウの違いが GPT-4V によって発見されました。 難易度を上げると、GPT-4V は IQ テストのグラフィック問題も解くことができます。 上記の 3 つの質問の特徴や論理関係は比較的単純ですが、次の質問では難易度が高くなります。 もちろん、グラフ自体に難しさがあるわけではありません。グラフ内の 4 番目のテキストの説明に注目してください。元の質問のグラフの配置は、グラフに示されているとおりではありません。 画像注釈GPT-4V は、テキストでさまざまな質問に答えるだけでなく、画像に対してさまざまな操作を実行することもできます。 たとえば、4 人の AI 巨人の集合写真があり、GPT-4V で人物をフレームに収め、名前と簡単な紹介をマークしたいとします。 GPT-4V はまずこれらの質問にテキストで回答し、次に処理された画像を提供しました。 動的コンテンツ分析GPT-4V はこれらの静的コンテンツに加えて動的分析も実行できますが、モデルにビデオを直接供給することはありません。 以下の 5 つの写真は寿司の作り方のチュートリアル ビデオから取られたもので、GPT-4V のタスクは、 (コンテンツを理解した上で)これらの写真が表示される順序を推測することです。 同じ一連の写真でも、理解の仕方が異なる場合があり、GPT-4V はテキストプロンプトに基づいて判断を行います。 たとえば、次の一連の写真では、人物の動作がドアを開けることなのか、ドアを閉めることなのかによって、ソート結果はまったく逆になります。 もちろん、複数の画像でキャラクターの状態の変化を見ることで、彼らが何をしているのかを推測することもできます。 次に何が起こるかを予測する: 「現地学習」GPT-4V は強力な視覚機能を備えているだけでなく、さらに重要なことに、すぐに学習して適用することができます。 別の例を見てみましょう。GPT-4V に車のダッシュボードを読み取らせます。最初に得た答えは間違っていました。 その後、私は GPT-4V にその方法を言葉で伝えましたが、答えはまだ間違っていました。 次に、この例を GPT-4V に示しましたが、答えは同様でしたが、残念ながら数字は架空のものでした。 1 つの例だけでは確かに少し少なすぎますが、サンプル数が増えるにつれて(実際には 1 つだけ増えただけ) 、GPT-4V は懸命な努力の末、ようやく正しい答えを返しました。 GPT-4V の効果は以上です。もちろん、ここでは一つ一つ紹介しきれないほど多くの分野やタスクもサポートしています。ご興味がおありの方は、元のレポートをお読みください。 では、GPT-4V の驚くべき効果の背後にはどのようなチームがいるのでしょうか? 清華大学の卒業生が率いるこの論文の著者は全部で 7 名おり、全員が中国人で、そのうち 6 名が中心著者です。 このプロジェクトの主執筆者である Lijuan Wang 氏は、マイクロソフトのクラウド コンピューティングおよび AI 担当の主任研究マネージャーです。 彼女は中国の華中科技大学で学士号を取得し、清華大学で博士号を取得しました。2006 年に Microsoft Research Asia に入社し、2016 年にレドモンドの Microsoft Research に入社しました。 彼女の研究分野は、マルチモーダル知覚知能に基づくディープラーニングと機械学習であり、具体的には、視覚言語モデルの事前トレーニング、画像キャプション生成、オブジェクト検出などの AI テクノロジーが含まれます。 元のアドレス: https://arxiv.org/abs/2309.17421 |
<<: 最大400万のトークンコンテキストと22倍の推論速度を備えたStreamingLLMは人気を博し、GitHubで2.5Kのスターを獲得しました。
著者: Xiaoya、Shen Yuan、Judy など1. 背景レビュー検索は、Dianping ...
無人運転車はいつ公道を走るようになるのでしょうか?この時期は私たちが考えていたよりも少し早いかもしれ...
教育革命が起こっており、人工知能は2032年までに882億ドルに達すると予想されています。人工知能(...
英国放送協会が10月25日に報じたところによると、人工知能によって制作された芸術作品がオークションで...
2023年にAIが世界にどのような変化をもたらすかといえば、間違いなくビッグモデルの急速な発展が最...
致命的なコロナウイルスによって引き起こされた経済不況は、さまざまな業界に大きな混乱を引き起こしました...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
導入近年、人工知能とそのソフトウェア・ハードウェア技術の進歩により、自動運転は急速に発展しています...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能と関連技術はマーケティングの未来を変えつつあり、仮想現実 (VR)、音声検索、人工知能はマー...
画像出典: Visual China 1956年、アメリカの経済学者によって「人工知能」の概念が提唱...
このシリーズの前回の記事では、まず TensorFlow の使い方を紹介しました。これは、人工知能お...
7月9日、2020年世界人工知能大会(WAIC)クラウドサミットが正式に開幕した。クアルコムのクリス...
生成モデルは画像生成の分野で大きな成功を収めてきましたが、この技術を 3D 分野に拡張するには常に多...