GPT-4V でさえ解明できない未来推論の解決策があります!華中科技大学と上海理工大学出身

マルチモーダル大規模言語モデルは、強力な画像理解および推論機能を発揮します。

しかし、現在の観察に基づいて将来の出来事について予測的な推論をさせることは、依然として非常に困難です。

現在入手可能な最も強力な GPT-4V (以下に示す)でも、この問題をうまく解決することはできません。

△ GPT-4V エラーケース

現在、華中科技大学と上海理工大学のチームは、マルチモーダル大規模言語モデルに将来を見据えた思考を与える学習パラダイムを提案し、このパラダイムに基づいてマルチモーダル大規模言語モデルMerlinを構築しました。

マーリンはアーサー王伝説の伝説上の人物であり、その強力な魔法と知恵で有名です。伝説によると、マーリンは未来を予見する能力を持ち、運命を深く理解しているそうです。

具体的にどのように行われるか見てみましょう。

注: 人間は、現在の観察に基づいて、これから起こる出来事や次の期間に起こる可能性のある出来事を推測することができます。この能力を将来を見据えた思考と呼びます。

簡単な例:

NBA の試合をテレビで観戦する場合、コート上の各選手の状態に基づいて次に何が起こるかを判断することができます。

たとえば、攻撃側の選手がボールを持って守備側の選手を突破したとき、その選手がレイアップやスラムダンクをするためにバスケットに突進しようとしていると判断する根拠があります。

たとえば、ボールハンドラーがスリーポイントラインで止まり、バスケットの方を向いている場合、そのプレーヤーがスリーポイントシュートを打とうとしていると予測する根拠があります（もちろん、ディフェンダーを振り切って突破するためのフェイクムーブである可能性もあります）。

Merlin 大規模モデルでは、そのような予測を行うことができます。

方法の紹介

マルチモーダル大規模言語モデルを刺激する先進的な考え方を強化する方法を探ります。

私たちはまず、人間が将来の出来事についてどのように予測を行うかについて詳細な分析を行いました。

私たちは、将来の出来事についての人間の推論を 2 段階のシステムとして捉えています。

第一段階では、現在のシーンを観察し、関連する被写体の動的な手がかりを捉えることに重点を置きます。第二段階では、得られた動的な手がかりに基づいて、脳が被写体の行動パターン（歩く、走るなど）と行動の意図を分析し、すぐに起こる可能性のあるイベントを推測します。

マルチモーダル大規模言語モデルと比較すると、大規模言語モデルの強力な論理的推論能力のおかげで、第 2 段階をうまく完了できると考えています。

したがって、問題は最初の段階にあります。つまり、現在のマルチモーダル大規模言語モデルでは、関連する主体の動的な情報をうまく捉えることが難しく、その結果、将来の出来事について推論する能力が制限されます。

この結論に達した後、次に行う必要があるのは、マルチモーダル大規模言語モデルが現在の観察から関連する主題の動的な手がかり情報をキャプチャすることを学習できるようにする方法を検討することです。

この目標を達成するための直接的な解決策は、マルチモーダル大規模言語モデルに次のフレームのすべての情報を予測するように学習させること（つまり、最適化目標として次のフレームを再構築すること）です。

しかし、そうすることで、一方では学習がより困難になり、他方では、画像またはビデオシーケンスに大量の冗長な視覚情報が含まれることになり、モデルが対応する対象の動的情報を捕捉する学習に役立たなくなります。

以上の分析に基づき、本稿では、最適化対象として「軌跡」の構造化表現を用いて、過去と未来の動的なつながりを確立する方法を提案する。軌道を最適化ターゲットとして使用すると、次のような利点があると考えています。

（１）軌跡は高度に構造化された表現であるため、情報の凝縮性が高く、モデルが連続的な行動における被験者の重要な動的情報を効果的に抽出するのに役立ち、冗長な視覚情報を学習する必要性を減らし、計算コストを削減します。

（２）軌跡は過去と未来を自然に結びつけることができる。マルチモーダル大規模言語モデルは、被写体の軌跡を予測することを学習することにより、異なるフレーム内の対応する被写体の対応する位置に正確に焦点を当てることを学習する必要があり、これにより、モデルのマルチイメージおよびマルチアイデンティティ（Id）アライメント機能が大幅に強化されます。

これらの利点に基づいて、画像、ビデオ、テキストなどのマルチモーダル入力から対象者の動きの軌跡を抽出して理解し、予測を行うことに重点を置いた新しい学習フレームワークを設計します。フレームワークは次のとおりです。

現在主流となっている LLM 学習パラダイムにヒントを得て、私たちはForesight Pre -Training (FPT)と Foresight Instruction -Tuning (FIT)という 2 段階の学習パラダイムも構築しました。

FPT では、まず、複数の画像フレームを含む視覚コンテキストトークンをモデルに入力し、次に、関連する被写体の最初のフレームの初期観測値 (初期位置、外観の説明、またはアクションの説明) を与え、次に、初期観測値に基づいて、対応する被写体の全体的な軌跡を予測するようにモデルに要求します。

全体の軌跡を予測することを学習することで、モデルは複数の画像内の対応する被写体に正しく焦点を合わせ、その動的な情報をキャプチャすることを学習する必要があります。

FIT では、関連する主題についての対話を実施するために、いくつかの関連するユーザープロンプトが追加されます。

注目すべきは、この段階でモデルの将来志向的な思考を刺激するために、「軌跡」を中核とする指示インタラクション形式も設計したことです。これを、 Trajectory Chain-of-Thought (T-CoT) と呼んでいます。

具体的には、モデルと会話をする際に、モデルに、言及された関連のある主題の軌跡を出力するように依頼します（上図参照）。

軌跡全体を出力することで、モデルは複数のグラフ内の対応する主題に注意を払うようになり、将来のイベントに関するその後の推論に十分な動的情報が提供されます。方法の詳細については、論文をお読みください。

データ構造

学習パラダイムを設計した後、次に重要なことは、モデルが学習するための適切なデータを構築することです。現在市場で入手可能なオープンソースデータに基づいて、マルチタスク学習データセットを慎重に構築しました。データの分布は次のとおりです。

主にキャプション、参照、検出、追跡、推論、対話データが含まれます。*データは命令微調整段階(FIT)でのみ使用されることを示します。

ここで、Merlin は初めて追跡データから構築された FPT データを使用して、モデルに軌道認識および予測機能を与えました。

一方で、タスクプロンプトと回答フォーマットの正確な定義技術も提案しました。

大規模モデルに特定のタスクと出力形式を伝えることで、マルチタスク学習と一般的なマルチモーダル機能へのダメージとの間の競合を回避できます。

その後の実験では、この技術を使用することで、大規模なモデルがマルチタスク固有の機能と一般的なマルチモーダル機能の両方を学習できることも示されました。

能力デモンストレーション

上記の 2 つの学習プロセスと構築された高品質のデータを組み合わせて、新しい汎用マルチモーダル大規模言語モデル Merlin を構築しました。

Merlin は、単一画像または複数フレームの画像シーケンスの入力をサポートし、検出、追跡、REC、REG などの一連のタスクを完了できます。

同時に、私たちが提案した FPT と FIT のおかげで、Merlin は強力な軌道ベースの未来推論機能を発揮します。ここでは、Merlin の機能を実証するためにいくつかのケースを選択します。詳細なテスト結果については、私たちの論文とその後のオープンデモをお読みください。

実験分析

Merlin の機能をあらゆる面で総合的に評価するために、一連のパフォーマンス比較テストとプロパティ探索実験を設計しました。ここでは、いくつかの刺激的な実験を選択して共有することに焦点を当てています。実験の詳細については、当社の論文をお読みください。

1. 将来の推論評価

現在の分野には大規模なマルチモーダル言語モデルを評価できる成熟したベンチマークがないため、本研究では MMBench に基づいて新しい Future Reasoning Bench を構築しました。

このベンチマークでは、Merlin は既存の主流のマルチモーダル大規模モデルを大幅に上回り、強力な将来の推論能力を実証しています。

2. 軌道の関連付けと予測評価

Merlin は事前トレーニングにおける中核的な学習目標として、初期観察に基づく関連対象の軌道予測を使用しているため、この学習状況をより包括的に評価するために、評価のための追跡という下流タスクに焦点を当てました。

これは、軌跡の関連付けが追跡タスクにおける中核サブタスクであり、追跡の評価指標は大規模モデルの複数の画像と複数の ID の位置合わせ能力をある程度反映できるためです。

結果から、Merlin は一般的なマルチモーダル大規模言語モデルとして、追跡タスクにおいて一部の専門モデルを凌駕していることがわかります。また、マルチモーダル大規模言語モデルが追跡関連のタスクを実行できるのは今回が初めてであることも注目に値します。

3. 幻覚の評価

幻覚問題は、大規模モデルの分野における重要な研究テーマです。マルチモーダル大規模言語モデルでは視覚モダリティが導入されているため、対象の説明と対応する視覚情報を正確に一致させることができないために生じるバイアスが、さらに深刻な幻覚につながります。

本稿では、モデルの画像とテキストの配置機能を評価するために、POPE 上の Merlin の幻覚評価を実施しました。次の表に示すように:

Merlin は強力な幻覚防止機能を発揮し、現在主流のマルチモーダル大規模言語モデルを大幅に上回っていることがわかります。これは、私たちが提案した前向きな思考トレーニングパラダイムによって、モデルの「画像認識」能力が向上し、モデルによる画像コンテンツの誤認識や画像とテキストの不一致が軽減されることを証明しています。

4. マルチモーダル総合パフォーマンス評価

Merlin は、現在主流となっているマルチモーダル大規模言語モデルの包括的な機能(MMBench および MMVet を含む)とビジュアル質問応答機能(GQA および VisWiz を含む)の評価ベンチマークでも評価されました。

評価結果によると、Merlin は非常に競争力のある結果を達成しており、Merlin の強力な総合的な能力を実証しています。

5. 視覚分析

Merlin が動的な情報の手がかりをどのように捉えるかをより直感的に示すために、この記事では興味深い視覚化実験も行いました。特定の対話の質問と回答について、モデルによって出力された軌跡座標の単語埋め込みと複数フレームの画像の視覚トークン間の注目マップを視覚化しました (次の図を参照)。

モデルによって出力された推定座標の単語埋め込みにより、対応するフレーム内の対応する対象物に正確に焦点を合わせることができることがわかります。

この視覚化の結果は、「軌跡」が、マルチモーダル大規模言語モデルが複数の画像フレーム内の言語記述と対応する主題との間の動的な関連付けを確立するのに役立つ非常に優れた中間表現であることも証明しています。

これは、別の観点から、Merlin が強力なマルチモーダル統合機能と幻覚防止機能を備えている理由も説明しています。

考察と結論

マーリンの研究は、大規模なマルチモーダル言語モデルが将来を見据えた思考をするために、「軌跡」の構造化された表現が果たす重要な役割を示しています。

ここから、マルチモーダル大規模言語モデルの学習における境界ボックスと軌跡の役割についてさらに考えることができます。

それは中間形式ですか、それとも別の学習最適化目標になることができますか?

一方、既存の座標エンコーディングは妥当なものでしょうか？自然言語にもっと適した表現形式はあるのでしょうか？

現時点ではこれらの質問に対する標準的な答えはなく、研究者はさらに詳細な調査を行う必要があると思います。最後に、Merlin の取り組みが、マルチモーダル大規模モデルコミュニティに新たな考え方や認識をもたらすことを願っています。また、皆様が引き続き私たちの取り組みに注目し、より多くのコミュニケーションを図っていただくことを歓迎します。

論文: https://arxiv.org/pdf/2312.00589.pdf

<<: 「クローズドループ」に向けての運転 | LMDrive: LLM に基づく初のクローズドループエンドツーエンド自動運転

>>: 速度が1000倍になりました！拡散モデルは物質の錬金術プロセスを予測し、システムが複雑になればなるほど加速が大きくなる