大きなモデルには画像がラベル付けされるので、簡単な会話だけで十分です。清華大学とNUSから

マルチモーダル大規模モデルに検出およびセグメンテーションモジュールを統合すると、画像の切り取りが簡単になります。

自然言語でニーズを説明するだけで、モデルは探しているオブジェクトをマークし、数分以内にテキストによる説明を提供します。

これをサポートしているのは、シンガポール国立大学の NExT++ 研究所と清華大学の Liu Zhiyuan 氏のチームによって作成された新しいマルチモーダル大規模モデルです。

GPT-4vの登場により、LLaVA、BLIP-2など、マルチモーダル分野では多数の新しいモデルが登場しました。

研究チームは、大規模マルチモーダルモデルの地域理解能力をさらに拡張するために、会話、検出、セグメンテーションを同時に行うことができるマルチモーダルモデルNExT-Chatを作成しました。

NExT-Chat の最大の特徴は、マルチモーダルモデルに位置の入力と出力を導入できることです。

位置入力機能は、指定されたエリアに基づいて質問に答えることを指します (下の左の画像)。位置出力機能は、会話で言及されたオブジェクトを見つけることを指します (下の右の画像)。

複雑な位置決めの問題も簡単に解決できます。

NExT-Chat は、オブジェクトの位置に加えて、画像またはその一部を説明することもできます。

NExT-Chat は画像の内容を分析した後、取得した情報を使用して推論を行うことができます。

NExT-Chat のパフォーマンスを正確に評価するために、研究チームは複数のタスクデータセットでテストを実施しました。

複数のデータセットでSOTAを達成する

著者らはまず、参照表現セグメンテーション（RES）タスクにおけるNExT-Chatの実験結果を発表した。

使用されたセグメンテーションデータはごくわずかでしたが、NExT-Chat は優れた参照セグメンテーション機能を発揮し、一連の教師ありモデル (MCN、VLT など) や、5 倍以上のセグメンテーションマスク注釈を使用した LISA 方式よりも優れた結果を示しました。

RESタスクに関するNExT-Chatの結果

次に、研究チームはRECタスクにおけるNExT-Chatの実験結果を発表しました。

下の表に示すように、NExT-Chat は、いくつかの教師あり学習法 (UNITER など) よりも優れた結果を達成できます。

興味深い発見は、NExT-Chat のパフォーマンスは、同様のボックストレーニングデータを使用する Shikra よりもわずかに劣るということです。

著者は、これはpix2emb法におけるLM損失と検出損失のバランスをとるのがより難しく、Shikraが既存の大規模プレーンテキストモデルの事前トレーニング形式に近いためだと推測しています。

△RECタスクにおけるNExT-Chatの結果

表 3 に示すように、画像幻覚タスクでは、NExT-Chat は Random データセットと Popular データセットで最高の精度を達成できます。

△ POPEデータセットにおけるNExT-Chatの結果

エリア記述タスクでは、NExT-Chat は最高の CIDEr パフォーマンスを達成し、この指標の 4 ショットケースで Kosmos-2 を上回ることができました。

△RefCOCOgデータセットにおけるNExT-Chatの結果

では、NExT-Chat の背後ではどのような方法が使用されているのでしょうか?

画像コーディングの新しい方法を提案する

従来の方法の欠点

従来のモデルでは、主に pix2seq メソッドを使用して LLM 関連の位置モデリングを実行します。

たとえば、Kosmos-2 は画像を 32x32 のブロックに分割し、各ブロックの ID を使用してポイントの座標を表します。Shikra は、オブジェクトボックスの座標をプレーンテキストに変換して、LLM が座標を理解できるようにします。

ただし、pix2seq メソッドを使用したモデル出力は、主にボックスやポイントなどの単純な形式に限定されており、セグメンテーションマスクなどの他のより密度の高い位置表現形式に一般化することは困難です。

この問題を解決するために、本論文では、埋め込みベースの新しい位置モデリング手法 pix2emb を提案します。

pix2emb メソッド

pix2seqとは異なり、pix2embのすべての位置情報は、LLM自体のテキスト予測ヘッダーを使用する代わりに、対応するエンコーダーとデコーダーを介してエンコードおよびデコードされます。

△ pix2emb方式の簡単な例

上図に示すように、位置入力は対応するエンコーダーによって位置埋め込みにエンコードされ、出力位置埋め込みはボックスデコーダーとマスクデコーダーを介してボックスとマスクに変換されます。

これには 2 つの利点があります。

モデルの出力形式は、セグメンテーションマスクなどのより複雑な形式に簡単に拡張できます。
モデルは、タスク内の既存のプラクティスを簡単に見つけることができます。たとえば、この記事の検出損失では L1 損失と GIoU 損失が使用され (pix2seq ではテキスト生成損失のみを使用できます)、この記事のマスクデコーダーでは初期化に既存の SAM が使用されます。

pix2seq と pix2emb を組み合わせることで、著者らは新しい NExT-Chat モデルをトレーニングしました。

NExT-Chatモデル

△NExT-Chatモデルアーキテクチャ

NExT-Chat は全体的に LLaVA アーキテクチャを採用しており、画像情報はイメージエンコーダーを介してエンコードされ、理解のために LLM に入力され、これに基づいて、2 つの位置出力を持つ対応するボックスエンコーダーとデコーダーが追加されます。

LLM が言語の LM ヘッドまたは位置デコーダーをいつ使用するかわからないという問題を解決するために、NExT-Chat は位置情報を識別するための追加の新しいトークンタイプを導入します。

モデルが出力する場合、トークンの埋め込みは言語デコーダーではなく、対応する位置デコーダーに送信され、デコードされます。

さらに、入力段階と出力段階で位置情報の一貫性を維持するために、NExT-Chat は追加の配置制約を導入します。

△ポジション入力と出力の制約

上の図に示すように、ボックスと位置の埋め込みは、デコーダー、エンコーダー、またはデコーダーとエンコーダーの組み合わせを通過し、前後で変更されないことが求められます。

著者らは、この方法により位置入力機能の収束が大幅に促進されることを発見した。

NExT-Chat のモデルトレーニングには、主に次の 3 つの段階が含まれます。

フェーズ 1: モデルの基本的なボックス入力および出力機能をトレーニングします。 NExT-Chat は、事前トレーニング用に、Flickr-30K、RefCOCO、VisualGenome などのボックス入力と出力を含むデータセットを使用します。トレーニングプロセス中に、すべての LLM パラメータがトレーニングされます。
フェーズ2: LLMの指示追従能力を調整する。 Shikra-RD や LLaVA-instruct などのいくつかの命令を通じてデータを微調整すると、モデルは人間の要件により適切に応答し、より人間的な結果を出力できるようになります。
フェーズ 3: NExT-Chat モデルにセグメンテーション機能を付与します。上記の 2 段階のトレーニングを通じて、モデルはすでに優れた位置モデリング機能を備えています。著者らはこの機能をさらに拡張して出力をマスクします。実験では、非常に少量のマスク注釈データとトレーニング時間 (約 3 時間) を使用することで、NExT-Chat は優れたセグメンテーション機能を迅速に獲得できることが示されています。

このようなトレーニングプロセスの利点は、検出ボックスデータが豊富で、トレーニングコストが小さくなることです。

NExT-Chat は、豊富な検出ボックスデータに基づいて基本的な位置モデリング機能をトレーニングし、その後、より困難でラベルの少ないセグメンテーションタスクに迅速に拡張できます。

<<:

>>: 2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである