大きなモデルには画像がラベル付けされるので、簡単な会話だけで十分です。清華大学とNUSから

大きなモデルには画像がラベル付けされるので、簡単な会話だけで十分です。清華大学とNUSから

マルチモーダル大規模モデルに検出およびセグメンテーション モジュールを統合すると、画像の切り取りが簡単になります。

自然言語でニーズを説明するだけで、モデルは探しているオブジェクトをマークし、数分以内にテキストによる説明を提供します。

これをサポートしているのは、シンガポール国立大学の NExT++ 研究所と清華大学の Liu Zhiyuan 氏のチームによって作成された新しいマルチモーダル大規模モデルです。

GPT-4vの登場により、LLaVA、BLIP-2など、マルチモーダル分野では多数の新しいモデルが登場しました。

研究チームは、大規模マルチモーダルモデルの地域理解能力をさらに拡張するために、会話、検出、セグメンテーションを同時に行うことができるマルチモーダルモデルNExT-Chatを作成しました。

NExT-Chat の最大の特徴は、マルチモーダル モデルに位置の入力と出力を導入できることです。

位置入力機能は、指定されたエリアに基づいて質問に答えることを指します (下の左の画像)。位置出力機能は、会話で言及されたオブジェクトを見つけることを指します (下の右の画像)。

複雑な位置決めの問題も簡単に解決できます。

NExT-Chat は、オブジェクトの位置に加えて、画像またはその一部を説明することもできます。


NExT-Chat は画像の内容を分析した後、取得した情報を使用して推論を行うことができます。

NExT-Chat のパフォーマンスを正確に評価するために、研究チームは複数のタスク データセットでテストを実施しました。

複数のデータセットでSOTAを達成する

著者らはまず、参照表現セグメンテーション(RES)タスクにおけるNExT-Chatの実験結果を発表した。

使用されたセグメンテーション データはごくわずかでしたが、NExT-Chat は優れた参照セグメンテーション機能を発揮し、一連の教師ありモデル (MCN、VLT など) や、5 倍以上のセグメンテーション マスク注釈を使用した LISA 方式よりも優れた結果を示しました。

RESタスクに関するNExT-Chatの結果

次に、研究チームはRECタスクにおけるNExT-Chatの実験結果を発表しました。

下の表に示すように、NExT-Chat は、いくつかの教師あり学習法 (UNITER など) よりも優れた結果を達成できます。

興味深い発見は、NExT-Chat のパフォーマンスは、同様のボックス トレーニング データを使用する Shikra よりもわずかに劣るということです。

著者は、これはpix2emb法におけるLM損失と検出損失のバランスをとるのがより難しく、Shikraが既存の大規模プレーンテキストモデルの事前トレーニング形式に近いためだと推測しています。

△RECタスクにおけるNExT-Chatの結果

表 3 に示すように、画像幻覚タスクでは、NExT-Chat は Random データセットと Popular データセットで最高の精度を達成できます。

△ POPEデータセットにおけるNExT-Chatの結果

エリア記述タスクでは、NExT-Chat は最高の CIDEr パフォーマンスを達成し、この指標の 4 ショット ケースで Kosmos-2 を上回ることができました。

△RefCOCOgデータセットにおけるNExT-Chatの結果

では、NExT-Chat の背後ではどのような方法が使用されているのでしょうか?

画像コーディングの新しい方法を提案する

従来の方法の欠点

従来のモデルでは、主に pix2seq メソッドを使用して LLM 関連の位置モデリングを実行します。

たとえば、Kosmos-2 は画像を 32x32 のブロックに分割し、各ブロックの ID を使用してポイントの座標を表します。Shikra は、オブジェクト ボックスの座標をプレーン テキストに変換して、LLM が座標を理解できるようにします。

ただし、pix2seq メソッドを使用したモデル出力は、主にボックスやポイントなどの単純な形式に限定されており、セグメンテーション マスクなどの他のより密度の高い位置表現形式に一般化することは困難です。

この問題を解決するために、本論文では、埋め込みベースの新しい位置モデリング手法 pix2emb を提案します。

pix2emb メソッド

pix2seqとは異なり、pix2embのすべての位置情報は、LLM自体のテキスト予測ヘッダーを使用する代わりに、対応するエンコーダーとデコーダーを介してエンコードおよびデコードされます。

△ pix2emb方式の簡単な例

上図に示すように、位置入力は対応するエンコーダーによって位置埋め込みにエンコードされ、出力位置埋め込みはボックス デコーダーとマスク デコーダーを介してボックスとマスクに変換されます。

これには 2 つの利点があります。

  • モデルの出力形式は、セグメンテーション マスクなどのより複雑な形式に簡単に拡張できます。
  • モデルは、タスク内の既存のプラクティスを簡単に見つけることができます。たとえば、この記事の検出損失では L1 損失と GIoU 損失が使用され (pix2seq ではテキスト生成損失のみを使用できます)、この記事のマスク デコーダーでは初期化に既存の SAM が使用されます。

pix2seq と pix2emb を組み合わせることで、著者らは新しい NExT-Chat モデルをトレーニングしました。

NExT-Chatモデル

△NExT-Chatモデルアーキテクチャ

NExT-Chat は全体的に LLaVA アーキテクチャを採用しており、画像情報はイメージ エンコーダーを介してエンコードされ、理解のために LLM に入力され、これに基づいて、2 つの位置出力を持つ対応するボックス エンコーダーとデコーダーが追加されます。

LLM が言語の LM ヘッドまたは位置デコーダーをいつ使用するかわからないという問題を解決するために、NExT-Chat は位置情報を識別するための追加の新しいトークン タイプを導入します。

モデルが出力する場合、トークンの埋め込みは言語デコーダーではなく、対応する位置デコーダーに送信され、デコードされます。

さらに、入力段階と出力段階で位置情報の一貫性を維持するために、NExT-Chat は追加の配置制約を導入します。

△ポジション入力と出力の制約

上の図に示すように、ボックスと位置の埋め込みは、デコーダー、エンコーダー、またはデコーダーとエンコーダーの組み合わせを通過し、前後で変更されないことが求められます。

著者らは、この方法により位置入力機能の収束が大幅に促進されることを発見した。

NExT-Chat のモデルトレーニングには、主に次の 3 つの段階が含まれます。

  • フェーズ 1: モデルの基本的なボックス入力および出力機能をトレーニングします。 NExT-Chat は、事前トレーニング用に、Flickr-30K、RefCOCO、VisualGenome などのボックス入力と出力を含むデータセットを使用します。トレーニング プロセス中に、すべての LLM パラメータがトレーニングされます。
  • フェーズ2: LLMの指示追従能力を調整する。 Shikra-RD や LLaVA-instruct などのいくつかの命令を通じてデータを微調整すると、モデルは人間の要件により適切に応答し、より人間的な結果を出力できるようになります。
  • フェーズ 3: NExT-Chat モデルにセグメンテーション機能を付与します。上記の 2 段階のトレーニングを通じて、モデルはすでに優れた位置モデリング機能を備えています。著者らはこの機能をさらに拡張して出力をマスクします。実験では、非常に少量のマスク注釈データとトレーニング時間 (約 3 時間) を使用することで、NExT-Chat は優れたセグメンテーション機能を迅速に獲得できることが示されています。

このようなトレーニング プロセスの利点は、検出ボックス データが豊富で、トレーニング コストが小さくなることです。

NExT-Chat は、豊富な検出ボックス データに基づいて基本的な位置モデリング機能をトレーニングし、その後、より困難でラベルの少ないセグメンテーション タスクに迅速に拡張できます。

<<: 

>>:  2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである

推薦する

人工知能学習: 人工ニューラル ネットワークとは何ですか?

[51CTO.com クイック翻訳] 多くの人工知能コンピュータシステムの中核技術は、人間の脳の生...

モノのインターネットにおける人工知能の主要技術と手法

人工知能は、IoT の機能を実現する上で重要な役割を果たします。 AI と IoT の融合を推進し、...

...

...

畳み込みニューラルネットワークのパフォーマンス最適化

導入畳み込みはニューラル ネットワークのコア計算の 1 つです。コンピューター ビジョンにおける畳み...

ドローン技術を都市計画に活用

ドローン技術は、都市計画がスマートシティを形成する方法を再定義するでしょう。都市計画は変化しており、...

機械学習の理論的基礎はどの程度しっかりしているのでしょうか?

機械学習の分野では、いくつかのモデルが非常に効果的ですが、その理由は完全にはわかっていません。逆に、...

...

マイクロソフトが人工知能の小規模スタートアップBonsaiを買収

海外メディアの報道によると、マイクロソフトは水曜日、小規模な人工知能スタートアップ企業であるボンサイ...

...

データセンターにおけるAI技術の応用

AI技術はここ数年で進歩しており、データセンターを含む多くの業界で導入されています。たとえば、Goo...

...

公共の安全を守るために都市に AI を導入するにはどうすればよいでしょうか?

[[347520]]今日私たちが直面している脅威の状況は絶えず変化しています。世界的に、法執行機関...

エンタープライズ AI の大きな課題を解決する方法

既存のデータの 90% は過去 2 年間に生成されたものです。 毎日 7.5 京バイトのデータが生成...