大きなモデルには画像がラベル付けされるので、簡単な会話だけで十分です。清華大学とNUSから

大きなモデルには画像がラベル付けされるので、簡単な会話だけで十分です。清華大学とNUSから

マルチモーダル大規模モデルに検出およびセグメンテーション モジュールを統合すると、画像の切り取りが簡単になります。

自然言語でニーズを説明するだけで、モデルは探しているオブジェクトをマークし、数分以内にテキストによる説明を提供します。

これをサポートしているのは、シンガポール国立大学の NExT++ 研究所と清華大学の Liu Zhiyuan 氏のチームによって作成された新しいマルチモーダル大規模モデルです。

GPT-4vの登場により、LLaVA、BLIP-2など、マルチモーダル分野では多数の新しいモデルが登場しました。

研究チームは、大規模マルチモーダルモデルの地域理解能力をさらに拡張するために、会話、検出、セグメンテーションを同時に行うことができるマルチモーダルモデルNExT-Chatを作成しました。

NExT-Chat の最大の特徴は、マルチモーダル モデルに位置の入力と出力を導入できることです。

位置入力機能は、指定されたエリアに基づいて質問に答えることを指します (下の左の画像)。位置出力機能は、会話で言及されたオブジェクトを見つけることを指します (下の右の画像)。

複雑な位置決めの問題も簡単に解決できます。

NExT-Chat は、オブジェクトの位置に加えて、画像またはその一部を説明することもできます。


NExT-Chat は画像の内容を分析した後、取得した情報を使用して推論を行うことができます。

NExT-Chat のパフォーマンスを正確に評価するために、研究チームは複数のタスク データセットでテストを実施しました。

複数のデータセットでSOTAを達成する

著者らはまず、参照表現セグメンテーション(RES)タスクにおけるNExT-Chatの実験結果を発表した。

使用されたセグメンテーション データはごくわずかでしたが、NExT-Chat は優れた参照セグメンテーション機能を発揮し、一連の教師ありモデル (MCN、VLT など) や、5 倍以上のセグメンテーション マスク注釈を使用した LISA 方式よりも優れた結果を示しました。

RESタスクに関するNExT-Chatの結果

次に、研究チームはRECタスクにおけるNExT-Chatの実験結果を発表しました。

下の表に示すように、NExT-Chat は、いくつかの教師あり学習法 (UNITER など) よりも優れた結果を達成できます。

興味深い発見は、NExT-Chat のパフォーマンスは、同様のボックス トレーニング データを使用する Shikra よりもわずかに劣るということです。

著者は、これはpix2emb法におけるLM損失と検出損失のバランスをとるのがより難しく、Shikraが既存の大規模プレーンテキストモデルの事前トレーニング形式に近いためだと推測しています。

△RECタスクにおけるNExT-Chatの結果

表 3 に示すように、画像幻覚タスクでは、NExT-Chat は Random データセットと Popular データセットで最高の精度を達成できます。

△ POPEデータセットにおけるNExT-Chatの結果

エリア記述タスクでは、NExT-Chat は最高の CIDEr パフォーマンスを達成し、この指標の 4 ショット ケースで Kosmos-2 を上回ることができました。

△RefCOCOgデータセットにおけるNExT-Chatの結果

では、NExT-Chat の背後ではどのような方法が使用されているのでしょうか?

画像コーディングの新しい方法を提案する

従来の方法の欠点

従来のモデルでは、主に pix2seq メソッドを使用して LLM 関連の位置モデリングを実行します。

たとえば、Kosmos-2 は画像を 32x32 のブロックに分割し、各ブロックの ID を使用してポイントの座標を表します。Shikra は、オブジェクト ボックスの座標をプレーン テキストに変換して、LLM が座標を理解できるようにします。

ただし、pix2seq メソッドを使用したモデル出力は、主にボックスやポイントなどの単純な形式に限定されており、セグメンテーション マスクなどの他のより密度の高い位置表現形式に一般化することは困難です。

この問題を解決するために、本論文では、埋め込みベースの新しい位置モデリング手法 pix2emb を提案します。

pix2emb メソッド

pix2seqとは異なり、pix2embのすべての位置情報は、LLM自体のテキスト予測ヘッダーを使用する代わりに、対応するエンコーダーとデコーダーを介してエンコードおよびデコードされます。

△ pix2emb方式の簡単な例

上図に示すように、位置入力は対応するエンコーダーによって位置埋め込みにエンコードされ、出力位置埋め込みはボックス デコーダーとマスク デコーダーを介してボックスとマスクに変換されます。

これには 2 つの利点があります。

  • モデルの出力形式は、セグメンテーション マスクなどのより複雑な形式に簡単に拡張できます。
  • モデルは、タスク内の既存のプラクティスを簡単に見つけることができます。たとえば、この記事の検出損失では L1 損失と GIoU 損失が使用され (pix2seq ではテキスト生成損失のみを使用できます)、この記事のマスク デコーダーでは初期化に既存の SAM が使用されます。

pix2seq と pix2emb を組み合わせることで、著者らは新しい NExT-Chat モデルをトレーニングしました。

NExT-Chatモデル

△NExT-Chatモデルアーキテクチャ

NExT-Chat は全体的に LLaVA アーキテクチャを採用しており、画像情報はイメージ エンコーダーを介してエンコードされ、理解のために LLM に入力され、これに基づいて、2 つの位置出力を持つ対応するボックス エンコーダーとデコーダーが追加されます。

LLM が言語の LM ヘッドまたは位置デコーダーをいつ使用するかわからないという問題を解決するために、NExT-Chat は位置情報を識別するための追加の新しいトークン タイプを導入します。

モデルが出力する場合、トークンの埋め込みは言語デコーダーではなく、対応する位置デコーダーに送信され、デコードされます。

さらに、入力段階と出力段階で位置情報の一貫性を維持するために、NExT-Chat は追加の配置制約を導入します。

△ポジション入力と出力の制約

上の図に示すように、ボックスと位置の埋め込みは、デコーダー、エンコーダー、またはデコーダーとエンコーダーの組み合わせを通過し、前後で変更されないことが求められます。

著者らは、この方法により位置入力機能の収束が大幅に促進されることを発見した。

NExT-Chat のモデルトレーニングには、主に次の 3 つの段階が含まれます。

  • フェーズ 1: モデルの基本的なボックス入力および出力機能をトレーニングします。 NExT-Chat は、事前トレーニング用に、Flickr-30K、RefCOCO、VisualGenome などのボックス入力と出力を含むデータセットを使用します。トレーニング プロセス中に、すべての LLM パラメータがトレーニングされます。
  • フェーズ2: LLMの指示追従能力を調整する。 Shikra-RD や LLaVA-instruct などのいくつかの命令を通じてデータを微調整すると、モデルは人間の要件により適切に応答し、より人間的な結果を出力できるようになります。
  • フェーズ 3: NExT-Chat モデルにセグメンテーション機能を付与します。上記の 2 段階のトレーニングを通じて、モデルはすでに優れた位置モデリング機能を備えています。著者らはこの機能をさらに拡張して出力をマスクします。実験では、非常に少量のマスク注釈データとトレーニング時間 (約 3 時間) を使用することで、NExT-Chat は優れたセグメンテーション機能を迅速に獲得できることが示されています。

このようなトレーニング プロセスの利点は、検出ボックス データが豊富で、トレーニング コストが小さくなることです。

NExT-Chat は、豊富な検出ボックス データに基づいて基本的な位置モデリング機能をトレーニングし、その後、より困難でラベルの少ないセグメンテーション タスクに迅速に拡張できます。

<<: 

>>:  2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである

ブログ    
ブログ    

推薦する

セキュリティ業界の大手企業はどのようにドローンを配備するのでしょうか?

ドローンは警報装置、検出器、カメラなどを搭載し、多くの機能を実現でき、セキュリティ監視、スマートビル...

リザーブプールコンピューティングにおける新たなブレークスルー:ニューロン数が少なくなり、コンピューティング速度が最大100万倍に高速化

複雑なシステムを予測するには、より多くのニューロンを使用する必要がありますか?ネイチャー・コミュニケ...

人工知能に関する長期的および短期的な懸念

人工知能(AI)技術の発展により、いつか「超人」的なAIが出現する日は来るのでしょうか?もしそうなれ...

米国の都市、犯罪増加で顔認識技術の禁止を撤回

バージニア州は7月に地元警察による顔認識技術の使用禁止を解除する予定だが、カリフォルニア州とニューオ...

...

ディープラーニングモデルの知的財産権をどのように保護するか? IJCAI 2021ワークショップの内容をご覧ください

先日終了したIJCAI 2021カンファレンスでは、「ディープラーニングモデルの知的財産保護に関する...

テンセント、自動運転のリアルタイム制御を改善する新たな特許を発表

テンセントテクノロジー(深圳)有限公司は5月13日、人工知能ベースの自動運転方法、デバイス、設備、媒...

AI は金融業界がランサムウェアに効果的に対抗するのに役立つでしょうか?

[[430265]]ランサムウェアの脅威は目新しいものではありませんが、依然としてニュースの見出し...

...

AIの導入は増加しているが、障壁は残っている

AI の可能性は魅力的ですが、導入までの道のりには課題がないわけではありません。企業は、急速に変化す...

SurroundOcc: サラウンド 3D 占有グリッドの最新技術!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ML 向け勾配降下法アルゴリズム 機械学習初心者向け勾配降下法アルゴリズム

[[197951]]基本概念このセクションでは、勾配降下法をより一般化するために、機械学習アルゴリズ...

...

TensorFlow の最大の機械学習データセット 30 件

導入画像、ビデオ、オーディオ、テキストが含まれており、非常に包括的です。機械学習のための最大のTen...

感情コンピューティングは人間とコンピュータの相互作用の中核となるのでしょうか?感情分析におけるディープラーニングの応用について

人間とコンピュータの相互作用における感情コンピューティングの役割感情コンピューティングについて話す前...