マルチモーダル大規模モデルに検出およびセグメンテーション モジュールを統合すると、画像の切り取りが簡単になります。 自然言語でニーズを説明するだけで、モデルは探しているオブジェクトをマークし、数分以内にテキストによる説明を提供します。 これをサポートしているのは、シンガポール国立大学の NExT++ 研究所と清華大学の Liu Zhiyuan 氏のチームによって作成された新しいマルチモーダル大規模モデルです。 GPT-4vの登場により、LLaVA、BLIP-2など、マルチモーダル分野では多数の新しいモデルが登場しました。 研究チームは、大規模マルチモーダルモデルの地域理解能力をさらに拡張するために、会話、検出、セグメンテーションを同時に行うことができるマルチモーダルモデルNExT-Chatを作成しました。 NExT-Chat の最大の特徴は、マルチモーダル モデルに位置の入力と出力を導入できることです。 位置入力機能は、指定されたエリアに基づいて質問に答えることを指します (下の左の画像)。位置出力機能は、会話で言及されたオブジェクトを見つけることを指します (下の右の画像)。 複雑な位置決めの問題も簡単に解決できます。 NExT-Chat は、オブジェクトの位置に加えて、画像またはその一部を説明することもできます。
NExT-Chat のパフォーマンスを正確に評価するために、研究チームは複数のタスク データセットでテストを実施しました。 複数のデータセットでSOTAを達成する著者らはまず、参照表現セグメンテーション(RES)タスクにおけるNExT-Chatの実験結果を発表した。 使用されたセグメンテーション データはごくわずかでしたが、NExT-Chat は優れた参照セグメンテーション機能を発揮し、一連の教師ありモデル (MCN、VLT など) や、5 倍以上のセグメンテーション マスク注釈を使用した LISA 方式よりも優れた結果を示しました。 RESタスクに関するNExT-Chatの結果次に、研究チームはRECタスクにおけるNExT-Chatの実験結果を発表しました。 下の表に示すように、NExT-Chat は、いくつかの教師あり学習法 (UNITER など) よりも優れた結果を達成できます。 興味深い発見は、NExT-Chat のパフォーマンスは、同様のボックス トレーニング データを使用する Shikra よりもわずかに劣るということです。 著者は、これはpix2emb法におけるLM損失と検出損失のバランスをとるのがより難しく、Shikraが既存の大規模プレーンテキストモデルの事前トレーニング形式に近いためだと推測しています。 △RECタスクにおけるNExT-Chatの結果表 3 に示すように、画像幻覚タスクでは、NExT-Chat は Random データセットと Popular データセットで最高の精度を達成できます。 △ POPEデータセットにおけるNExT-Chatの結果エリア記述タスクでは、NExT-Chat は最高の CIDEr パフォーマンスを達成し、この指標の 4 ショット ケースで Kosmos-2 を上回ることができました。 △RefCOCOgデータセットにおけるNExT-Chatの結果では、NExT-Chat の背後ではどのような方法が使用されているのでしょうか? 画像コーディングの新しい方法を提案する従来の方法の欠点従来のモデルでは、主に pix2seq メソッドを使用して LLM 関連の位置モデリングを実行します。 たとえば、Kosmos-2 は画像を 32x32 のブロックに分割し、各ブロックの ID を使用してポイントの座標を表します。Shikra は、オブジェクト ボックスの座標をプレーン テキストに変換して、LLM が座標を理解できるようにします。 ただし、pix2seq メソッドを使用したモデル出力は、主にボックスやポイントなどの単純な形式に限定されており、セグメンテーション マスクなどの他のより密度の高い位置表現形式に一般化することは困難です。 この問題を解決するために、本論文では、埋め込みベースの新しい位置モデリング手法 pix2emb を提案します。 pix2emb メソッドpix2seqとは異なり、pix2embのすべての位置情報は、LLM自体のテキスト予測ヘッダーを使用する代わりに、対応するエンコーダーとデコーダーを介してエンコードおよびデコードされます。 △ pix2emb方式の簡単な例上図に示すように、位置入力は対応するエンコーダーによって位置埋め込みにエンコードされ、出力位置埋め込みはボックス デコーダーとマスク デコーダーを介してボックスとマスクに変換されます。 これには 2 つの利点があります。
pix2seq と pix2emb を組み合わせることで、著者らは新しい NExT-Chat モデルをトレーニングしました。 NExT-Chatモデル△NExT-ChatモデルアーキテクチャNExT-Chat は全体的に LLaVA アーキテクチャを採用しており、画像情報はイメージ エンコーダーを介してエンコードされ、理解のために LLM に入力され、これに基づいて、2 つの位置出力を持つ対応するボックス エンコーダーとデコーダーが追加されます。 LLM が言語の LM ヘッドまたは位置デコーダーをいつ使用するかわからないという問題を解決するために、NExT-Chat は位置情報を識別するための追加の新しいトークン タイプを導入します。 モデルが出力する場合、トークンの埋め込みは言語デコーダーではなく、対応する位置デコーダーに送信され、デコードされます。 さらに、入力段階と出力段階で位置情報の一貫性を維持するために、NExT-Chat は追加の配置制約を導入します。 △ポジション入力と出力の制約上の図に示すように、ボックスと位置の埋め込みは、デコーダー、エンコーダー、またはデコーダーとエンコーダーの組み合わせを通過し、前後で変更されないことが求められます。 著者らは、この方法により位置入力機能の収束が大幅に促進されることを発見した。 NExT-Chat のモデルトレーニングには、主に次の 3 つの段階が含まれます。
このようなトレーニング プロセスの利点は、検出ボックス データが豊富で、トレーニング コストが小さくなることです。 NExT-Chat は、豊富な検出ボックス データに基づいて基本的な位置モデリング機能をトレーニングし、その後、より困難でラベルの少ないセグメンテーション タスクに迅速に拡張できます。 |
>>: 2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである
1月8日のニュースによると、2023年には、生成型人工知能が企業や投資家の間で大きなブームを引き起こ...
「今後10年から15年の間に、従来の製造業が直面する苦痛は、今日私たちが想像するよりもはるかに大きく...
[[410798]] FaceAppの人気は過ぎ去り、最近では、あなたの顔を数秒で「ディズニー」に変...
1. 大規模言語モデル推論の概要従来の CNN モデル推論とは異なり、大規模言語モデルの推論は通常、...
AIGC の魔法の世界では、画像を「ドラッグ」することで、必要な画像を変更したり合成したりできます...
顧客エンゲージメント、パーソナライゼーションなど、5 つの異なる領域で AI を使用して顧客サービス...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[414016]]ヘルスケア業界における人工知能と機械学習の役割を理解するには、ヘルスケア業界にお...
ロシア衛星ネットワークによると、最近、ロシアの「3Dバイオプリンティングソリューションズ」社のマネー...
Google は再びロボットの製造を開始する予定です。 。 。このニュースを伝えたとき、私は Go...