マルチモーダル大規模モデルに検出およびセグメンテーション モジュールを統合すると、画像の切り取りが簡単になります。 自然言語でニーズを説明するだけで、モデルは探しているオブジェクトをマークし、数分以内にテキストによる説明を提供します。 これをサポートしているのは、シンガポール国立大学の NExT++ 研究所と清華大学の Liu Zhiyuan 氏のチームによって作成された新しいマルチモーダル大規模モデルです。 GPT-4vの登場により、LLaVA、BLIP-2など、マルチモーダル分野では多数の新しいモデルが登場しました。 研究チームは、大規模マルチモーダルモデルの地域理解能力をさらに拡張するために、会話、検出、セグメンテーションを同時に行うことができるマルチモーダルモデルNExT-Chatを作成しました。 NExT-Chat の最大の特徴は、マルチモーダル モデルに位置の入力と出力を導入できることです。 位置入力機能は、指定されたエリアに基づいて質問に答えることを指します (下の左の画像)。位置出力機能は、会話で言及されたオブジェクトを見つけることを指します (下の右の画像)。 複雑な位置決めの問題も簡単に解決できます。 NExT-Chat は、オブジェクトの位置に加えて、画像またはその一部を説明することもできます。
NExT-Chat のパフォーマンスを正確に評価するために、研究チームは複数のタスク データセットでテストを実施しました。 複数のデータセットでSOTAを達成する著者らはまず、参照表現セグメンテーション(RES)タスクにおけるNExT-Chatの実験結果を発表した。 使用されたセグメンテーション データはごくわずかでしたが、NExT-Chat は優れた参照セグメンテーション機能を発揮し、一連の教師ありモデル (MCN、VLT など) や、5 倍以上のセグメンテーション マスク注釈を使用した LISA 方式よりも優れた結果を示しました。 RESタスクに関するNExT-Chatの結果次に、研究チームはRECタスクにおけるNExT-Chatの実験結果を発表しました。 下の表に示すように、NExT-Chat は、いくつかの教師あり学習法 (UNITER など) よりも優れた結果を達成できます。 興味深い発見は、NExT-Chat のパフォーマンスは、同様のボックス トレーニング データを使用する Shikra よりもわずかに劣るということです。 著者は、これはpix2emb法におけるLM損失と検出損失のバランスをとるのがより難しく、Shikraが既存の大規模プレーンテキストモデルの事前トレーニング形式に近いためだと推測しています。 △RECタスクにおけるNExT-Chatの結果表 3 に示すように、画像幻覚タスクでは、NExT-Chat は Random データセットと Popular データセットで最高の精度を達成できます。 △ POPEデータセットにおけるNExT-Chatの結果エリア記述タスクでは、NExT-Chat は最高の CIDEr パフォーマンスを達成し、この指標の 4 ショット ケースで Kosmos-2 を上回ることができました。 △RefCOCOgデータセットにおけるNExT-Chatの結果では、NExT-Chat の背後ではどのような方法が使用されているのでしょうか? 画像コーディングの新しい方法を提案する従来の方法の欠点従来のモデルでは、主に pix2seq メソッドを使用して LLM 関連の位置モデリングを実行します。 たとえば、Kosmos-2 は画像を 32x32 のブロックに分割し、各ブロックの ID を使用してポイントの座標を表します。Shikra は、オブジェクト ボックスの座標をプレーン テキストに変換して、LLM が座標を理解できるようにします。 ただし、pix2seq メソッドを使用したモデル出力は、主にボックスやポイントなどの単純な形式に限定されており、セグメンテーション マスクなどの他のより密度の高い位置表現形式に一般化することは困難です。 この問題を解決するために、本論文では、埋め込みベースの新しい位置モデリング手法 pix2emb を提案します。 pix2emb メソッドpix2seqとは異なり、pix2embのすべての位置情報は、LLM自体のテキスト予測ヘッダーを使用する代わりに、対応するエンコーダーとデコーダーを介してエンコードおよびデコードされます。 △ pix2emb方式の簡単な例上図に示すように、位置入力は対応するエンコーダーによって位置埋め込みにエンコードされ、出力位置埋め込みはボックス デコーダーとマスク デコーダーを介してボックスとマスクに変換されます。 これには 2 つの利点があります。
pix2seq と pix2emb を組み合わせることで、著者らは新しい NExT-Chat モデルをトレーニングしました。 NExT-Chatモデル△NExT-ChatモデルアーキテクチャNExT-Chat は全体的に LLaVA アーキテクチャを採用しており、画像情報はイメージ エンコーダーを介してエンコードされ、理解のために LLM に入力され、これに基づいて、2 つの位置出力を持つ対応するボックス エンコーダーとデコーダーが追加されます。 LLM が言語の LM ヘッドまたは位置デコーダーをいつ使用するかわからないという問題を解決するために、NExT-Chat は位置情報を識別するための追加の新しいトークン タイプを導入します。 モデルが出力する場合、トークンの埋め込みは言語デコーダーではなく、対応する位置デコーダーに送信され、デコードされます。 さらに、入力段階と出力段階で位置情報の一貫性を維持するために、NExT-Chat は追加の配置制約を導入します。 △ポジション入力と出力の制約上の図に示すように、ボックスと位置の埋め込みは、デコーダー、エンコーダー、またはデコーダーとエンコーダーの組み合わせを通過し、前後で変更されないことが求められます。 著者らは、この方法により位置入力機能の収束が大幅に促進されることを発見した。 NExT-Chat のモデルトレーニングには、主に次の 3 つの段階が含まれます。
このようなトレーニング プロセスの利点は、検出ボックス データが豊富で、トレーニング コストが小さくなることです。 NExT-Chat は、豊富な検出ボックス データに基づいて基本的な位置モデリング機能をトレーニングし、その後、より困難でラベルの少ないセグメンテーション タスクに迅速に拡張できます。 |
>>: 2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである
ドローンは警報装置、検出器、カメラなどを搭載し、多くの機能を実現でき、セキュリティ監視、スマートビル...
複雑なシステムを予測するには、より多くのニューロンを使用する必要がありますか?ネイチャー・コミュニケ...
人工知能(AI)技術の発展により、いつか「超人」的なAIが出現する日は来るのでしょうか?もしそうなれ...
バージニア州は7月に地元警察による顔認識技術の使用禁止を解除する予定だが、カリフォルニア州とニューオ...
先日終了したIJCAI 2021カンファレンスでは、「ディープラーニングモデルの知的財産保護に関する...
テンセントテクノロジー(深圳)有限公司は5月13日、人工知能ベースの自動運転方法、デバイス、設備、媒...
[[430265]]ランサムウェアの脅威は目新しいものではありませんが、依然としてニュースの見出し...
AI の可能性は魅力的ですが、導入までの道のりには課題がないわけではありません。企業は、急速に変化す...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[197951]]基本概念このセクションでは、勾配降下法をより一般化するために、機械学習アルゴリズ...
導入画像、ビデオ、オーディオ、テキストが含まれており、非常に包括的です。機械学習のための最大のTen...
人間とコンピュータの相互作用における感情コンピューティングの役割感情コンピューティングについて話す前...