マルチモーダル大規模モデルに検出およびセグメンテーション モジュールを統合すると、画像の切り取りが簡単になります。 自然言語でニーズを説明するだけで、モデルは探しているオブジェクトをマークし、数分以内にテキストによる説明を提供します。 これをサポートしているのは、シンガポール国立大学の NExT++ 研究所と清華大学の Liu Zhiyuan 氏のチームによって作成された新しいマルチモーダル大規模モデルです。 GPT-4vの登場により、LLaVA、BLIP-2など、マルチモーダル分野では多数の新しいモデルが登場しました。 研究チームは、大規模マルチモーダルモデルの地域理解能力をさらに拡張するために、会話、検出、セグメンテーションを同時に行うことができるマルチモーダルモデルNExT-Chatを作成しました。 NExT-Chat の最大の特徴は、マルチモーダル モデルに位置の入力と出力を導入できることです。 位置入力機能は、指定されたエリアに基づいて質問に答えることを指します (下の左の画像)。位置出力機能は、会話で言及されたオブジェクトを見つけることを指します (下の右の画像)。 複雑な位置決めの問題も簡単に解決できます。 NExT-Chat は、オブジェクトの位置に加えて、画像またはその一部を説明することもできます。
NExT-Chat のパフォーマンスを正確に評価するために、研究チームは複数のタスク データセットでテストを実施しました。 複数のデータセットでSOTAを達成する著者らはまず、参照表現セグメンテーション(RES)タスクにおけるNExT-Chatの実験結果を発表した。 使用されたセグメンテーション データはごくわずかでしたが、NExT-Chat は優れた参照セグメンテーション機能を発揮し、一連の教師ありモデル (MCN、VLT など) や、5 倍以上のセグメンテーション マスク注釈を使用した LISA 方式よりも優れた結果を示しました。 RESタスクに関するNExT-Chatの結果次に、研究チームはRECタスクにおけるNExT-Chatの実験結果を発表しました。 下の表に示すように、NExT-Chat は、いくつかの教師あり学習法 (UNITER など) よりも優れた結果を達成できます。 興味深い発見は、NExT-Chat のパフォーマンスは、同様のボックス トレーニング データを使用する Shikra よりもわずかに劣るということです。 著者は、これはpix2emb法におけるLM損失と検出損失のバランスをとるのがより難しく、Shikraが既存の大規模プレーンテキストモデルの事前トレーニング形式に近いためだと推測しています。 △RECタスクにおけるNExT-Chatの結果表 3 に示すように、画像幻覚タスクでは、NExT-Chat は Random データセットと Popular データセットで最高の精度を達成できます。 △ POPEデータセットにおけるNExT-Chatの結果エリア記述タスクでは、NExT-Chat は最高の CIDEr パフォーマンスを達成し、この指標の 4 ショット ケースで Kosmos-2 を上回ることができました。 △RefCOCOgデータセットにおけるNExT-Chatの結果では、NExT-Chat の背後ではどのような方法が使用されているのでしょうか? 画像コーディングの新しい方法を提案する従来の方法の欠点従来のモデルでは、主に pix2seq メソッドを使用して LLM 関連の位置モデリングを実行します。 たとえば、Kosmos-2 は画像を 32x32 のブロックに分割し、各ブロックの ID を使用してポイントの座標を表します。Shikra は、オブジェクト ボックスの座標をプレーン テキストに変換して、LLM が座標を理解できるようにします。 ただし、pix2seq メソッドを使用したモデル出力は、主にボックスやポイントなどの単純な形式に限定されており、セグメンテーション マスクなどの他のより密度の高い位置表現形式に一般化することは困難です。 この問題を解決するために、本論文では、埋め込みベースの新しい位置モデリング手法 pix2emb を提案します。 pix2emb メソッドpix2seqとは異なり、pix2embのすべての位置情報は、LLM自体のテキスト予測ヘッダーを使用する代わりに、対応するエンコーダーとデコーダーを介してエンコードおよびデコードされます。 △ pix2emb方式の簡単な例上図に示すように、位置入力は対応するエンコーダーによって位置埋め込みにエンコードされ、出力位置埋め込みはボックス デコーダーとマスク デコーダーを介してボックスとマスクに変換されます。 これには 2 つの利点があります。
pix2seq と pix2emb を組み合わせることで、著者らは新しい NExT-Chat モデルをトレーニングしました。 NExT-Chatモデル△NExT-ChatモデルアーキテクチャNExT-Chat は全体的に LLaVA アーキテクチャを採用しており、画像情報はイメージ エンコーダーを介してエンコードされ、理解のために LLM に入力され、これに基づいて、2 つの位置出力を持つ対応するボックス エンコーダーとデコーダーが追加されます。 LLM が言語の LM ヘッドまたは位置デコーダーをいつ使用するかわからないという問題を解決するために、NExT-Chat は位置情報を識別するための追加の新しいトークン タイプを導入します。 モデルが出力する場合、トークンの埋め込みは言語デコーダーではなく、対応する位置デコーダーに送信され、デコードされます。 さらに、入力段階と出力段階で位置情報の一貫性を維持するために、NExT-Chat は追加の配置制約を導入します。 △ポジション入力と出力の制約上の図に示すように、ボックスと位置の埋め込みは、デコーダー、エンコーダー、またはデコーダーとエンコーダーの組み合わせを通過し、前後で変更されないことが求められます。 著者らは、この方法により位置入力機能の収束が大幅に促進されることを発見した。 NExT-Chat のモデルトレーニングには、主に次の 3 つの段階が含まれます。
このようなトレーニング プロセスの利点は、検出ボックス データが豊富で、トレーニング コストが小さくなることです。 NExT-Chat は、豊富な検出ボックス データに基づいて基本的な位置モデリング機能をトレーニングし、その後、より困難でラベルの少ないセグメンテーション タスクに迅速に拡張できます。 |
>>: 2024 年に AI は他に何ができるでしょうか?これらの10のトレンドは注目すべきである
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[51CTO.com からのオリジナル記事] 「スマートテクノロジー」の代名詞として、無人店舗は晩夏...
「21世紀で最も成功した手術」として知られる人工股関節全置換術(THA)では、まもなく最新のAI技...
人工知能はさまざまな分野から深い注目を集めており、人工知能分野のディープラーニングとインテリジェント...
Mac ユーザーは、ついに、RTX を使用した独自の大型モデル チャットを持つ N カード プレーヤ...
テクノロジーは建設業界にかつてないほど大きな影響を与えています。クラウドベースのコラボレーションやデ...
[[325837]] Twitterは北京時間5月12日、スタンフォード大学のコンピューターサイエン...
51年前、アポロ13号が宇宙に打ち上げられました。打ち上げ直後、宇宙船は大きな爆発に遭遇した。宇宙船...
[[398923]]この記事はWeChatの公開アカウント「Angela's Blog」か...
機械学習と AI タスクの実行方法や環境内でのデータの収集方法に応じて、組織はどの AI ストレージ...
OpenAI の人事異動の影響:ウルトラマンが勝つ彼はついに株式を取得することができました!マイク...