バイトマルチモーダル大規模モデル PixelLM: SA に頼らない効率的なピクセルレベル推論

マルチモーダルな大規模モデルが爆発的に増加していますが、画像編集、自動運転、ロボット工学などのきめ細かいタスクに実用化される準備はできていますか?

現在、ほとんどのモデルの機能は、画像全体または特定の領域のテキスト説明を生成することに限定されており、ピクセルレベルの理解機能 (オブジェクトのセグメンテーションなど) は比較的限られています。

この問題に対処するために、大規模なマルチモーダルモデルを使用してユーザーのセグメンテーション指示 (たとえば、「画像内のビタミン C が豊富な果物をセグメント化してください」) を処理する研究がいくつか開始されています。

ただし、市場で入手可能な方法にはすべて、2 つの大きな欠点があります。

1) 現実のシナリオでは不可欠な、複数の対象オブジェクトを含むタスクを処理できない。

2) SAM などの事前トレーニング済みの画像セグメンテーションモデルに依存しており、SAM の 1 回の順方向伝播に必要な計算量は、Llama-7B が 500 を超えるトークンを生成するのに十分です。

この問題を解決するために、ByteDance のインテリジェント作成チームは、北京交通大学および北京科技大学の研究者と共同で、SAM に依存しない初の効率的なピクセルレベル推論モデルである PixelLM を提案しました。

詳しく説明する前に、PixelLM のいくつかのグループの実際のセグメンテーション効果を体験してみましょう。

以前の研究と比較すると、PixelLM の利点は次のとおりです。

任意の数のオープンドメインオブジェクトと、多様で複雑な推論およびセグメンテーションタスクを巧みに処理できます。
これにより、追加のコストのかかるセグメンテーションモデルが回避され、さまざまなアプリケーションへの効率性と移植性が向上します。

さらに、この研究分野でのモデルのトレーニングと評価をサポートするために、研究チームは、GPT-4V の助けを借りて、LVIS データセットに基づく多目的推論セグメンテーションシナリオ用のデータセット MUSE を構築しました。これには 200,000 を超える質問と回答のペアが含まれており、900,000 を超えるインスタンスセグメンテーションマスクが含まれています。

上記の結果を達成するために、この研究はどのように行われたのでしょうか?

その背後にある原理

写真

論文のフレームワーク図に示されているように、PixelLM アーキテクチャは非常にシンプルで、4 つの主要部分で構成されており、そのうち最後の 2 つが PixelLM の中核となります。

事前トレーニング済みのCLIP-ViTビジュアルエンコーダ
大規模言語モデル
軽量ピクセルデコーダー
Seg コードブック

Seg コードブックには、CLIP-ViT でさまざまなスケールのターゲット情報をエンコードするために使用される学習可能なトークンが含まれています。次に、ピクセルデコーダーは、これらのトークンと CLIP-ViT の画像特徴に基づいてオブジェクト分割結果を生成します。この設計により、PixelLM は外部セグメンテーションモデルなしで高品質のセグメンテーション結果を生成でき、モデル効率が大幅に向上します。

研究者によると、Seg コードブックのトークンは L グループに分けられ、各グループには N 個のトークンが含まれており、各グループは CLIP-ViT 視覚特徴のスケールに対応しています。

入力画像の場合、PixelLM は CLIP-ViT ビジュアルエンコーダーによって生成された画像特徴から L スケールの特徴を抽出します。最後のレイヤーはグローバル画像情報をカバーし、LLM によって画像コンテンツを理解するために使用されます。

Seg コードブックのトークンは、テキスト命令および画像特徴の最後のレイヤーとともに LLM に入力され、自己回帰の形式で出力が生成されます。出力には、LLM によって処理された Seg コードブックトークンも含まれます。これは、L スケールの CLIP-ViT 機能とともにピクセルデコーダーに入力され、最終的なセグメンテーション結果が生成されます。

写真

では、なぜ各グループに N 個のトークンが含まれるように設定する必要があるのでしょうか?研究者たちはこれを次の図で説明しました。

複数のターゲットまたは複雑なセマンティクスを持つターゲットが関係するシナリオでは、LLM は詳細なテキスト応答を提供できますが、単一のトークンのみを使用すると、ターゲットセマンティクスの完全なコンテンツを完全にキャプチャできない可能性があります。

複雑な推論シナリオにおけるモデルの機能を強化するために、研究者らは各スケールグループに複数のトークンを導入し、1 つのトークンの線形融合操作を実行しました。トークンがデコーダーに渡される前に、線形投影レイヤーを使用して各グループ内のトークンをマージします。

次の図は、各グループに複数のトークンがある場合の効果を示しています。アテンションマップは、デコーダーによって処理された後の各トークンの外観です。この視覚化により、複数のトークンが固有かつ補完的な情報を提供し、より効果的なセグメンテーション出力が得られることがわかります。

写真

さらに、モデルの複数のターゲットを区別する能力を強化するために、PixelLM は追加の Target Refinement Loss も設計しました。

MUSEデータセット

上記の解決策が提案されていますが、モデルの機能を最大限に活用するには、モデルに適切なトレーニングデータが必要です。現在利用可能な公開データセットをレビューした結果、次のような主な制限が明らかになりました。

1) オブジェクトの詳細の説明が不十分です。
2) 複雑な推論と多様な目標数値を伴う質問と回答のペアが不足しています。

これらの問題を解決するために、研究チームは GPT-4V を使用して自動データ注釈パイプラインを構築し、MUSE データセットを生成しました。次の図は、MUSE の生成時に使用されるプロンプトと、生成されるデータを示しています。

写真

MUSE では、すべてのインスタンスマスクは LVIS データセットから取得され、さらに画像コンテンツに基づいて生成された詳細なテキスト説明が追加されます。 MUSE には 246,000 の質問と回答のペアが含まれており、それぞれに平均 3.7 個のターゲットオブジェクトが含まれています。さらに、研究チームはデータセットの詳細な統計分析を実施しました。

カテゴリ統計: MUSE には、元の LVIS データセットからの 1,000 を超えるカテゴリと、質問と回答のペアのコンテキストに基づいて異なる固有の説明を持つ 900,000 のインスタンスがあります。図(a)は、すべての質問と回答のペアにおける各カテゴリのインスタンス数を示しています。

トークン数の統計: 図 (b) はインスタンス記述内のトークン数の分布を示しています。インスタンス記述の中には 100 を超えるトークンが含まれているものもあります。これらの説明は単純なカテゴリ名に限定されず、GPT-4V に基づくデータ生成パイプラインを通じて、外観、属性、および他のオブジェクトとの関係を含む各インスタンスの詳細な情報で強化されます。データセット内の情報の深さと多様性により、トレーニングされたモデルの一般化能力が向上し、オープンドメインの問題の解決に効果的になります。

ターゲット数の統計: 図(c)は、各質問と回答のペアにおけるターゲット数の統計を示しています。ターゲットの平均数は 3.7 で、最大ターゲット数は 34 に達します。この数値は、単一の画像に対するほとんどのオブジェクト推論シナリオをカバーできます。

アルゴリズムの評価

研究チームは、MUSE ベンチマーク、参照セグメンテーションベンチマーク、マルチ参照セグメンテーションベンチマークの 3 つのベンチマークで PixelLM のパフォーマンスを評価しました。マルチ参照セグメンテーションベンチマークでは、研究チームはモデルに対して、参照セグメンテーションベンチマークの各画像に含まれる複数のオブジェクトを 1 つの質問で連続的にセグメント化することを要求しました。

同時に、PixelLM は複数のターゲットを含む複雑なピクセル推論タスクを処理する最初のモデルであるため、研究チームはモデルの比較分析のために 4 つのベースラインを確立しました。

ベースラインのうち 3 つは、PixelLM に最も関連性の高い作業である LISA に基づいています。

1) オリジナルLISA

2) LISA_rec: まず、LLAVA-13B に質問を入力してターゲットテキスト応答を取得し、次に LISA を使用してこれらのテキストをセグメント化します。

3) LISA_aug: LISAトレーニングデータにMUSEを直接追加します。

4) もう1つは、LLMを使用しない一般的なセグメンテーションモデルSEEMです。

写真

PixelLM は、3 つのベンチマークのほとんどの指標で他の方法よりも優れています。PixelLM は SAM に依存しないため、TFLOP は同じサイズのモデルよりもはるかに低くなります。

興味のある方はまず注目して、コードがオープンソースになるのを待ってください〜

参考リンク:
[1] https://arxiv.org/abs/2312.02228
[2] https://pixellm.github.io/

<<: OpenAI Microsoftが訴えられる！ニューヨークタイムズはAIが著作権を侵害していると非難し、侵害モデルとトレーニングデータの破棄を要求している。

>>:

ブログ

バイトマルチモーダル大規模モデル PixelLM: SA に頼らない効率的なピクセルレベル推論

その背後にある原理

MUSEデータセット

アルゴリズムの評価

フロントエンドでも機械学習を理解する必要がある

マルチラベル分類とは何ですか?ここにいくつかの実用的な古典的な方法があります

仕事でアルゴリズムが使われることはほとんどないので、なぜアルゴリズムを学ぶ必要があるのでしょうか?

マイクロソフト、Windows 10を開発者向けAIプラットフォームに

大手銀行はなぜ従業員にプログラミングの学習を求めるのでしょうか?あなたもその一人かもしれません

自動運転事故を回避するために、CV 分野では物理的な攻撃をどのように検出できるでしょうか?

推薦する

データサイエンスと機械学習のためのトップ 16 プラットフォーム

AIとローコード/ノーコードのすべきこと、すべきでないこと

Facebook AI はディープラーニングを使用してプログラミング言語の変換を実現し、コードベースの移行はもはや困難ではありません。

ソフトウェア開発における AI と機械学習の応用: 将来の動向と課題

データ詐欺師はどこにでもいる。いわゆる「万能薬」を暴く方法

XiaoIce 技術担当副社長、周立氏: AI 対話がメタバースの新たな未来を切り開く

米国はドローンに「ナンバープレート」を発行する

人工知能によって人々の仕事が失われることは確実だが、仕事がなくなることはないと言われているのはなぜでしょうか。

ビッグニュース: IBM が 3 つの抗がん AI プロジェクトをオープンソース化しました。

ソフトウェア開発は最終的に時代遅れになるのでしょうか?