バイトマルチモーダル大規模モデル PixelLM: SA に頼らない効率的なピクセルレベル推論

バイトマルチモーダル大規模モデル PixelLM: SA に頼らない効率的なピクセルレベル推論

マルチモーダルな大規模モデルが爆発的に増加していますが、画像編集、自動運転、ロボット工学などのきめ細かいタスクに実用化される準備はできていますか?

現在、ほとんどのモデルの機能は、画像全体または特定の領域のテキスト説明を生成することに限定されており、ピクセルレベルの理解機能 (オブジェクトのセグメンテーションなど) は比較的限られています。

この問題に対処するために、大規模なマルチモーダル モデルを使用してユーザーのセグメンテーション指示 (たとえば、「画像内のビタミン C が豊富な果物をセグメント化してください」) を処理する研究がいくつか開始されています。

ただし、市場で入手可能な方法にはすべて、2 つの大きな欠点があります。

1) 現実のシナリオでは不可欠な、複数の対象オブジェクトを含むタスクを処理できない。

2) SAM などの事前トレーニング済みの画像セグメンテーション モデルに依存しており、SAM の 1 回の順方向伝播に必要な計算量は、Llama-7B が 500 を超えるトークンを生成するのに十分です。

この問題を解決するために、ByteDance のインテリジェント作成チームは、北京交通大学および北京科技大学の研究者と共同で、SAM に依存しない初の効率的なピクセルレベル推論モデルである PixelLM を提案しました。

詳しく説明する前に、PixelLM のいくつかのグループの実際のセグメンテーション効果を体験してみましょう。

以前の研究と比較すると、PixelLM の利点は次のとおりです。

  • 任意の数のオープンドメイン オブジェクトと、多様で複雑な推論およびセグメンテーション タスクを巧みに処理できます。
  • これにより、追加のコストのかかるセグメンテーション モデルが回避され、さまざまなアプリケーションへの効率性と移植性が向上します。

さらに、この研究分野でのモデルのトレーニングと評価をサポートするために、研究チームは、GPT-4V の助けを借りて、LVIS データセットに基づく多目的推論セグメンテーション シナリオ用のデータセット MUSE を構築しました。これには 200,000 を超える質問と回答のペアが含まれており、900,000 を超えるインスタンス セグメンテーション マスクが含まれています。

上記の結果を達成するために、この研究はどのように行われたのでしょうか?

その背後にある原理

写真

論文のフレームワーク図に示されているように、PixelLM アーキテクチャは非常にシンプルで、4 つの主要部分で構成されており、そのうち最後の 2 つが PixelLM の中核となります。

  1. 事前トレーニング済みのCLIP-ViTビジュアルエンコーダ
  2. 大規模言語モデル
  3. 軽量ピクセルデコーダー
  4. Seg コードブック

Seg コードブックには、CLIP-ViT でさまざまなスケールのターゲット情報をエンコードするために使用される学習可能なトークンが含まれています。次に、ピクセル デコーダーは、これらのトークンと CLIP-ViT の画像特徴に基づいてオブジェクト分割結果を生成します。この設計により、PixelLM は外部セグメンテーション モデルなしで高品質のセグメンテーション結果を生成でき、モデル効率が大幅に向上します。

研究者によると、Seg コードブックのトークンは L グループに分けられ、各グループには N 個のトークンが含まれており、各グループは CLIP-ViT 視覚特徴のスケールに対応しています。

入力画像の場合、PixelLM は CLIP-ViT ビジュアル エンコーダーによって生成された画像特徴から L スケールの特徴を抽出します。最後のレイヤーはグローバル画像情報をカバーし、LLM によって画像コンテンツを理解するために使用されます。

Seg コードブックのトークンは、テキスト命令および画像特徴の最後のレイヤーとともに LLM に入力され、自己回帰の形式で出力が生成されます。出力には、LLM によって処理された Seg コードブック トークンも含まれます。これは、L スケールの CLIP-ViT 機能とともにピクセル デコーダーに入力され、最終的なセグメンテーション結果が生成されます。

写真

写真

では、なぜ各グループに N 個のトークンが含まれるように設定する必要があるのでしょうか?研究者たちはこれを次の図で説明しました。

複数のターゲットまたは複雑なセマンティクスを持つターゲットが関係するシナリオでは、LLM は詳細なテキスト応答を提供できますが、単一のトークンのみを使用すると、ターゲット セマンティクスの完全なコンテンツを完全にキャプチャできない可能性があります。

複雑な推論シナリオにおけるモデルの機能を強化するために、研究者らは各スケール グループに複数のトークンを導入し、1 つのトークンの線形融合操作を実行しました。トークンがデコーダーに渡される前に、線形投影レイヤーを使用して各グループ内のトークンをマージします。

次の図は、各グループに複数のトークンがある場合の効果を示しています。アテンション マップは、デコーダーによって処理された後の各トークンの外観です。この視覚化により、複数のトークンが固有かつ補完的な情報を提供し、より効果的なセグメンテーション出力が得られることがわかります。

写真

さらに、モデルの複数のターゲットを区別する能力を強化するために、PixelLM は追加の Target Refinement Loss も設計しました。

MUSEデータセット

上記の解決策が提案されていますが、モデルの機能を最大限に活用するには、モデルに適切なトレーニング データが必要です。現在利用可能な公開データセットをレビューした結果、次のような主な制限が明らかになりました。

1) オブジェクトの詳細の説明が不十分です。
2) 複雑な推論と多様な目標数値を伴う質問と回答のペアが不足しています。

これらの問題を解決するために、研究チームは GPT-4V を使用して自動データ注釈パイプラインを構築し、MUSE データセットを生成しました。次の図は、MUSE の生成時に使用されるプロンプトと、生成されるデータを示しています。

写真

MUSE では、すべてのインスタンス マスクは LVIS データセットから取得され、さらに画像コンテンツに基づいて生成された詳細なテキスト説明が追加されます。 MUSE には 246,000 の質問と回答のペアが含まれており、それぞれに平均 3.7 個のターゲット オブジェクトが含まれています。さらに、研究チームはデータセットの詳細な統計分析を実施しました。

カテゴリ統計: MUSE には、元の LVIS データセットからの 1,000 を超えるカテゴリと、質問と回答のペアのコンテキストに基づいて異なる固有の説明を持つ 900,000 のインスタンスがあります。図(a)は、すべての質問と回答のペアにおける各カテゴリのインスタンス数を示しています。

トークン数の統計: 図 (b) はインスタンス記述内のトークン数の分布を示しています。インスタンス記述の中には 100 を超えるトークンが含まれているものもあります。これらの説明は単純なカテゴリ名に限定されず、GPT-4V に基づくデータ生成パイプラインを通じて、外観、属性、および他のオブジェクトとの関係を含む各インスタンスの詳細な情報で強化されます。データセット内の情報の深さと多様性により、トレーニングされたモデルの一般化能力が向上し、オープンドメインの問題の解決に効果的になります。

ターゲット数の統計: 図(c)は、各質問と回答のペアにおけるターゲット数の統計を示しています。ターゲットの平均数は 3.7 で、最大ターゲット数は 34 に達します。この数値は、単一の画像に対するほとんどのオブジェクト推論シナリオをカバーできます。

アルゴリズムの評価

研究チームは、MUSE ベンチマーク、参照セグメンテーション ベンチマーク、マルチ参照セグメンテーション ベンチマークの 3 つのベンチマークで PixelLM のパフォーマンスを評価しました。マルチ参照セグメンテーション ベンチマークでは、研究チームはモデルに対して、参照セグメンテーション ベンチマークの各画像に含まれる複数のオブジェクトを 1 つの質問で連続的にセグメント化することを要求しました。

同時に、PixelLM は複数のターゲットを含む複雑なピクセル推論タスクを処理する最初のモデルであるため、研究チームはモデルの比較分析のために 4 つのベースラインを確立しました。

ベースラインのうち 3 つは、PixelLM に最も関連性の高い作業である LISA に基づいています。

1) オリジナルLISA

2) LISA_rec: まず、LLAVA-13B に質問を入力してターゲットテキスト応答を取得し、次に LISA を使用してこれらのテキストをセグメント化します。

3) LISA_aug: LISAトレーニングデータにMUSEを直接追加します。

4) もう1つは、LLMを使用しない一般的なセグメンテーションモデルSE​​EMです。

写真

PixelLM は、3 つのベンチマークのほとんどの指標で他の方法よりも優れています。PixelLM は SAM に依存しないため、TFLOP は同じサイズのモデルよりもはるかに低くなります。

興味のある方はまず注目して、コードがオープンソースになるのを待ってください〜

参考リンク:
[1] https://arxiv.org/abs/2312.02228
[2] https://pixellm.github.io/

<<:  OpenAI Microsoftが訴えられる!ニューヨークタイムズはAIが著作権を侵害していると非難し、侵害モデルとトレーニングデータの破棄を要求している。

>>: 

ブログ    
ブログ    

推薦する

...

AIの冬が来ます!ディープラーニングはスケールしません...

著者について: Filip Piekniewski は、コンピューター ビジョンと AI の専門家で...

2030年「メタバース」就職ガイド! CSは依然として非常に人気があり、博士号取得者の需要は衰えていません。

2016年にポケモンGOが世界を席巻したときのことを覚えていますか?当時、多くの人々は、拡張現実革...

Pytorch Lightning の 6 つのヒントを使用して、ディープラーニング パイプラインを 10 倍高速化します。

[[427508]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

AIは大学入試で高得点のエッセイを書けるようになったが、小説を書くにはまだ遠い

イベントレビュー大学入試中国語テストが終了してすぐに、大学入試作エッセイのテーマが話題になりました。...

天津市、スマートテクノロジー産業の発展促進に向け多方面から対策

2017年に第1回世界情報会議が開催されて以来、天津では257件のプロジェクトが実施され、1000億...

...

...

お金は人を幸せにできるのでしょうか?機械学習を使って答えを見つける方法を教えます

機械学習システムを分類する 1 つの方法は、一般化の程度によって分類することです。ほとんどの機械学習...

...

人工知能が新薬開発を支援

[[251349]]古代、神農は何百種類もの生薬を試飲しましたが、これは実際には薬を人工的に選別する...

さあ、アルゴリズムの複雑さをもう一度理解しましょう!

[[346356]] 0. はじめにみなさんこんにちは。私は、複数選択パラメータのプログラマーポッ...

AIと機械学習の統合アーキテクチャ:インテリジェントな意思決定を可能にする

人工知能 (AI) と機械学習の台頭により、あらゆる業界に大きな変化が起きています。データ量が増加し...

28歳で普通のエンジニアからAIに転職すべきか?

[[275552]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

2019年にAI分野で何が起こったのでしょうか?

2019年は確かに忙しい年でした。人工知能に関する進歩やニュースが頻繁に報道されるにつれ、私たちの...