マルチモーダルな大規模モデルが爆発的に増加していますが、画像編集、自動運転、ロボット工学などのきめ細かいタスクに実用化される準備はできていますか? 現在、ほとんどのモデルの機能は、画像全体または特定の領域のテキスト説明を生成することに限定されており、ピクセルレベルの理解機能 (オブジェクトのセグメンテーションなど) は比較的限られています。 この問題に対処するために、大規模なマルチモーダル モデルを使用してユーザーのセグメンテーション指示 (たとえば、「画像内のビタミン C が豊富な果物をセグメント化してください」) を処理する研究がいくつか開始されています。 ただし、市場で入手可能な方法にはすべて、2 つの大きな欠点があります。 1) 現実のシナリオでは不可欠な、複数の対象オブジェクトを含むタスクを処理できない。 2) SAM などの事前トレーニング済みの画像セグメンテーション モデルに依存しており、SAM の 1 回の順方向伝播に必要な計算量は、Llama-7B が 500 を超えるトークンを生成するのに十分です。 この問題を解決するために、ByteDance のインテリジェント作成チームは、北京交通大学および北京科技大学の研究者と共同で、SAM に依存しない初の効率的なピクセルレベル推論モデルである PixelLM を提案しました。 詳しく説明する前に、PixelLM のいくつかのグループの実際のセグメンテーション効果を体験してみましょう。 以前の研究と比較すると、PixelLM の利点は次のとおりです。
さらに、この研究分野でのモデルのトレーニングと評価をサポートするために、研究チームは、GPT-4V の助けを借りて、LVIS データセットに基づく多目的推論セグメンテーション シナリオ用のデータセット MUSE を構築しました。これには 200,000 を超える質問と回答のペアが含まれており、900,000 を超えるインスタンス セグメンテーション マスクが含まれています。 上記の結果を達成するために、この研究はどのように行われたのでしょうか? その背後にある原理写真 論文のフレームワーク図に示されているように、PixelLM アーキテクチャは非常にシンプルで、4 つの主要部分で構成されており、そのうち最後の 2 つが PixelLM の中核となります。
Seg コードブックには、CLIP-ViT でさまざまなスケールのターゲット情報をエンコードするために使用される学習可能なトークンが含まれています。次に、ピクセル デコーダーは、これらのトークンと CLIP-ViT の画像特徴に基づいてオブジェクト分割結果を生成します。この設計により、PixelLM は外部セグメンテーション モデルなしで高品質のセグメンテーション結果を生成でき、モデル効率が大幅に向上します。 研究者によると、Seg コードブックのトークンは L グループに分けられ、各グループには N 個のトークンが含まれており、各グループは CLIP-ViT 視覚特徴のスケールに対応しています。 入力画像の場合、PixelLM は CLIP-ViT ビジュアル エンコーダーによって生成された画像特徴から L スケールの特徴を抽出します。最後のレイヤーはグローバル画像情報をカバーし、LLM によって画像コンテンツを理解するために使用されます。 Seg コードブックのトークンは、テキスト命令および画像特徴の最後のレイヤーとともに LLM に入力され、自己回帰の形式で出力が生成されます。出力には、LLM によって処理された Seg コードブック トークンも含まれます。これは、L スケールの CLIP-ViT 機能とともにピクセル デコーダーに入力され、最終的なセグメンテーション結果が生成されます。 写真 写真 では、なぜ各グループに N 個のトークンが含まれるように設定する必要があるのでしょうか?研究者たちはこれを次の図で説明しました。 複数のターゲットまたは複雑なセマンティクスを持つターゲットが関係するシナリオでは、LLM は詳細なテキスト応答を提供できますが、単一のトークンのみを使用すると、ターゲット セマンティクスの完全なコンテンツを完全にキャプチャできない可能性があります。 複雑な推論シナリオにおけるモデルの機能を強化するために、研究者らは各スケール グループに複数のトークンを導入し、1 つのトークンの線形融合操作を実行しました。トークンがデコーダーに渡される前に、線形投影レイヤーを使用して各グループ内のトークンをマージします。 次の図は、各グループに複数のトークンがある場合の効果を示しています。アテンション マップは、デコーダーによって処理された後の各トークンの外観です。この視覚化により、複数のトークンが固有かつ補完的な情報を提供し、より効果的なセグメンテーション出力が得られることがわかります。 写真 さらに、モデルの複数のターゲットを区別する能力を強化するために、PixelLM は追加の Target Refinement Loss も設計しました。 MUSEデータセット上記の解決策が提案されていますが、モデルの機能を最大限に活用するには、モデルに適切なトレーニング データが必要です。現在利用可能な公開データセットをレビューした結果、次のような主な制限が明らかになりました。 1) オブジェクトの詳細の説明が不十分です。 これらの問題を解決するために、研究チームは GPT-4V を使用して自動データ注釈パイプラインを構築し、MUSE データセットを生成しました。次の図は、MUSE の生成時に使用されるプロンプトと、生成されるデータを示しています。 写真 MUSE では、すべてのインスタンス マスクは LVIS データセットから取得され、さらに画像コンテンツに基づいて生成された詳細なテキスト説明が追加されます。 MUSE には 246,000 の質問と回答のペアが含まれており、それぞれに平均 3.7 個のターゲット オブジェクトが含まれています。さらに、研究チームはデータセットの詳細な統計分析を実施しました。 カテゴリ統計: MUSE には、元の LVIS データセットからの 1,000 を超えるカテゴリと、質問と回答のペアのコンテキストに基づいて異なる固有の説明を持つ 900,000 のインスタンスがあります。図(a)は、すべての質問と回答のペアにおける各カテゴリのインスタンス数を示しています。 トークン数の統計: 図 (b) はインスタンス記述内のトークン数の分布を示しています。インスタンス記述の中には 100 を超えるトークンが含まれているものもあります。これらの説明は単純なカテゴリ名に限定されず、GPT-4V に基づくデータ生成パイプラインを通じて、外観、属性、および他のオブジェクトとの関係を含む各インスタンスの詳細な情報で強化されます。データセット内の情報の深さと多様性により、トレーニングされたモデルの一般化能力が向上し、オープンドメインの問題の解決に効果的になります。 ターゲット数の統計: 図(c)は、各質問と回答のペアにおけるターゲット数の統計を示しています。ターゲットの平均数は 3.7 で、最大ターゲット数は 34 に達します。この数値は、単一の画像に対するほとんどのオブジェクト推論シナリオをカバーできます。 アルゴリズムの評価研究チームは、MUSE ベンチマーク、参照セグメンテーション ベンチマーク、マルチ参照セグメンテーション ベンチマークの 3 つのベンチマークで PixelLM のパフォーマンスを評価しました。マルチ参照セグメンテーション ベンチマークでは、研究チームはモデルに対して、参照セグメンテーション ベンチマークの各画像に含まれる複数のオブジェクトを 1 つの質問で連続的にセグメント化することを要求しました。 同時に、PixelLM は複数のターゲットを含む複雑なピクセル推論タスクを処理する最初のモデルであるため、研究チームはモデルの比較分析のために 4 つのベースラインを確立しました。 ベースラインのうち 3 つは、PixelLM に最も関連性の高い作業である LISA に基づいています。 1) オリジナルLISA 2) LISA_rec: まず、LLAVA-13B に質問を入力してターゲットテキスト応答を取得し、次に LISA を使用してこれらのテキストをセグメント化します。 3) LISA_aug: LISAトレーニングデータにMUSEを直接追加します。 4) もう1つは、LLMを使用しない一般的なセグメンテーションモデルSEEMです。 写真 PixelLM は、3 つのベンチマークのほとんどの指標で他の方法よりも優れています。PixelLM は SAM に依存しないため、TFLOP は同じサイズのモデルよりもはるかに低くなります。 興味のある方はまず注目して、コードがオープンソースになるのを待ってください〜 参考リンク: |
<<: OpenAI Microsoftが訴えられる!ニューヨークタイムズはAIが著作権を侵害していると非難し、侵害モデルとトレーニングデータの破棄を要求している。
複雑な AI モデルを学習するには膨大な量のデータが必要であり、ヘルスケア データは全データのほぼ ...
ディープラーニングは高度に反復的なプロセスです。最適な組み合わせを決定するには、ハイパーパラメータの...
小米創始者の雷軍はかつて「風の吹き口に立てば豚でも飛べる」と言った。事実は往々にしてこの通りだ。人の...
1. 背景指標はビジネスと密接に関係しており、その価値は、問題点やハイライトを発見し、タイムリーに...
テクノロジーと通信の急速な進歩により、自動化革命の時代において、アフリカの大規模かつ急成長中の人口は...
今日、衝撃的なニュースが突然飛び込んできました。スタンフォード大学のマーク・テシエ・ラヴィーンの学長...
昨年 6 月に Google Brain チームが発表した 43 ページの論文「Scaling Vi...
LoRAShear は、言語モデリング (LLM) を最適化し、知識を保存するために Microso...
[[401970]]メラニー・ベイリー博士は、工学・物理科学研究評議会 (EPSRC) の研究員です...
昨年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同...