正解率が7.8%アップしました!最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました

正解率が7.8%アップしました!最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました

現在のオープンワールド オブジェクト検出モデルのほとんどは、テキスト クエリ モデル、つまりカテゴリ テキスト記述を使用してターゲット画像内の潜在的なターゲットをクエリするモデルに従っていますが、このアプローチでは、「範囲は広いが正確ではない」という問題に直面することがよくあります。

論文リンク: https://arxiv.org/abs/2305.18980

コードアドレス: https://github.com/YifanXu74/MQ-Det

この目的のために、中国科学院自動化研究所などの研究者らは、マルチモーダルクエリベースのターゲット検出モデルであるMQ-Detと、テキスト記述と視覚的なサンプルクエリの両方をサポートする初のオープンワールド検出大規模モデルを提案した。

MQ-Det は、テキスト クエリに基づく既存の大規模検出モデルに視覚的な例のクエリ機能を追加します。プラグアンドプレイのゲート認識構造と視覚条件付きマスク言語予測トレーニング メカニズムを導入することで、検出器は高い一般化を維持しながらきめ細かいマルチモーダル クエリをサポートし、さまざまなシナリオに適応するためのより柔軟なオプションをユーザーに提供します。

シンプルで効果的な設計は、既存の主流の検出モデルと互換性があり、幅広い用途に使用できます。

実験では、マルチモーダルクエリにより、主流の検出大規模モデルのオープンワールドオブジェクト検出機能が大幅に向上することが示されています。たとえば、ベンチマーク検出データセット LVIS では、下流タスクモデルの微調整を必要とせずに、主流の検出大規模モデルの GLIP 精度が約 7.8% AP 向上し、13 のベンチマーク小サンプル下流タスクでは平均 6.3% AP 向上します。

テキストクエリからマルチモーダルクエリへ

一枚の写真は千の言葉に値する

画像とテキストの事前トレーニングの増加に伴い、テキストのオープンセマンティクスの助けを借りて、オブジェクト検出は徐々にオープンワールド認識の段階に入りました。

このため、多くの大規模な検出モデルは、カテゴリのテキスト記述を使用して対象画像内の潜在的なオブジェクトを照会するテキスト クエリのパターンに従います。

しかし、このアプローチは「範囲は広いが正確ではない」という問題にしばしば直面します。

図1 MQ-Det法のアーキテクチャ

たとえば、図 1 の細粒度オブジェクト (魚種) の検出では、限られたテキストを使用してさまざまな細粒度の魚種を説明することが困難な場合が多く、bat がコウモリとコウモリの両方を指す可能性があるため、カテゴリの曖昧さがあります。

しかし、上記の問題はすべて画像の例を通じて解決できます。テキストと比較して、画像は対象オブジェクトの特徴の手がかりをより豊富に提供できますが、同時に、テキストには強力な一般化能力があります。

したがって、2 つのクエリ方法を有機的に組み合わせる方法は非常に自然なアイデアになります。

マルチモーダル クエリ機能の取得における難しさ: マルチモーダル クエリ機能を備えたモデルを取得するには、次の 3 つの課題があります。

1. 限られた画像例による直接的な微調整は、簡単に壊滅的な忘却につながる可能性があります。

2. 大規模な検出モデルをゼロからトレーニングすると、一般化のパフォーマンスは向上しますが、非常に時間がかかります。たとえば、1枚のカードでGLIP[1]をトレーニングするには、3,000万のデータセットを使用して480日間のトレーニングが必要です。

マルチモーダルクエリオブジェクト検出:上記の考慮に基づいて、著者はシンプルで効果的なモデル設計とトレーニング戦略を提案しました - MQ-Det

MQ-Det は、既存の固定テキストクエリ検出モデルに基づいて、少数のゲート知覚モジュール (GCP) を挿入し、視覚的な例の入力を受け取ります。同時に、視覚条件付きマスク言語予測トレーニング戦略を設計し、高性能なマルチモーダルクエリ検出器を効率的に取得します。

MQ-Det: プラグアンドプレイのマルチモーダルクエリモデルアーキテクチャ

ゲート式センシングモジュール

図 1 に示すように、著者は、凍結テキストクエリ検出モデルのテキストエンコーダーにゲート知覚モジュール (GCP) をレイヤーごとに挿入しました。GCP の動作モードは、次の式で簡潔に表現できます。

i番目のカテゴリについては、まず入力視覚例v_iをターゲット画像とのクロスアテンション(X-MHA)によって取得して表現能力を高め、次に各カテゴリテキストt_iを対応するカテゴリの視覚例とのクロスアテンションによって取得し、次に元のテキストt_iと視覚的に拡張されたテキストをゲートモジュールゲートを介して融合して現在のレイヤーの出力を取得します。

このシンプルな設計は、(1) カテゴリのスケーラビリティ、(2) 意味の完全性、(3) 忘却防止という 3 つの原則に従います。詳細な議論については、元の論文を参照してください。

MQ-Det 効率的なトレーニング戦略

固定言語クエリ検出器に基づく変調トレーニング

テキストクエリ用の現在の事前トレーニング済み検出モデル自体は優れた一般化機能を備えているため、元のテキスト機能に基づいて視覚的な詳細をわずかに調整するだけでよいと著者は考えています。

この記事には、元の事前トレーニング済みモデルのパラメータを開いて微調整すると、簡単に壊滅的な忘却につながり、オープンワールドでの検出能力を失う可能性があるという具体的な実験的証拠も示されています。

したがって、MQ-Det は、事前にトレーニングされた固定テキスト クエリの検出器に基づいて、挿入をトレーニングするための GCP モジュールを調整するだけで、既存のテキスト クエリの検出器に視覚情報を効率的に挿入できます。

本論文では、著者らはMQ-Detの構造設計とトレーニング手法を現在のSOTAモデルGLIP[1]とGroundingDINO[2]に適用し、この方法の汎用性を検証した。

マスク言語予測のための視覚条件付けトレーニング戦略

著者らはまた、事前トレーニング済みモデルをフリーズすることで生じる学習慣性の問題を解決するために、視覚条件付けマスク言語予測トレーニング戦略を提案した。

いわゆる学習慣性とは、検出器がトレーニング中に元のテキスト クエリの特徴を保持する傾向があり、新しく追加された視覚的なクエリの特徴を無視することを意味します。

このため、MQ-Det はトレーニング中にテキスト トークンを [MASK] トークンにランダムに置き換え、モデルに視覚クエリ機能側から学習させます。

この戦略はシンプルですが、非常に効果的です。実験結果では、この戦略によってパフォーマンスが大幅に向上することが示されています。

実験結果

微調整不要

テストにカテゴリテキストのみを使用する従来のゼロショット評価と比較して、MQ-Detはより実用的な評価戦略を提案しています。

定義: 下流の微調整なしで、ユーザーはカテゴリ テキスト、画像の例、またはその両方の組み合わせを使用してオブジェクトを検出できます。

微調整なしの設定では、MQ-Det は各カテゴリに対して 5 つの視覚的な例を選択し、カテゴリ テキストを組み合わせてターゲットを検出します。他の既存のモデルは視覚的なクエリをサポートしておらず、ターゲットの検出にはプレーン テキストの説明のみを使用できます。

次の表は、LVIS MiniVal と LVIS v1.0 のテスト結果を示しています。マルチモーダルクエリの導入により、オープンワールドオブジェクトの検出機能が大幅に向上したことがわかります。

表1 LVISベンチマークデータセットにおけるさまざまな検出モデルの微調整なしのパフォーマンス

表 1 からわかるように、MQ-GLIP-L は GLIP-L と比較して AP を 7% 以上向上させており、これは非常に顕著な効果です。

少数ショットの評価

表2 35の検出タスクにおける各モデルのパフォーマンス ODinW-35とその13のサブセット ODinW-13

著者らはさらに、35 の下流検出タスク ODinW-35 で包括的な実験を実施しました。表 2 からわかるように、MQ-Det は、強力な微調整不要のパフォーマンスに加えて、優れた小規模サンプル検出機能も備えており、マルチモーダル クエリの可能性をさらに裏付けています。図 2 は、MQ-Det が GLIP よりも大幅に改善されたことも示しています。

図2 データ利用効率の比較。横軸:トレーニングサンプル数、縦軸:OdinW-13の平均AP

マルチモーダルクエリオブジェクト検出の将来性

ターゲット検出は実用的応用に基づく研究分野であるため、アルゴリズムの実装に大きな注意が払われます。

これまでの純粋なテキストクエリオブジェクト検出モデルは優れた一般化を示していましたが、実際のオープンワールド検出ではテキストで細かい情報をカバーすることは難しく、画像内の豊富な情報粒度はこのリンクを完全に補完します。

これまでのところ、テキストは一般的だが正確ではない、一方、画像は正確だが一般的ではないことがわかっています。この 2 つを効果的に組み合わせることができれば、つまりマルチモーダル クエリであれば、オープン ワールド オブジェクト検出がさらに前進するでしょう。

MQ-Det はマルチモーダル クエリの第一歩を踏み出しており、その大幅なパフォーマンスの向上は、マルチモーダル クエリのターゲット検出の大きな可能性を示しています。

同時に、テキストによる説明や視覚的な例の導入により、ユーザーにはより多くの選択肢が提供され、オブジェクトの検出がより柔軟で使いやすくなります。

<<:  LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。

>>: 

ブログ    
ブログ    
ブログ    

推薦する

Googleはディープラーニングを使ってCPUを強化することを提案:コンピューターをどんどん高速化する

アップグレードを行わないと、現代の PC は時間の経過とともに必然的に遅くなっていきます。しかし、M...

AI イニシアチブを成功させるために必要な 10 のこと

市場で競争上の優位性を獲得する過程で、多くの企業が新興技術の導入に熱心です。しかし、導入を急ぐあまり...

Facebookは機械学習を使ってコンパイラを最適化

Facebook は最近、コンパイラ最適化タスクを実行するための高性能で使いやすい強化学習 (RL)...

Nvidiaのアルゴリズムが破られ、RTX30シリーズはマイニング計算能力を100%回復:グラフィックカードの値下げは終わったのか?

GPUマイニングで米国証券取引委員会から罰金を科されたNvidiaは、最近、暗号化アルゴリズムが解...

AI はどのようにして既存の人間の偏見を強化するのでしょうか?

定義上、人工知能 (AI) は人間の脳の働きを模倣して組織活動を最適化することを目的としています。 ...

...

シリコンバレーの大手企業のAIスタートアップへの投資レイアウトを解明! Nvidiaが全力で取り組み、MicrosoftとOpenAIの関係が独占禁止法調査につながる

今年、新たな AI スタートアップ企業がシリコンバレーとビジネス界全体に衝撃を与えました。 Open...

...

人工知能技術が英語学習にどのように役立つかについての簡単な議論

人工知能技術は私たちの日常の仕事、勉強、生活に溶け込み、静かに社会生活を変えています。人工知能技術は...

杜暁曼自動機械学習プラットフォームの実践

1. 機械学習プラットフォームまず、Du Xiaomanの機械学習プラットフォームの背景、開発プロセ...

盗難防止は自分自身に対する保護にもなりますか?セキュリティの高いスマートドアロックを購入するのは正しいことでしょうか?

指紋認証ドアロックは新しいものではなく、誰もがよく知っているものだと思います。近年、スマートホームが...

サプライチェーン管理においてAIがすでに優れた成果を上げている分野

サプライ チェーンは、製品の設計から調達、製造、流通、配送、顧客サービスまで、さまざまなアクションを...

...

Nvidiaの生成AIスーパーチップGH200はH100の2倍の計算能力を持つ。黄仁訓:それは狂ったように推論できる

アーキテクチャの革新を待つことができず、Nvidia は生成 AI 専用のチップを「先行して」リリー...

サム・アルトマン:人間レベルのAIは到来するが、世界への影響は想像よりはるかに小さい

米国の人工知能スタートアップOpenAIのサム・アルトマンCEOは現地時間1月17日火曜日、人間のレ...