正解率が7.8%アップしました！最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました

現在のオープンワールドオブジェクト検出モデルのほとんどは、テキストクエリモデル、つまりカテゴリテキスト記述を使用してターゲット画像内の潜在的なターゲットをクエリするモデルに従っていますが、このアプローチでは、「範囲は広いが正確ではない」という問題に直面することがよくあります。

論文リンク: https://arxiv.org/abs/2305.18980

コードアドレス: https://github.com/YifanXu74/MQ-Det

この目的のために、中国科学院自動化研究所などの研究者らは、マルチモーダルクエリベースのターゲット検出モデルであるMQ-Detと、テキスト記述と視覚的なサンプルクエリの両方をサポートする初のオープンワールド検出大規模モデルを提案した。

MQ-Det は、テキストクエリに基づく既存の大規模検出モデルに視覚的な例のクエリ機能を追加します。プラグアンドプレイのゲート認識構造と視覚条件付きマスク言語予測トレーニングメカニズムを導入することで、検出器は高い一般化を維持しながらきめ細かいマルチモーダルクエリをサポートし、さまざまなシナリオに適応するためのより柔軟なオプションをユーザーに提供します。

シンプルで効果的な設計は、既存の主流の検出モデルと互換性があり、幅広い用途に使用できます。

実験では、マルチモーダルクエリにより、主流の検出大規模モデルのオープンワールドオブジェクト検出機能が大幅に向上することが示されています。たとえば、ベンチマーク検出データセット LVIS では、下流タスクモデルの微調整を必要とせずに、主流の検出大規模モデルの GLIP 精度が約 7.8% AP 向上し、13 のベンチマーク小サンプル下流タスクでは平均 6.3% AP 向上します。

テキストクエリからマルチモーダルクエリへ

一枚の写真は千の言葉に値する

画像とテキストの事前トレーニングの増加に伴い、テキストのオープンセマンティクスの助けを借りて、オブジェクト検出は徐々にオープンワールド認識の段階に入りました。

このため、多くの大規模な検出モデルは、カテゴリのテキスト記述を使用して対象画像内の潜在的なオブジェクトを照会するテキストクエリのパターンに従います。

しかし、このアプローチは「範囲は広いが正確ではない」という問題にしばしば直面します。

図1 MQ-Det法のアーキテクチャ

たとえば、図 1 の細粒度オブジェクト (魚種) の検出では、限られたテキストを使用してさまざまな細粒度の魚種を説明することが困難な場合が多く、bat がコウモリとコウモリの両方を指す可能性があるため、カテゴリの曖昧さがあります。

しかし、上記の問題はすべて画像の例を通じて解決できます。テキストと比較して、画像は対象オブジェクトの特徴の手がかりをより豊富に提供できますが、同時に、テキストには強力な一般化能力があります。

したがって、2 つのクエリ方法を有機的に組み合わせる方法は非常に自然なアイデアになります。

マルチモーダルクエリ機能の取得における難しさ: マルチモーダルクエリ機能を備えたモデルを取得するには、次の 3 つの課題があります。

1. 限られた画像例による直接的な微調整は、簡単に壊滅的な忘却につながる可能性があります。

2. 大規模な検出モデルをゼロからトレーニングすると、一般化のパフォーマンスは向上しますが、非常に時間がかかります。たとえば、1枚のカードでGLIP[1]をトレーニングするには、3,000万のデータセットを使用して480日間のトレーニングが必要です。

マルチモーダルクエリオブジェクト検出：上記の考慮に基づいて、著者はシンプルで効果的なモデル設計とトレーニング戦略を提案しました - MQ-Det

MQ-Det は、既存の固定テキストクエリ検出モデルに基づいて、少数のゲート知覚モジュール (GCP) を挿入し、視覚的な例の入力を受け取ります。同時に、視覚条件付きマスク言語予測トレーニング戦略を設計し、高性能なマルチモーダルクエリ検出器を効率的に取得します。

MQ-Det: プラグアンドプレイのマルチモーダルクエリモデルアーキテクチャ

ゲート式センシングモジュール

図 1 に示すように、著者は、凍結テキストクエリ検出モデルのテキストエンコーダーにゲート知覚モジュール (GCP) をレイヤーごとに挿入しました。GCP の動作モードは、次の式で簡潔に表現できます。

i番目のカテゴリについては、まず入力視覚例v_iをターゲット画像とのクロスアテンション（X-MHA）によって取得して表現能力を高め、次に各カテゴリテキストt_iを対応するカテゴリの視覚例とのクロスアテンションによって取得し、次に元のテキストt_iと視覚的に拡張されたテキストをゲートモジュールゲートを介して融合して現在のレイヤーの出力を取得します。

このシンプルな設計は、(1) カテゴリのスケーラビリティ、(2) 意味の完全性、(3) 忘却防止という 3 つの原則に従います。詳細な議論については、元の論文を参照してください。

MQ-Det 効率的なトレーニング戦略

固定言語クエリ検出器に基づく変調トレーニング

テキストクエリ用の現在の事前トレーニング済み検出モデル自体は優れた一般化機能を備えているため、元のテキスト機能に基づいて視覚的な詳細をわずかに調整するだけでよいと著者は考えています。

この記事には、元の事前トレーニング済みモデルのパラメータを開いて微調整すると、簡単に壊滅的な忘却につながり、オープンワールドでの検出能力を失う可能性があるという具体的な実験的証拠も示されています。

したがって、MQ-Det は、事前にトレーニングされた固定テキストクエリの検出器に基づいて、挿入をトレーニングするための GCP モジュールを調整するだけで、既存のテキストクエリの検出器に視覚情報を効率的に挿入できます。

本論文では、著者らはMQ-Detの構造設計とトレーニング手法を現在のSOTAモデルGLIP[1]とGroundingDINO[2]に適用し、この方法の汎用性を検証した。

マスク言語予測のための視覚条件付けトレーニング戦略

著者らはまた、事前トレーニング済みモデルをフリーズすることで生じる学習慣性の問題を解決するために、視覚条件付けマスク言語予測トレーニング戦略を提案した。

いわゆる学習慣性とは、検出器がトレーニング中に元のテキストクエリの特徴を保持する傾向があり、新しく追加された視覚的なクエリの特徴を無視することを意味します。

このため、MQ-Det はトレーニング中にテキストトークンを [MASK] トークンにランダムに置き換え、モデルに視覚クエリ機能側から学習させます。

この戦略はシンプルですが、非常に効果的です。実験結果では、この戦略によってパフォーマンスが大幅に向上することが示されています。

実験結果

微調整不要

テストにカテゴリテキストのみを使用する従来のゼロショット評価と比較して、MQ-Detはより実用的な評価戦略を提案しています。

定義: 下流の微調整なしで、ユーザーはカテゴリテキスト、画像の例、またはその両方の組み合わせを使用してオブジェクトを検出できます。

微調整なしの設定では、MQ-Det は各カテゴリに対して 5 つの視覚的な例を選択し、カテゴリテキストを組み合わせてターゲットを検出します。他の既存のモデルは視覚的なクエリをサポートしておらず、ターゲットの検出にはプレーンテキストの説明のみを使用できます。

次の表は、LVIS MiniVal と LVIS v1.0 のテスト結果を示しています。マルチモーダルクエリの導入により、オープンワールドオブジェクトの検出機能が大幅に向上したことがわかります。

表1 LVISベンチマークデータセットにおけるさまざまな検出モデルの微調整なしのパフォーマンス

表 1 からわかるように、MQ-GLIP-L は GLIP-L と比較して AP を 7% 以上向上させており、これは非常に顕著な効果です。

少数ショットの評価

表2 35の検出タスクにおける各モデルのパフォーマンス ODinW-35とその13のサブセット ODinW-13

著者らはさらに、35 の下流検出タスク ODinW-35 で包括的な実験を実施しました。表 2 からわかるように、MQ-Det は、強力な微調整不要のパフォーマンスに加えて、優れた小規模サンプル検出機能も備えており、マルチモーダルクエリの可能性をさらに裏付けています。図 2 は、MQ-Det が GLIP よりも大幅に改善されたことも示しています。

図2 データ利用効率の比較。横軸：トレーニングサンプル数、縦軸：OdinW-13の平均AP

マルチモーダルクエリオブジェクト検出の将来性

ターゲット検出は実用的応用に基づく研究分野であるため、アルゴリズムの実装に大きな注意が払われます。

これまでの純粋なテキストクエリオブジェクト検出モデルは優れた一般化を示していましたが、実際のオープンワールド検出ではテキストで細かい情報をカバーすることは難しく、画像内の豊富な情報粒度はこのリンクを完全に補完します。

これまでのところ、テキストは一般的だが正確ではない、一方、画像は正確だが一般的ではないことがわかっています。この 2 つを効果的に組み合わせることができれば、つまりマルチモーダルクエリであれば、オープンワールドオブジェクト検出がさらに前進するでしょう。

MQ-Det はマルチモーダルクエリの第一歩を踏み出しており、その大幅なパフォーマンスの向上は、マルチモーダルクエリのターゲット検出の大きな可能性を示しています。

同時に、テキストによる説明や視覚的な例の導入により、ユーザーにはより多くの選択肢が提供され、オブジェクトの検出がより柔軟で使いやすくなります。

<<: LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。

>>:

ガートナー: 2020 年の人工知能の成熟度曲線、どのテクノロジーが価値があるか

正解率が7.8%アップしました！最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました

テキストクエリからマルチモーダルクエリへ

MQ-Det: プラグアンドプレイのマルチモーダルクエリモデルアーキテクチャ

MQ-Det 効率的なトレーニング戦略

実験結果

マルチモーダルクエリオブジェクト検出の将来性

ガートナー: 2020 年の人工知能の成熟度曲線、どのテクノロジーが価値があるか

人工知能チュートリアル（I）：基礎

あなたの声は私のパスです

北京で百度脳産業イノベーションフォーラムが閉幕、AIの文脈でインテリジェント政府業務を解読

新しい問題と古い問題の組み合わせは、個人情報保護に新たな課題をもたらします。

素晴らしい操作です！たった5行のコードで画像認識AIが作れる

ナレッジグラフから知識推論まで、AIのホットな話題になるのでしょうか？

推薦する

Googleはディープラーニングを使ってCPUを強化することを提案：コンピューターをどんどん高速化する

AI イニシアチブを成功させるために必要な 10 のこと

Facebookは機械学習を使ってコンパイラを最適化

Nvidiaのアルゴリズムが破られ、RTX30シリーズはマイニング計算能力を100%回復：グラフィックカードの値下げは終わったのか？

AI はどのようにして既存の人間の偏見を強化するのでしょうか?

シリコンバレーの大手企業のAIスタートアップへの投資レイアウトを解明！ Nvidiaが全力で取り組み、MicrosoftとOpenAIの関係が独占禁止法調査につながる

人工知能技術が英語学習にどのように役立つかについての簡単な議論

杜暁曼自動機械学習プラットフォームの実践

盗難防止は自分自身に対する保護にもなりますか?セキュリティの高いスマートドアロックを購入するのは正しいことでしょうか?

サプライチェーン管理においてAIがすでに優れた成果を上げている分野

Nvidiaの生成AIスーパーチップGH200はH100の2倍の計算能力を持つ。黄仁訓：それは狂ったように推論できる

サム・アルトマン：人間レベルのAIは到来するが、世界への影響は想像よりはるかに小さい