現在のオープンワールド オブジェクト検出モデルのほとんどは、テキスト クエリ モデル、つまりカテゴリ テキスト記述を使用してターゲット画像内の潜在的なターゲットをクエリするモデルに従っていますが、このアプローチでは、「範囲は広いが正確ではない」という問題に直面することがよくあります。 論文リンク: https://arxiv.org/abs/2305.18980 コードアドレス: https://github.com/YifanXu74/MQ-Det この目的のために、中国科学院自動化研究所などの研究者らは、マルチモーダルクエリベースのターゲット検出モデルであるMQ-Detと、テキスト記述と視覚的なサンプルクエリの両方をサポートする初のオープンワールド検出大規模モデルを提案した。 MQ-Det は、テキスト クエリに基づく既存の大規模検出モデルに視覚的な例のクエリ機能を追加します。プラグアンドプレイのゲート認識構造と視覚条件付きマスク言語予測トレーニング メカニズムを導入することで、検出器は高い一般化を維持しながらきめ細かいマルチモーダル クエリをサポートし、さまざまなシナリオに適応するためのより柔軟なオプションをユーザーに提供します。 シンプルで効果的な設計は、既存の主流の検出モデルと互換性があり、幅広い用途に使用できます。 実験では、マルチモーダルクエリにより、主流の検出大規模モデルのオープンワールドオブジェクト検出機能が大幅に向上することが示されています。たとえば、ベンチマーク検出データセット LVIS では、下流タスクモデルの微調整を必要とせずに、主流の検出大規模モデルの GLIP 精度が約 7.8% AP 向上し、13 のベンチマーク小サンプル下流タスクでは平均 6.3% AP 向上します。 テキストクエリからマルチモーダルクエリへ一枚の写真は千の言葉に値する 画像とテキストの事前トレーニングの増加に伴い、テキストのオープンセマンティクスの助けを借りて、オブジェクト検出は徐々にオープンワールド認識の段階に入りました。 このため、多くの大規模な検出モデルは、カテゴリのテキスト記述を使用して対象画像内の潜在的なオブジェクトを照会するテキスト クエリのパターンに従います。 しかし、このアプローチは「範囲は広いが正確ではない」という問題にしばしば直面します。 図1 MQ-Det法のアーキテクチャ たとえば、図 1 の細粒度オブジェクト (魚種) の検出では、限られたテキストを使用してさまざまな細粒度の魚種を説明することが困難な場合が多く、bat がコウモリとコウモリの両方を指す可能性があるため、カテゴリの曖昧さがあります。 しかし、上記の問題はすべて画像の例を通じて解決できます。テキストと比較して、画像は対象オブジェクトの特徴の手がかりをより豊富に提供できますが、同時に、テキストには強力な一般化能力があります。 したがって、2 つのクエリ方法を有機的に組み合わせる方法は非常に自然なアイデアになります。 マルチモーダル クエリ機能の取得における難しさ: マルチモーダル クエリ機能を備えたモデルを取得するには、次の 3 つの課題があります。 1. 限られた画像例による直接的な微調整は、簡単に壊滅的な忘却につながる可能性があります。 2. 大規模な検出モデルをゼロからトレーニングすると、一般化のパフォーマンスは向上しますが、非常に時間がかかります。たとえば、1枚のカードでGLIP[1]をトレーニングするには、3,000万のデータセットを使用して480日間のトレーニングが必要です。 マルチモーダルクエリオブジェクト検出:上記の考慮に基づいて、著者はシンプルで効果的なモデル設計とトレーニング戦略を提案しました - MQ-Det MQ-Det は、既存の固定テキストクエリ検出モデルに基づいて、少数のゲート知覚モジュール (GCP) を挿入し、視覚的な例の入力を受け取ります。同時に、視覚条件付きマスク言語予測トレーニング戦略を設計し、高性能なマルチモーダルクエリ検出器を効率的に取得します。 MQ-Det: プラグアンドプレイのマルチモーダルクエリモデルアーキテクチャゲート式センシングモジュール 図 1 に示すように、著者は、凍結テキストクエリ検出モデルのテキストエンコーダーにゲート知覚モジュール (GCP) をレイヤーごとに挿入しました。GCP の動作モードは、次の式で簡潔に表現できます。 i番目のカテゴリについては、まず入力視覚例v_iをターゲット画像とのクロスアテンション(X-MHA)によって取得して表現能力を高め、次に各カテゴリテキストt_iを対応するカテゴリの視覚例とのクロスアテンションによって取得し、次に元のテキストt_iと視覚的に拡張されたテキストをゲートモジュールゲートを介して融合して現在のレイヤーの出力を取得します。 このシンプルな設計は、(1) カテゴリのスケーラビリティ、(2) 意味の完全性、(3) 忘却防止という 3 つの原則に従います。詳細な議論については、元の論文を参照してください。 MQ-Det 効率的なトレーニング戦略固定言語クエリ検出器に基づく変調トレーニング テキストクエリ用の現在の事前トレーニング済み検出モデル自体は優れた一般化機能を備えているため、元のテキスト機能に基づいて視覚的な詳細をわずかに調整するだけでよいと著者は考えています。 この記事には、元の事前トレーニング済みモデルのパラメータを開いて微調整すると、簡単に壊滅的な忘却につながり、オープンワールドでの検出能力を失う可能性があるという具体的な実験的証拠も示されています。 したがって、MQ-Det は、事前にトレーニングされた固定テキスト クエリの検出器に基づいて、挿入をトレーニングするための GCP モジュールを調整するだけで、既存のテキスト クエリの検出器に視覚情報を効率的に挿入できます。 本論文では、著者らはMQ-Detの構造設計とトレーニング手法を現在のSOTAモデルGLIP[1]とGroundingDINO[2]に適用し、この方法の汎用性を検証した。 マスク言語予測のための視覚条件付けトレーニング戦略 著者らはまた、事前トレーニング済みモデルをフリーズすることで生じる学習慣性の問題を解決するために、視覚条件付けマスク言語予測トレーニング戦略を提案した。 いわゆる学習慣性とは、検出器がトレーニング中に元のテキスト クエリの特徴を保持する傾向があり、新しく追加された視覚的なクエリの特徴を無視することを意味します。 このため、MQ-Det はトレーニング中にテキスト トークンを [MASK] トークンにランダムに置き換え、モデルに視覚クエリ機能側から学習させます。 この戦略はシンプルですが、非常に効果的です。実験結果では、この戦略によってパフォーマンスが大幅に向上することが示されています。 実験結果微調整不要 テストにカテゴリテキストのみを使用する従来のゼロショット評価と比較して、MQ-Detはより実用的な評価戦略を提案しています。 定義: 下流の微調整なしで、ユーザーはカテゴリ テキスト、画像の例、またはその両方の組み合わせを使用してオブジェクトを検出できます。 微調整なしの設定では、MQ-Det は各カテゴリに対して 5 つの視覚的な例を選択し、カテゴリ テキストを組み合わせてターゲットを検出します。他の既存のモデルは視覚的なクエリをサポートしておらず、ターゲットの検出にはプレーン テキストの説明のみを使用できます。 次の表は、LVIS MiniVal と LVIS v1.0 のテスト結果を示しています。マルチモーダルクエリの導入により、オープンワールドオブジェクトの検出機能が大幅に向上したことがわかります。 表1 LVISベンチマークデータセットにおけるさまざまな検出モデルの微調整なしのパフォーマンス 表 1 からわかるように、MQ-GLIP-L は GLIP-L と比較して AP を 7% 以上向上させており、これは非常に顕著な効果です。 少数ショットの評価 表2 35の検出タスクにおける各モデルのパフォーマンス ODinW-35とその13のサブセット ODinW-13 著者らはさらに、35 の下流検出タスク ODinW-35 で包括的な実験を実施しました。表 2 からわかるように、MQ-Det は、強力な微調整不要のパフォーマンスに加えて、優れた小規模サンプル検出機能も備えており、マルチモーダル クエリの可能性をさらに裏付けています。図 2 は、MQ-Det が GLIP よりも大幅に改善されたことも示しています。 図2 データ利用効率の比較。横軸:トレーニングサンプル数、縦軸:OdinW-13の平均AP マルチモーダルクエリオブジェクト検出の将来性ターゲット検出は実用的応用に基づく研究分野であるため、アルゴリズムの実装に大きな注意が払われます。 これまでの純粋なテキストクエリオブジェクト検出モデルは優れた一般化を示していましたが、実際のオープンワールド検出ではテキストで細かい情報をカバーすることは難しく、画像内の豊富な情報粒度はこのリンクを完全に補完します。 これまでのところ、テキストは一般的だが正確ではない、一方、画像は正確だが一般的ではないことがわかっています。この 2 つを効果的に組み合わせることができれば、つまりマルチモーダル クエリであれば、オープン ワールド オブジェクト検出がさらに前進するでしょう。 MQ-Det はマルチモーダル クエリの第一歩を踏み出しており、その大幅なパフォーマンスの向上は、マルチモーダル クエリのターゲット検出の大きな可能性を示しています。 同時に、テキストによる説明や視覚的な例の導入により、ユーザーにはより多くの選択肢が提供され、オブジェクトの検出がより柔軟で使いやすくなります。 |
<<: LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。
機械学習の分野では、「世の中にただ飯はない」という格言があります。簡単に言えば、あらゆる問題に対して...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
中国国家郵政局が2020年10月に郵便業界標準「ドローン速達サービス仕様」について通知したことを覚え...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[253800]] 2017年にジャック・マーがニューリテールの概念を提唱して以来、雨後の筍のよ...
[[188736]]アルゴリズム1: クイックソートアルゴリズムクイックソートは、Tony Hal...
12月7日から8日にかけて、中華人民共和国教育部、中国ユネスコ国家委員会、ユネスコの共催による「20...
翻訳者 |ブガッティレビュー | Chonglou MusicGen を使用すると、誰でもテキスト ...
[[241150]]画像出典: Visual China今年のコナン映画は中国でも公開されるそうです...
【51CTO.comオリジナル記事】序文機械学習は人工知能の分野で重要な部分を占めています。簡単に...