オープン語彙検出オープンワールド物体検出コンペティション2023優勝チームソリューション共有

オープン語彙検出オープンワールド物体検出コンペティション2023優勝チームソリューション共有

OVDテクノロジーの紹介

物体検出は、コンピューター ビジョンの分野における中核的なタスクです。その主な目的は、コンピューターが画像内の物体のカテゴリを自動的に識別し、各物体の位置を正確にマークできるようにすることです。現在、主流のターゲット検出方法は主にクローズドセットターゲット向けに開発されており、タスクを開始する前に、検出するターゲットのカテゴリを定義し、手動でデータの注釈を付け、教師ありモデルトレーニングを通じてターゲット検出を実現する必要があります。この方法は通常、検出するターゲットの数が少なく、通常は数十のカテゴリに限定されている状況に適しています。しかし、検出対象となるカテゴリの数が数千、数万にまで増加すると、上記の方法でのデータラベリングではニーズを満たすことができなくなります。同時に、トレーニングされたモデルは新しく出現したカテゴリに対応できません。新しいカテゴリが出現すると、手動でラベルを付けてモデルを再トレーニングする必要があり、全体的な効率が低下します。

オープン ボキャブラリ検出 (OVD) は、オープン ワールド オブジェクト検出とも呼ばれ、上記の問題を解決するための新しいアイデアを提供します。既存のクロスモーダルモデル(CLIP[1]、ALIGN[2]、R2D2[3]など)の一般化機能の助けを借りて、OVDは次の機能を実現できます:1)定義されたカテゴリの少数ショット検出、2)未定義カテゴリのゼロショット検出。 OVD 技術の出現は、コンピューター ビジョンの研究者から幅広い注目を集めています。まず、定義されたカテゴリの少数ショット検出では、OVD の強力な一般化機能により、アルゴリズムは少数のサンプルのみで新しいターゲット カテゴリを正確に識別できます。第二に、未定義のカテゴリのゼロショット検出における OVD の能力はさらに驚くべきものです。 OVD は、さまざまなオブジェクトの視覚的特徴と意味情報を学習することで、これまでに見たことのないカテゴリのターゲット検出を実行できます。さらに、OVD に言語大規模モデル技術を導入することで、未知のカテゴリに対する OVD の検出機能がさらに強化されます。 OVD テクノロジーは、将来のターゲット検出アルゴリズムの開発における新たなパラダイムとなることが期待されています。

コンテスト紹介

中国ではOVD技術の研究はまだ初期段階にあります。国内のOVD技術の発展を促進し、OVD技術のエコロジカルコミュニティの構築を強化するために、360人工知能研究所と中国画像グラフィックス学会はICIG2023会議で共同でオープン語彙検出コンテストを開始しました。コンテストへの参加登録は4月12日に開始され、登録期間中、シンガポールの南洋理工大学、清華大学、北京大学、香港大学、中国科学院自動化研究所紫東台中大型モデル研究センター、彭城実験室、華中科技大学、バイトダンス、滴滴出行などの有名大学や企業から140チームがコンテストに参加した。本コンテストで使用されたコンテストデータ、コンテスト応募プラットフォーム、コンテスト設定はすべて360人工知能研究所によってサポートされています。

競合データは主に衣料品やデジタル製品など多くの商品カテゴリをカバーしており、各商品の写真と対応する検出ボックスの注釈情報がトレーニングデータとして提供されます。商品データは、インターネット検索やレコメンデーションにおいて重要な価値を持ち、ビジネスシナリオに非常に近い実用的なデータです。第二に、商品のデータセットはより複雑であり、通常、同じカテゴリの商品間では細かい違いがあるため、従来のターゲット検出技術の一般化能力も制限され、OVD技術の利点が反映されています。

競技設定: 参加者は OVD 関連の手法を使用して、画像内の製品ターゲットを検出します。製品の場合、主催者はその写真と bbox をトレーニング データとして提供します。ターゲットカテゴリには、ベースとノベルの 2 種類があります。カテゴリーはすべて中国語の製品フレーズです。基本クラス ターゲットは少数のラベル付きトレーニング サンプルを提供しますが、新規クラス ターゲットにはトレーニング サンプルがありません。評価は、それぞれベースクラスとノベルクラスのテストセットで行われます。評価指標は、ノベルクラスとベースクラスの mAP@50 です。コンテストは、ノベルカテゴリとベースカテゴリの全体的な mAP@50 に従ってランク付けされます。

コンテストは予選と準決勝の2段階に分かれており、予選から準決勝にかけて問題の難易度が徐々に上がり、出場者のオープンワールドターゲット検出問題に対する習熟度と柔軟な対応能力が試されます。競技中、出場者らの計画は激しく競い合い、最終的に、上位3チームの準決勝のスコアは非常に僅差となりました。予選、準決勝を経て、最終的に6チームが勝ち上がり、南洋理工大学のWu Sizeチームが優勝しました。 2位は華中科技大学のSTARチームと中国科学院自動化研究所紫東台中大型モデル研究センターの「私たちのグループに名前はありますか?」チームが受賞しました。3位は北京大学のOVDチーム、ハルビン工業大学のwzmwzrチーム、武漢郵電研究所のBlue Flashチームが受賞しました。オープン語彙検出コンテスト - オープンワールドオブジェクト検出コンテスト 公式ウェブサイトリンク: オープンワールドオブジェクト検出コンテスト 2023 (360cvgroup.github.io)

各競技チームの積極的な参加と、中国画像グラフィック学会および360人工知能研究所の強力なサポートにより、オープン語彙検出コンテストが正式に終了しました。各競技チームから許可を得た後、優勝チームの技術ソリューションをまとめて公開しました。詳細については、この記事の後半をご覧ください。

[1] A. Radford、J. W. Kim、C. Hallacy、A. Ramesh、G. Goh、S. Agarwal、G. Sastry、A. Askell、P. Mishkin、J. Clark、他「自然言語の監督から転移可能な視覚モデルを学習する」国際機械学習会議、8748~8763ページ。PMLR、2021年。

[2] C. Jia、Y. Yang、Y. Xia、Y.-T. Chen、Z. Parekh、H. Pham、Q.V. Le、Y. Sung、Z. Li、およびT. Duerig。ノイズのあるテキスト監視による視覚および視覚言語表現学習のスケールアップ。国際機械学習会議、2021年。

[3] Xie C、Cai H、Song J、et al. ZeroとR2D2:大規模な中国語クロスモーダルベンチマークと視覚言語フレームワーク[J]。arXivプレプリントarXiv:2205.03860、2022年。

チャンピオンプログラムの説明

チームについて

南洋理工大学の博士課程の学生、ウー・サイズ

競争分析

1.データセット

オーガナイザーは、合計 466 個のオブジェクト カテゴリを含む製品データセットを提供します。そのうち 233 個はトレーニングで確認できる基本カテゴリです。テスト中、検出器は基本カテゴリのオブジェクトと 233 個の新しいカテゴリのオブジェクトを同時に認識できる必要があります。データセット内の画像は主にオンライン ショッピングの商品画像です。背景は通常シンプルで、各画像にはオブジェクトがあまりありません。オブジェクト中心の画像が多数あります。トレーニング セット内の画像あたりのオブジェクト注釈の平均数は 2 未満です。

2.解決策

データセットの属性によると、インターネット上には新しいカテゴリを含む製品画像が多数あることがわかります。画像シーンは単純でオブジェクトは単一であるため、画像レベルで新しいカテゴリの表現を学習することは、検出に十分に一般化できます。したがって、私たちは基本的なソリューションとして Detic を選択し、クローラーを使用して画像レベルのトレーニング用の新しいカテゴリ タグが付いた写真を取得します。

ソリューションの概要

Detic[1]のトレーニング戦略を採用し、物体検出データ(基本クラス)と画像分類データ(基本クラス+新規クラス)の両方を使用して検出器をトレーニングします。

プログラムプロセスの紹介

1.データ処理

クロール対象として百度画像を選択し、インデックスキーワードは「[中国語名]製品画像」とした。カテゴリのバランスを確保するため、新規カテゴリと基本カテゴリの両方で40ページ(約1,000枚の画像)をクロールした。各カテゴリのクロールされた画像はパスに保存されます。これらの画像にはカテゴリ タグのみ含まれており、オブジェクト ボックスの注釈はありません。

2.カテゴリ名の翻訳

既存のオープンソース モデル (CLIP) の使用を容易にするために、466 個の中国語の名前すべてを英語に翻訳する必要があります。Google Translator を使用して各名前を翻訳し、手動で校正します。

 

3.モデルの紹介

ResNet50 と SwinB が検出器バックボーンとして選択され、検出器構造は CenterNet2 であり、Detic によって公開されたパブリック データセット LVIS と ImageNet で事前トレーニングされたモデルの重みが初期化として使用されます。 CLIP モデルは、カテゴリ名の埋め込みを取得するために ViT-L-14 (テキスト エンコーダーのみを使用) を選択します。分類の損失関数は BCE 損失です。

4. 学習可能なプロンプト

カテゴリ名のテキスト埋め込みを取得するために、トレーニング中に長さ 4 の学習可能なプロンプトのセットを学習し、より優れたテキスト表現を取得します。具体的な計画としては協同組合[2]が挙げられます。

5.重要なパラメータ

  • モデルの初期化: 初期化として、LVIS および ImageNet で事前トレーニングされたモデルを使用します。
  • 合計反復回数: 18000。
  • 画像レベル ブランチのバッチ サイズは 8x96、検出ブランチのバッチ サイズは 8x4 です。
  • イメージレベルの重み: 1.2、det ブランチの重み: 1.0。
  • 画像解像度: 画像レベル ブランチ 448、検出ブランチ 896。

6.テスト結果

ここで紹介するテスト結果は、モジュールとパラメータが変更された場合の結果です。最初は R50 バックボーンをベースラインとして使用し、イメージレベル ブランチのバッチ サイズは 32、トレーニング リソースは 8xV100 です。64 に増やした後は、8xA100 が必要になります (または、全体のバッチ サイズが縮小され、反復回数が増加します)。以下は予選ラウンドの結果です。

  • 画像レベルの監視による2万クラスの検出、周 らECCV 2022。
  • 視覚言語モデルのためのプロンプト学習、Zhou et.al IJCV 2022。

2位提案説明(2位)

チームについて

このチームは華中科技大学のもので、メンバーには冷復星氏と易成龍氏が含まれています。

競争分析

1.データセット

  • トレーニングデータ: 既知のカテゴリのターゲット検出ボックス233種類
  • 予選:7401枚
  • 準決勝: 14,802 枚

データ機能:

  • すべてeコマースの商品画像です
  • 1枚の画像内のオブジェクトカテゴリは同じです
  • 有効なOCR情報があります

2.解決策

前景検出器は画像内のターゲットを特定するために使用され、LLM はテキスト情報を拡張するために使用され、最後に ChineseCLIP を組み合わせてマルチモーダル画像とテキストの位置合わせを実行し、カテゴリ情報を生成します。

ソリューションの概要

図に示すように、これがこのコンペで提案されたアルゴリズム パイプラインです。提供されたカテゴリ情報を使用する必要はなく、任意の製品カテゴリのターゲット検出を実行するために追加のデータを導入する必要もありません。

  • フォアグラウンド検出器: 提供されている 233 のカテゴリの情報を使用する必要はなく、位置座標のみを使用してフォアグラウンド検出器をトレーニングし、パイプライン全体の中でここでのみ勾配の更新を行います。
  • プロンプトエンジニアリング: 大規模言語モデル (LLM) を使用して半自動プロンプトエンジニアリングを実行し、カテゴリ c を入力し、テンプレート仕様を指定して、より多様なプロンプトを生成します。
  • マルチモーダル画像とテキストのアライメント: 中国語の CLIP を使用して画像とテキストの特徴をアライメントし、カテゴリ分類を実行し、プロンプト アンサンブルを使用してパフォーマンスを向上させます。

プログラムプロセスの紹介

1.前景検出器

現在主流の検出器は図に示されており、主にアンカーベースとアンカーフリーの 2 種類の検出器が含まれます。前者は精度が高いが速度が遅く、後者は精度がやや低いが速度が速いです。

  • フォアグラウンド提案では、WBF (Weighted Boxes Fusion) を使用して、CBNetV2_Swin、CascadeRCNN_Convnext、CascadeRCNN_Hornet、CascadeRCNN_resnext101、DetecotoRS_r101、および VFNet_resnext101 を統合します。CBNetV2_Swin の単一の検出器を使用した場合の実際のスコアは低くなく、統合スコアは約 1 ポイント向上します。
  • トレーニング済みの前景検出器を使用してターゲットを検出し、マルチスケールのクロッピング(拡張 +0、+30 ピクセル)を実行し、(図 2 の右上隅にあるオカリナのテキストなどの有効な OCR 情報を使用して)完全な画像を追加して画像とテキストを揃え、3 つのスケールの出力ロジットを平均します。

2.プロンプトワードエンジニアリング

CLIP モデルはデュアルタワー構造です。テキストの配置にカテゴリ情報を直接使用するのは最適ではありません。テキスト エンコーディングの可能性を最大限に引き出すには、プロンプト ワード エンジニアリングが必要です。実験では、「c」と「c」の画像が使用されています。後者は検証セットで 5 ポイント高いスコアを獲得しています。

ChahtGPT/LLMA 2 を使用すると、LLM を徐々に操作して、目的のプロンプト テンプレートを生成することができます。最終的に、複数のプロンプトが生成され、アンサンブルすることができます。アンサンブルには 3 つの方法があります。実際には、最も単純な均一平均化のみが使用されます。

  • 均一平均化
  • 加重平均
  • 多数決

3. アブレーション実験と実験結果

検証セット: 予備トレーニング セット (トレーニングではカテゴリ情報は使用されず、CLIP モデルの分類能力を評価するために使用されます)

  • PE:プロンプトエンジニアリング
  • CME: CLIP モデル アンサンブル (0.7*VIT-H@224+0.3*VIT-L@336)

4.思考を広げる

上記で提案したパイプラインは、トレーニングに位置情報を使用します。CLIP は、トレーニングなしで任意のオブジェクトを検出するためにも使用できます。

画像は小さなパッチに分割され、スライディング ウィンドウ クロップ イメージが CLIP モデルに送られて、画像とテキストの類似性が抽出されます。各ウィンドウはしきい値に基づいてターゲット カテゴリを決定します。また、現在のウィンドウ イメージを 0 に設定して、イメージ全体のどのカテゴリの類似性が最も低下するかを確認することもできます。しかし、提案の検出の代わりにスライディングウィンドウを使用するこの方法は時間がかかり、測定された精度は上記の方法ほど高くありません。

3位提案の説明(3位)

チームについて

「私たちのグループに名前はありますか?」チームは、中国科学院自動化研究所紫東台中大型モデル研究センターから来ています。紫東台中大型モデル研究センターは、低電力の兆シナプスマルチモーダル認知大型モデルの構築、オープンで複雑な環境向けの説明可能で信頼性が高く進化可能なマルチモーダル人工知能基本プラットフォームの確立、新世代の主要な人工知能インフラストラクチャの構築、革新的なアプリケーションエコシステムの形成に取り組んでいます。コンテストチームは、博士課程の学生 2 名 (Zhan Yufei と Yang Fan)、修士課程の学生 1 名 (Zhao Hongyin)、学部生 1 名 (Wang Tianqi) で構成されています。彼らは Zhu Yousong 教授の指導の下でこのコンテストを完了しました。チームの現在の主な研究方向は、大規模視覚モデル、オブジェクト検出、オープン語彙オブジェクト検出、ロングテール オブジェクト検出です。

競争分析

1.データセット

オープン語彙オブジェクト検出の研究では、トレーニング速度の利点と公平な比較の必要性から、エンドツーエンドのトレーニング方法が広く使用されてきました。このコモディティ シナリオにおけるオープン ワールド オブジェクト検出競争には、主に 4 つの問題があります。

  • ノイズが多い: データの注釈にはノイズが多く、各カテゴリでラベルの誤記やラベルの欠落が発生し、注釈方法が統一されていません。
  • 位置決めが難しい: 少数サンプルのトレーニング設定では、エンドツーエンドの微調整精度の位置決めと分類効果は低くなります。
  • 混乱しやすい --- カテゴリは非常に細かく、主に商品データが含まれており、カテゴリ内の差異が大きく、一般的な中国のグラフィックモデルではそれらを効果的に区別できません。
  • 主題の判断が難しい---このシナリオでは、各写真で識別できるのはメインの製品のみであり、一緒に表示される他の製品は抑制する必要があります。

2.解決策

上記の問題を解決するために、データのカテゴリ分布とインスタンスの位置分布を分析した結果、画像のインスタンスが単一のカテゴリに表示され、中央に分布していることがわかり、これがタスク分離の基礎となります。そのため、ボックス回帰と製品オブジェクト分類を分離する 2 段階のアプローチを選択し、カテゴリに依存しないボックス回帰を実装して、位置決めの難しさや被写体の判断の難しさの問題を解決し、CLIP 機能に基づくゼロショット分類と少数ショット分類を実装して、ノイズが大きく混乱しやすいという問題を解決します。タスクは 2 つのサブタスクに分割され、個別に反復されるため、最適化速度が効果的に向上します。

ソリューションの概要

ソリューションの全体的なフレームワークを下図に示します。サブタスクの分割に従って、トレーニングを検出器のトレーニングと画像モデルの最適化の 2 つの部分に分けます。最終的な最適化モデルは推論段階で結合され、推論ルールの支援を受けてシーン内の少数サンプルおよびゼロサンプルのカテゴリの検出を完了します。

プログラムプロセスの紹介

1. ターゲット位置決めのためのデータ補足

モデルが大きなフレームを生成する傾向を抑制し、場合によってはコンポーネントフレームの誤った生成によって引き起こされる位置決めの難しさを修正するために、659 個のベース カテゴリ製品画像を追加でクロールし、トレーニング済みモデルを使用して疑似ラベルの形式で構築し、信頼レベルが 0.8 を超える予測フレームを選択し、手動検証を使用してそれらをクリーンアップおよびフィルタリングし、ローカル フレームなどを削除し、モデルの微調整用に 659 個の画像を含む修正済みデータ サブセットを構築しました。

2.ターゲット位置決めモジュール

製品オブジェクトのローカリゼーション部分では、オープン語彙オブジェクト検出タスクを考慮して、検出器はまず、検出注釈のない新しいカテゴリを含むすべての可能なオブジェクトを見つける必要があります。したがって、画像内に存在する可能性のある製品を抽出するために、検出器をバイナリ分類製品検出器としてトレーニングすることを選択します。 Cascade-RCNN を使用してバイナリ分類製品検出モデルをトレーニングし、複数のカスケード回帰ブランチを使用してモデルのオブジェクトの認識および位置特定能力を向上させます。モデルの特徴抽出機能を向上させるために、バックボーン ネットワークとして Swin-Transformer Small を選択します。Neck はデフォルトで FPN を使用して、高レベルのセマンティック特徴と低レベルの詳細特徴を融合します。最後に、オブジェクト スコアが 0.1 を超える候補ボックスから、上位 100 個の検出ボックスが選択されます。

3.ターゲット分類のためのデータ補足

データ量が少ない場合のノイズと混乱の問題を解決するために、オープン語彙タスク設定にヒントを得て、「カテゴリ名 商品画像」というキーワード検索と類似画像検索方法を使用し、Baidu、Google、eコマースプラットフォームなどのネットワークデータから70万件のデータを収集してモデルを微調整し、ChatGLMを使用してカテゴリと画像の説明を生成して画像とテキストのペアの意味の豊かさを向上させ、モデルの識別能力を強化しました(図2を参照)。微調整方法を比較することで、現在より優れている 3 つの微調整方法、Finetune、Lora、LiT を比較しました。表 1 に示すように、微調整すると Lora は新規カテゴリをより正確に識別でき、完全な微調整を使用すると、より優れた基本カテゴリ認識効果が得られることがわかりました。そのため、最終モデルでは 2 つを統合しました。

4.ターゲット分類モジュール

製品ターゲット分類の部分では、現在のオープンソースの中国語画像とテキストモデルを調査した結果、最もパフォーマンスの高い中国語画像とテキストモデルであるChinese-CLIPを選択しました。このモデルはOpenCLIPを継承しています。ビジュアルブランチはViT構造を採用し、テキストブランチはRoBERTa構造を採用しています。微調整のためにViT-H-224モデルを選択しました。

5.推論の最適化

推論段階では、ルールの形でデータの事前条件(単一カテゴリ、画像、テキスト)を追加し、グローバル確率融合、OCR 支援推論、カテゴリ一貫性修正の 3 つのルールを設計して、データの混乱が起きやすいことや主題の判断が難しいという問題をさらに解決しました。ルールとモデルを次の推論プロセスに整理します。

  • RPN 候補ボックス推論: トレーニング済みの配置モデルを使用してテスト セット内の各画像を推論し、各画像の候補ボックスを取得します。
  • 画像とテキストの特徴抽出:各画像について、(1)で生成された候補ボックスの結果に基づいて、対応する関心領域がキャプチャされ、画像全体とともにトレーニングされたCLIPモデルに送信され、地域の特徴とカテゴリのテキストの特徴が抽出されます。
  • グローバル特徴の融合: 候補ボックスごとに、地域特徴がグローバル特徴に 8:2 の比率で追加され、最終的な地域特徴が修正され、テキスト特徴とのコサイン類似度が計算されます。
  • OCR 支援修正: 各候補ボックスの分類確率と画像全体の OCR 結果を組み合わせて、設計された OCR ルールに従ってカテゴリ確率修正を実行します。
  • カテゴリ一貫性補正: すべての候補ボックスの分類結果を画像全体の分類結果と比較します。画像全体と同じカテゴリの候補ボックスがある場合は、一貫性のある候補ボックスを出力します。そうでない場合は、すべてのボックスの中で最もスコアの高い候補ボックスを画像の最終結果として出力します。

6. テスト結果

モデルの最適化とルール設計により、当社のソリューションは、ゼロショット カテゴリで 50.08% AP50、少数ショット カテゴリで 54.16% AP50 を達成しました。最終的な認識結果は次のとおりです。

<<:  大規模製造企業におけるインテリジェントな意思決定シナリオの分析

>>:  爆発!ローカル展開、複数のAIモデル間の簡単な切り替え

ブログ    
ブログ    

推薦する

人工知能は静かに到来し、世界のテクノロジー大手はAIをめぐる戦いを始めている

人工知能は長い間、小売業から農業に至るまで、さまざまな業界で主要な技術的焦点となってきており、大手企...

...

...

2020 年の優れた産業用人工知能アプリケーション

人工知能技術は今、世界を変えつつあります。多くの業界はすでに、ビジネス プロセスを改善するために A...

2018年のソフトウェア開発に関する10の予測、注目のブロックチェーンとAIを含む

[[221321]]ブロックチェーン、NLP、AI 駆動型ツール、機械学習、サーバーレス コンピュー...

車載グレードの安全チップとチップ安全性テスト技術を1つの記事で理解する

世界の自動車産業におけるインテリジェンスと車両のインターネットの発展により、新時代の人々はますます便...

アリババDAMOアカデミーが自社開発の音声認識モデルDFSMNをリリースしオープンソース化を発表

[[232119]]最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDFS...

GoogleはAIを活用して古い地図情報を更新

Google はブログ投稿で、同社の AI がさまざまな要素を分析して、こうした更新を行うべきかどう...

海外AI界が騒然! Googleの黒人女性AI倫理研究者が「退職」し騒動を引き起こす

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Javaコードの効率とアルゴリズム設計を最適化してパフォーマンスを向上

Java 開発では、非効率的なコードや不合理なアルゴリズムにより、プログラムのパフォーマンスが低下す...

人工知能が「より賢くなる」ためには、計算能力をアップグレードする必要がある

人工知能に関する最新の報告書「2020-2021年中国人工知能コンピューティング力発展評価報告書」が...

...

雁塔区:西部の「最強の頭脳」が人工知能コンピューティングセンターの未来を切り開く

9月9日午前、雁塔区未来工業城で未来人工知能コンピューティングセンターの開設式が行われた。同イベント...

...

人工知能教育の時代が到来。AIは何ができるのか?

[[265994]]最近、国際人工知能教育会議、第3回世界知能会議が相次いで開催され、さまざまなA...