OpenOOD アップデート v1.5: 包括的かつ正確な分布検出コード ベースとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート

OpenOOD アップデート v1.5: 包括的かつ正確な分布検出コード ベースとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート

分布外 (OOD) 検出は、オープン ワールド インテリジェント システムの信頼性の高い動作に不可欠ですが、現在のオブジェクト指向の検出方法では「評価の不一致」という問題があります。

以前の作業である OpenOOD v1 では、OOD 検出の評価が統一されましたが、スケーラビリティと使いやすさの点で依然として制限がありました。

最近、開発チームは再び OpenOOD v1.5 を提案しました。以前のバージョンと比較して、新しい OOD 検出方法の評価は、精度、標準化、使いやすさの確保において大幅に改善されました。

写真

論文: https://arxiv.org/abs/2306.09301

OpenOOD コードベース: https://github.com/Jingkang50/OpenOOD

OpenOOD リーダーボード: https://zjysteven.github.io/OpenOOD/

特に、OpenOOD v1.5 では、評価機能が ImageNet などの大規模データセットに拡張され、重要だが未開発のフルスペクトル OOD 検出が研究され、オンライン リーダーボードや使いやすい評価ツールなどの新機能が導入されています。

この研究は、包括的な実験結果からの詳細な分析と洞察にも貢献し、OOD 検出方法の知識ベースを充実させます。

これらの機能強化により、OpenOOD v1.5 は OOD 研究の進歩を促進し、OOD 検出研究のためのより強力で包括的な評価ベンチマークを提供することを目指しています。

背景

訓練された画像分類器がオープンワールドで確実に動作するための重要な機能は、未知の分布外 (OOD) サンプルを検出することです。

たとえば、猫と犬の分類器をトレーニングするために、猫と犬の写真のセットを使用しました。分布内 (ID) サンプル、つまりここでは猫と犬の写真については、当然、分類器がそれらを対応するカテゴリに正確に識別することが期待されます。

分布外の OOD サンプル、つまり猫や犬以外の写真 (飛行機、果物など) については、モデルがそれらが未知の新しいオブジェクト/概念であることを検出し、したがって分布内の猫や犬のどのカテゴリにも分類できないことを期待します。

この問題は分布外検出(OOD検出)と呼ばれ、近年大きな注目を集めており、新たな研究が次々と登場しています。しかし、この分野が急速に拡大するにつれ、さまざまな理由からその開発状況の追跡と測定が困難になってきました。

理由 1: テスト OOD データセットに一貫性がない。

さまざまなディープラーニング タスクの急速な発展は、統合されたテスト データ セットと切り離すことはできません (画像分類の CIFAR と ImageNet、オブジェクト検出の PASCAL VOC と COCO など)。

残念ながら、OOD 検出の分野では、統一され広く使用されている OOD データセットがこれまで存在していませんでした。その結果、上図のような結果になりました。既存研究の実験設定を振り返ってみると、使用されているOODデータが非常にばらばらであることがわかります(例えば、CIFAR-10がIDデータの場合、MNISTとSVHNをOODとして使用している研究もあれば、CIFAR-100とTiny ImageNetをOODとして使用している研究もあります)。このような場合、すべての方法を直接かつ公平に比較​​することは非常に困難です。

理由 2: 用語がわかりにくい。

OOD 検出に加えて、「オープンセット認識」(OSR) や「新規性検出」などの用語も文献によく登場します。

これらは本質的に同じ問題に焦点を当てており、実験設定の詳細にわずかな違いがあるだけです。ただし、用語が異なると、メソッド間の不要な分岐が発生する可能性があります。たとえば、OOD 検出と OSR はかつて 2 つの独立したタスクと見なされており、異なるブランチのメソッド (同じ問題を解決しているにもかかわらず) が比較されることはほとんどありませんでした。

理由3: 操作ミス。

多くの研究では、研究者は OOD テスト セット内のサンプルを直接使用して、パラメータを調整したり、モデルをトレーニングしたりすることがよくあります。このような操作により、メソッドの OOD 検出能力が過大評価されることになります。

上記の問題は、この分野の秩序ある発展に明らかに寄与しません。既存および将来のOOD検出方法をテストおよび評価するための統一されたベンチマークとプラットフォームが緊急に必要です。

OpenOOD は、このような課題に応えるために誕生しました。最初のバージョンは重要な前進でしたが、サイズが小さいことと使いやすさに問題があり、改善する必要がありました。

そのため、OpenOOD v1.5 の新バージョンでは、さらに強化およびアップグレードし、研究者が使用できる包括的で正確かつ使いやすいテスト プラットフォームの作成を目指しています。

要約すると、OpenOOD には次の重要な機能と貢献があります。

1. 大規模なモジュール式コードベース。

コード ライブラリは、モデル構造、データの前処理、後処理、トレーニング、テストなどを分離してモジュール化し、再利用と開発を容易にします。現在、OpenOOD は画像分類タスク向けに約 40 種類の最先端の OOD 検出方法を実装しています。

写真

2. ワンクリックでテストできる評価ツール。

上の図に示すように、OpenOOD の評価者は、わずか数行のコードで、指定された ID データセットに対して、提供された分類器とポストプロセッサの OOD 検出テスト結果を提供できます。

対応する OOD データは評価者によって内部的に決定され提供されるため、テストの一貫性と公平性が保証されます。この推定器は、標準 OOD 検出とフルスペクトル OOD 検出の両方をサポートしています (これについては後で詳しく説明します)。

3. オンラインリーダーボード。

OpenOOD を使用して、CIFAR-10、CIFAR-100、ImageNet-200、ImageNet-1K の 4 つの ID データセットで約 40 の OOD 検出方法のパフォーマンスを比較し、その結果を公開ランキングにしました。この分野で最も効果的かつ有望な方法を皆様に知っていただくお手伝いをしたいと思っています。

4. 実験結果からの新たな発見。

OpenOOD に関する包括的な実験結果に基づいて、私たちの論文では多くの新しい発見を示しています。たとえば、OOD 検出とはほとんど関係がないように見えますが、データ拡張は実際には OOD 検出のパフォーマンスを効果的に向上させることができ、この向上は特定の OOD 検出方法によってもたらされる向上とは直交し、補完的です。

さらに、フルスペクトルOOD検出における既存の方法のパフォーマンスは満足できるものではないことがわかりました。これも、将来この分野で解決すべき重要な問題となるでしょう。

問題の説明

このセクションでは、標準およびフルスペクトル OOD テストの目的について簡単に概説します。より詳細で正式な説明については、当社の論文をお読みください。

写真

まず背景を説明します。私たちが検討する画像分類シナリオでは、分布内 (ID) データは対応する分類タスクによって定義されます。たとえば、CIFAR-10 分類の場合、ID 分布は 10 個の意味カテゴリに対応します。

OOD の概念は ID を基準にして形成されます。ID セマンティック カテゴリ外のセマンティック カテゴリに対応し、ID カテゴリと異なる画像は、分布外 OOD 画像です。同時に、次の2種類の分配の変化についても議論する必要があります。

セマンティックシフト: 上図の横軸に対応する、深いセマンティックレベルでの分布の変化。たとえば、トレーニング中の意味カテゴリは猫と犬であり、テスト中の意味カテゴリは飛行機と果物です。

共変量シフト: 分布は表面統計レベルで変化します (意味は変化しません)。これは、上の図の縦軸に対応します。たとえば、トレーニング画像は猫や犬のきれいで自然な写真ですが、テスト画像はノイズの多い、または手描きの猫や犬の写真です。

上記の背景と上記の図を組み合わせると、標準およびフルスペクトル OOD 検出を簡単に理解できます。

標準OOD検出

目的(1):ID分布に基づいて分類器をトレーニングし、IDデータを正確に分類できるようにする。ここでは、テスト ID データとトレーニング ID データの間に共変量シフトがないものと想定します。

目的(2):訓練された分類器に基づいて、任意のサンプルに対してID/OODバイナリ分類を実行できるOOD検出方法を設計する。上の図では、これは (a) と (c) + (d) を区別することに相当します。

フルスペクトルOOD検出

目的 (1): 標準的な OOD 検出と似ていますが、共変量シフトが考慮される点が異なります。つまり、テスト ID 画像がトレーニング画像と比較して共変量シフトを持っているかどうかに関係なく、分類器はそれを対応する ID カテゴリに正確に分類する必要があります (たとえば、猫と犬の分類器は、「きれいな」猫と犬の画像を正確に分類するだけでなく、ノイズが多くぼやけた猫と犬の画像にも一般化できる必要があります)。

目的(2):共変量シフトされたIDサンプルも考慮し、それらを通常の(共変量シフトのない)IDサンプルおよびOODサンプルと区別する。これは、上図の(a) + (b)と(c) + (d)の区別に対応します。

フルスペクトル OOD テストが重要なのはなぜですか?

詳しい人なら、フルスペクトルOOD検出の目標(1)が、実はもう一つの非常に重要な研究テーマである分布外一般化に対応していることに気付いたかもしれない。

OOD 一般化における OOD は共変量シフトのあるサンプルを指し、OOD 検出における OOD は意味シフトのあるサンプルを指すことを明確にする必要があります。

これらの両方の変化は現実世界では非常に一般的ですが、既存の OOD 一般化と標準的な OOD 検出では、そのうちの 1 つだけが考慮され、もう 1 つは無視されます。

対照的に、フルスペクトル OOD 検出では、同じシナリオで両方のシフトが自然に考慮され、理想的な分類器がオープンワールドでどのように機能するかについての期待をより正確に反映します。

実験結果と新たな発見

バージョン 1.5 では、OpenOOD は 6 つのベンチマーク データセット (標準 OOD 検出用に 4 つ、フルスペクトル OOD 検出用に 2 つ) に対して約 40 の方法の統一された包括的なテストを実施しました。

この論文では実装された方法とデータセットについて説明しているので、ぜひご覧ください。すべての実験は OpenOOD コード ベースでも再現できます。ここでは、比較結果から得られた知見を直接議論します。

写真

発見 1: 勝者は一人もいない。

上記の表から、単一の方法ではすべてのベンチマーク データセットに対して一貫して優れたパフォーマンスを発揮できないことが容易にわかります。

たとえば、事後推論手法である ReAct と ASH は、大規模なデータセット ImageNet では優れたパフォーマンスを発揮しますが、CIFAR では他の手法に比べて優位性はありません。

対照的に、RotPred や LogitNorm など、トレーニング中に制約を追加する一部の方法は、小規模なデータセットでは後処理方法よりも優れたパフォーマンスを発揮しますが、ImageNet ではパフォーマンスが低下します。

発見 2: データ拡張が役立ちます。

上記の表に示すように、データ拡張は OOD 検出用に特別に設計されたものではありませんが、OOD 検出のパフォーマンスを効果的に向上させることができます。さらに驚くべきことは、データ拡張によってもたらされる改善と、特定の OOD 後処理方法によってもたらされる改善が、互いに増幅し合うことです。

AugMix を例にとると、最も単純な MSP ポストプロセッサと組み合わせると、ImageNet-1K で 77.49% の OOD に近い検出率を達成します。これは、データ強化なしのクロスエントロピー損失でトレーニングされた検出率 77.38% よりもわずか 1.47% 高いだけです。

ただし、AugMix をより高度な ASH ポストプロセッサと組み合わせると、対応する検出率はクロスエントロピー ベースラインよりも 3.99% 高くなり、テストで最高の 82.16% に達します。このような結果は、データ強化とポストプロセッサの組み合わせが将来的にOOD検出機能をさらに向上させる大きな可能性を秘めていることを示しています。

発見 3: フルスペクトル OOD 検出は、現在の検出器にとって課題となります。

上の図から、シーンが標準の OOD 検出からフルスペクトル OOD 検出に切り替わると (つまり、共変量シフト ID 画像がテスト ID データに追加されると)、ほとんどの方法でパフォーマンスが大幅に低下する (検出率が 10% 以上低下する) ことがはっきりとわかります。

つまり、現在の方法では、実際の意味は変わっていないにもかかわらず、共変量シフトされた ID 画像を OOD としてマークする傾向があります。

この動作は、人間の知覚に反しています (これはフルスペクトル OOD 検出の目標でもあります)。人間のラベル付け担当者が猫と犬の写真をラベル付けしているとします。ノイズが多くぼやけた猫と犬の写真を見せられた場合でも、それが猫/犬であることは認識できるはずです。これは、未知の分布外 OOD データではなく、分布内 ID データです。

一般的に、現在の方法では OOD 検出の全範囲を効果的に解決することはできず、これは将来この分野における重要な問題になると考えています。

さらに、データ拡張はフルスペクトル OOD 検出に依然として有効であるなど、ここに記載されていない多くの発見があります。改めて、皆様に私たちの論文を読んでいただければ幸いです。

見通し

OpenOOD のコード ベース、テスター、ランキング、ベンチマーク データセット、詳細なテスト結果によって、あらゆる分野の研究者が結集し、この分野が発展することを願っています。 OOD 検出の開発とテストに OpenOOD をご利用いただけることを期待しています。

また、フィードバックの提供、OpenOOD コード ベースとリーダーボードへの最新のメソッドの追加、OpenOOD の将来のバージョンの拡張など、OpenOOD へのあらゆる形式の貢献も歓迎します。

参照: https://arxiv.org/abs/2306.09301

<<:  世界初のAI生成薬がヒト臨床試験に進出

>>:  TRSのTuotianビッグモデルが正式にリリースされ、メディア、金融、政府関係の3つの業界向けのビッグモデルが発表されました。

ブログ    

推薦する

機械学習アルゴリズムと機械学習モデルの開発方法について知っておくべきことは何ですか?

[[201235]]概念とそれがビジネス目標に与える影響を学ぶことは非常に重要です。アルゴリズムの...

7つの便利なプロンプトパラメータ

ChatGPT と Midjournal により、生成 AI のアプリケーションが急増しました。生成...

Google Gemini から OpenAI Q* まで: 生成 AI 研究の包括的なレビュー

最近、オーストラレーシア工科大学、マッセー大学、ロイヤルメルボルン工科大学などの研究機関の研究者が、...

テンセントのロボット犬が本物の犬の仕事を奪う!彼は楽しくゲームをしたり、歩き回ったりすることができます。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

大きな模型 = 容器に入った脳?同源病院の朱松春氏のチームがAGIの主な欠陥を分析

最近、ChatGPT/GPT-4シリーズの製品は世界的な注目と議論を集めており、それらに代表される大...

上海で一人っ子を亡くした母親が、AIを使って14歳の娘を「蘇らせた」...

大切な人が亡くなったら、その人の記憶をAIに引き渡しますか?「The Debaters」のこの討論テ...

生成型AIの誇大宣伝の中、CIOは慎重に進めることを選択しているが、まだ完全にコミットしていない

ほとんどの CIO は、最新の情報を把握するために生成 AI の調査を開始していますが、市場に出回っ...

資本の饗宴は続く:2021年上半期の生体認証分野における資金調達のレビュー

近年、5Gが話題になっていますが、AIはまだ時代遅れになっていません。特に、インターネットが普及し、...

...

Baidu Brain CVサービスでは、100~1000元のクーポンを提供しています。

覚えていますか? 「小都」はかつて「The Brain」の舞台でエネルギー溢れる出場者たちと競い合い...

ディープラーニングでは音声認識の問題を解決できない

[[212222]]音声認識にディープラーニングが導入されて以来、単語の誤り率は急速に低下しました。...

2021年5月のAI資金調達活動の概要

科学技術の継続的な進歩により、インテリジェント製品は徐々に日常生活に統合され、人工知能は現代の発展の...

音声認識とアプリケーションシナリオの組み合わせが未来への新たな章を開く

過去 20 年間で、音声認識技術は大きな進歩を遂げ、研究室から市場へと移行し始めました。今後10年間...

クラウド上の優れた機械学習サービス

クラウドの優れた機械学習サービスを使用すると、ユーザーはデータをより適切に分析し、新たな洞察を得るこ...

興味深い記事:女の子を追いかけるためのさまざまなアルゴリズムを教える

動的プログラミング基本的に、それは次のことを意味します。女の子を追いかけるときは、彼女の親しい友達全...