OpenOOD アップデート v1.5: 包括的かつ正確な分布検出コードベースとテストプラットフォーム、オンラインランキングとワンクリックテストをサポート

分布外 (OOD) 検出は、オープンワールドインテリジェントシステムの信頼性の高い動作に不可欠ですが、現在のオブジェクト指向の検出方法では「評価の不一致」という問題があります。

以前の作業である OpenOOD v1 では、OOD 検出の評価が統一されましたが、スケーラビリティと使いやすさの点で依然として制限がありました。

最近、開発チームは再び OpenOOD v1.5 を提案しました。以前のバージョンと比較して、新しい OOD 検出方法の評価は、精度、標準化、使いやすさの確保において大幅に改善されました。

写真

論文: https://arxiv.org/abs/2306.09301

OpenOOD コードベース: https://github.com/Jingkang50/OpenOOD

OpenOOD リーダーボード: https://zjysteven.github.io/OpenOOD/

特に、OpenOOD v1.5 では、評価機能が ImageNet などの大規模データセットに拡張され、重要だが未開発のフルスペクトル OOD 検出が研究され、オンラインリーダーボードや使いやすい評価ツールなどの新機能が導入されています。

この研究は、包括的な実験結果からの詳細な分析と洞察にも貢献し、OOD 検出方法の知識ベースを充実させます。

これらの機能強化により、OpenOOD v1.5 は OOD 研究の進歩を促進し、OOD 検出研究のためのより強力で包括的な評価ベンチマークを提供することを目指しています。

背景

訓練された画像分類器がオープンワールドで確実に動作するための重要な機能は、未知の分布外 (OOD) サンプルを検出することです。

たとえば、猫と犬の分類器をトレーニングするために、猫と犬の写真のセットを使用しました。分布内 (ID) サンプル、つまりここでは猫と犬の写真については、当然、分類器がそれらを対応するカテゴリに正確に識別することが期待されます。

分布外の OOD サンプル、つまり猫や犬以外の写真 (飛行機、果物など) については、モデルがそれらが未知の新しいオブジェクト/概念であることを検出し、したがって分布内の猫や犬のどのカテゴリにも分類できないことを期待します。

この問題は分布外検出（OOD検出）と呼ばれ、近年大きな注目を集めており、新たな研究が次々と登場しています。しかし、この分野が急速に拡大するにつれ、さまざまな理由からその開発状況の追跡と測定が困難になってきました。

理由 1: テスト OOD データセットに一貫性がない。

さまざまなディープラーニングタスクの急速な発展は、統合されたテストデータセットと切り離すことはできません (画像分類の CIFAR と ImageNet、オブジェクト検出の PASCAL VOC と COCO など)。

残念ながら、OOD 検出の分野では、統一され広く使用されている OOD データセットがこれまで存在していませんでした。その結果、上図のような結果になりました。既存研究の実験設定を振り返ってみると、使用されているOODデータが非常にばらばらであることがわかります（例えば、CIFAR-10がIDデータの場合、MNISTとSVHNをOODとして使用している研究もあれば、CIFAR-100とTiny ImageNetをOODとして使用している研究もあります）。このような場合、すべての方法を直接かつ公平に比較することは非常に困難です。

理由 2: 用語がわかりにくい。

OOD 検出に加えて、「オープンセット認識」(OSR) や「新規性検出」などの用語も文献によく登場します。

これらは本質的に同じ問題に焦点を当てており、実験設定の詳細にわずかな違いがあるだけです。ただし、用語が異なると、メソッド間の不要な分岐が発生する可能性があります。たとえば、OOD 検出と OSR はかつて 2 つの独立したタスクと見なされており、異なるブランチのメソッド (同じ問題を解決しているにもかかわらず) が比較されることはほとんどありませんでした。

理由3: 操作ミス。

多くの研究では、研究者は OOD テストセット内のサンプルを直接使用して、パラメータを調整したり、モデルをトレーニングしたりすることがよくあります。このような操作により、メソッドの OOD 検出能力が過大評価されることになります。

上記の問題は、この分野の秩序ある発展に明らかに寄与しません。既存および将来のOOD検出方法をテストおよび評価するための統一されたベンチマークとプラットフォームが緊急に必要です。

OpenOOD は、このような課題に応えるために誕生しました。最初のバージョンは重要な前進でしたが、サイズが小さいことと使いやすさに問題があり、改善する必要がありました。

そのため、OpenOOD v1.5 の新バージョンでは、さらに強化およびアップグレードし、研究者が使用できる包括的で正確かつ使いやすいテストプラットフォームの作成を目指しています。

要約すると、OpenOOD には次の重要な機能と貢献があります。

1. 大規模なモジュール式コードベース。

コードライブラリは、モデル構造、データの前処理、後処理、トレーニング、テストなどを分離してモジュール化し、再利用と開発を容易にします。現在、OpenOOD は画像分類タスク向けに約 40 種類の最先端の OOD 検出方法を実装しています。

写真

2. ワンクリックでテストできる評価ツール。

上の図に示すように、OpenOOD の評価者は、わずか数行のコードで、指定された ID データセットに対して、提供された分類器とポストプロセッサの OOD 検出テスト結果を提供できます。

対応する OOD データは評価者によって内部的に決定され提供されるため、テストの一貫性と公平性が保証されます。この推定器は、標準 OOD 検出とフルスペクトル OOD 検出の両方をサポートしています (これについては後で詳しく説明します)。

3. オンラインリーダーボード。

OpenOOD を使用して、CIFAR-10、CIFAR-100、ImageNet-200、ImageNet-1K の 4 つの ID データセットで約 40 の OOD 検出方法のパフォーマンスを比較し、その結果を公開ランキングにしました。この分野で最も効果的かつ有望な方法を皆様に知っていただくお手伝いをしたいと思っています。

4. 実験結果からの新たな発見。

OpenOOD に関する包括的な実験結果に基づいて、私たちの論文では多くの新しい発見を示しています。たとえば、OOD 検出とはほとんど関係がないように見えますが、データ拡張は実際には OOD 検出のパフォーマンスを効果的に向上させることができ、この向上は特定の OOD 検出方法によってもたらされる向上とは直交し、補完的です。

さらに、フルスペクトルOOD検出における既存の方法のパフォーマンスは満足できるものではないことがわかりました。これも、将来この分野で解決すべき重要な問題となるでしょう。

問題の説明

このセクションでは、標準およびフルスペクトル OOD テストの目的について簡単に概説します。より詳細で正式な説明については、当社の論文をお読みください。

写真

まず背景を説明します。私たちが検討する画像分類シナリオでは、分布内 (ID) データは対応する分類タスクによって定義されます。たとえば、CIFAR-10 分類の場合、ID 分布は 10 個の意味カテゴリに対応します。

OOD の概念は ID を基準にして形成されます。ID セマンティックカテゴリ外のセマンティックカテゴリに対応し、ID カテゴリと異なる画像は、分布外 OOD 画像です。同時に、次の2種類の分配の変化についても議論する必要があります。

セマンティックシフト: 上図の横軸に対応する、深いセマンティックレベルでの分布の変化。たとえば、トレーニング中の意味カテゴリは猫と犬であり、テスト中の意味カテゴリは飛行機と果物です。

共変量シフト: 分布は表面統計レベルで変化します (意味は変化しません)。これは、上の図の縦軸に対応します。たとえば、トレーニング画像は猫や犬のきれいで自然な写真ですが、テスト画像はノイズの多い、または手描きの猫や犬の写真です。

上記の背景と上記の図を組み合わせると、標準およびフルスペクトル OOD 検出を簡単に理解できます。

標準OOD検出

目的（1）：ID分布に基づいて分類器をトレーニングし、IDデータを正確に分類できるようにする。ここでは、テスト ID データとトレーニング ID データの間に共変量シフトがないものと想定します。

目的（2）：訓練された分類器に基づいて、任意のサンプルに対してID/OODバイナリ分類を実行できるOOD検出方法を設計する。上の図では、これは (a) と (c) + (d) を区別することに相当します。

フルスペクトルOOD検出

目的 (1): 標準的な OOD 検出と似ていますが、共変量シフトが考慮される点が異なります。つまり、テスト ID 画像がトレーニング画像と比較して共変量シフトを持っているかどうかに関係なく、分類器はそれを対応する ID カテゴリに正確に分類する必要があります (たとえば、猫と犬の分類器は、「きれいな」猫と犬の画像を正確に分類するだけでなく、ノイズが多くぼやけた猫と犬の画像にも一般化できる必要があります)。

目的（2）：共変量シフトされたIDサンプルも考慮し、それらを通常の（共変量シフトのない）IDサンプルおよびOODサンプルと区別する。これは、上図の(a) + (b)と(c) + (d)の区別に対応します。

フルスペクトル OOD テストが重要なのはなぜですか?

詳しい人なら、フルスペクトルOOD検出の目標（1）が、実はもう一つの非常に重要な研究テーマである分布外一般化に対応していることに気付いたかもしれない。

OOD 一般化における OOD は共変量シフトのあるサンプルを指し、OOD 検出における OOD は意味シフトのあるサンプルを指すことを明確にする必要があります。

これらの両方の変化は現実世界では非常に一般的ですが、既存の OOD 一般化と標準的な OOD 検出では、そのうちの 1 つだけが考慮され、もう 1 つは無視されます。

対照的に、フルスペクトル OOD 検出では、同じシナリオで両方のシフトが自然に考慮され、理想的な分類器がオープンワールドでどのように機能するかについての期待をより正確に反映します。

実験結果と新たな発見

バージョン 1.5 では、OpenOOD は 6 つのベンチマークデータセット (標準 OOD 検出用に 4 つ、フルスペクトル OOD 検出用に 2 つ) に対して約 40 の方法の統一された包括的なテストを実施しました。

この論文では実装された方法とデータセットについて説明しているので、ぜひご覧ください。すべての実験は OpenOOD コードベースでも再現できます。ここでは、比較結果から得られた知見を直接議論します。

写真

発見 1: 勝者は一人もいない。

上記の表から、単一の方法ではすべてのベンチマークデータセットに対して一貫して優れたパフォーマンスを発揮できないことが容易にわかります。

たとえば、事後推論手法である ReAct と ASH は、大規模なデータセット ImageNet では優れたパフォーマンスを発揮しますが、CIFAR では他の手法に比べて優位性はありません。

対照的に、RotPred や LogitNorm など、トレーニング中に制約を追加する一部の方法は、小規模なデータセットでは後処理方法よりも優れたパフォーマンスを発揮しますが、ImageNet ではパフォーマンスが低下します。

発見 2: データ拡張が役立ちます。

上記の表に示すように、データ拡張は OOD 検出用に特別に設計されたものではありませんが、OOD 検出のパフォーマンスを効果的に向上させることができます。さらに驚くべきことは、データ拡張によってもたらされる改善と、特定の OOD 後処理方法によってもたらされる改善が、互いに増幅し合うことです。

AugMix を例にとると、最も単純な MSP ポストプロセッサと組み合わせると、ImageNet-1K で 77.49% の OOD に近い検出率を達成します。これは、データ強化なしのクロスエントロピー損失でトレーニングされた検出率 77.38% よりもわずか 1.47% 高いだけです。

ただし、AugMix をより高度な ASH ポストプロセッサと組み合わせると、対応する検出率はクロスエントロピーベースラインよりも 3.99% 高くなり、テストで最高の 82.16% に達します。このような結果は、データ強化とポストプロセッサの組み合わせが将来的にOOD検出機能をさらに向上させる大きな可能性を秘めていることを示しています。

発見 3: フルスペクトル OOD 検出は、現在の検出器にとって課題となります。

上の図から、シーンが標準の OOD 検出からフルスペクトル OOD 検出に切り替わると (つまり、共変量シフト ID 画像がテスト ID データに追加されると)、ほとんどの方法でパフォーマンスが大幅に低下する (検出率が 10% 以上低下する) ことがはっきりとわかります。

つまり、現在の方法では、実際の意味は変わっていないにもかかわらず、共変量シフトされた ID 画像を OOD としてマークする傾向があります。

この動作は、人間の知覚に反しています (これはフルスペクトル OOD 検出の目標でもあります)。人間のラベル付け担当者が猫と犬の写真をラベル付けしているとします。ノイズが多くぼやけた猫と犬の写真を見せられた場合でも、それが猫/犬であることは認識できるはずです。これは、未知の分布外 OOD データではなく、分布内 ID データです。

一般的に、現在の方法では OOD 検出の全範囲を効果的に解決することはできず、これは将来この分野における重要な問題になると考えています。

さらに、データ拡張はフルスペクトル OOD 検出に依然として有効であるなど、ここに記載されていない多くの発見があります。改めて、皆様に私たちの論文を読んでいただければ幸いです。