オープンワールドでテストセグメントトレーニングを実行するにはどうすればいいですか?動的プロトタイプ拡張に基づく自己トレーニング法

モデルの一般化能力を向上させることは、視覚ベースの認識方法の実装を促進するための重要な基盤です。テスト時のトレーニング/適応は、テストセグメントのモデルパラメータの重みを調整することにより、モデルを未知のターゲットドメインデータ分布セグメントに一般化します。既存の TTT/TTA 手法は通常、閉ループの世界におけるターゲットドメインデータの下でのテストセグメントのトレーニングパフォーマンスの向上に重点を置いています。

ただし、多くのアプリケーションシナリオでは、ターゲットドメインは、無関係なセマンティックカテゴリデータなどの強力なドメイン外データ (Strong OOD) データによって簡単に汚染されます。このシナリオは、オープンワールドテストセグメントトレーニング (OWTTT) とも呼ばれます。このシナリオでは、既存の TTT/TTA は通常、強いドメイン外データを既知のカテゴリに強制的に分類するため、最終的にはノイズの多い画像などの弱いドメイン外データ (弱い OOD) を区別する能力が妨げられます。

最近、華南理工大学とA*STARのチームが初めてオープンワールドテストセグメントトレーニングの設定を提案し、オープンワールドテストセグメントトレーニングの方法を紹介しました。

論文: https://arxiv.org/abs/2308.09942
コード: https://github.com/Yushu-Li/OWTTT

この論文ではまず、適応しきい値を備えた強力なドメイン外データサンプルフィルタリング法を提案し、オープンワールドでの自己トレーニング TTT 法の堅牢性を向上させます。この方法ではさらに、強い領域外サンプルを特徴付けるために動的に拡張されたプロトタイプに基づく方法を提案し、弱い/強い領域外データ分離効果を改善します。最後に、自己トレーニングは分布の調整によって制約されます。

私たちの方法は、5 つの異なる OWTTT ベンチマークで最適なパフォーマンスを達成し、より堅牢な TTT 方法に向けた TTT に関するその後の研究に新たな方向性を提供します。この研究はICCV 2023に口頭発表として採択されました。

導入

テストトリップトレーニング (TTT) は、推論フェーズでのみターゲットドメインデータにアクセスし、分布シフトされたテストデータに対してオンザフライ推論を実行できます。 TTT の成功は、手動で選択された合成的に破損したターゲットドメインデータで実証されています。しかし、既存の TTT アプローチの機能は十分に調査されていません。

オープンシナリオでの TTT の適用を促進するために、研究の焦点は、TTT メソッドが失敗する可能性があるシナリオの調査に移行しました。より現実的なオープンワールド環境で安定した堅牢な TTT 方式を開発するために、多くの努力がなされてきました。この研究では、ターゲットドメインに、ソースドメインとは異なるセマンティックカテゴリや単なるランダムノイズなど、大幅に異なる環境から抽出されたテストデータ分布が含まれる可能性がある、一般的でありながら無視されているオープンワールドシナリオについて詳しく調べます。

上記のテストデータを、強く分布外データ (強い OOD) と呼びます。本研究で弱いOODデータと呼んでいるのは、一般的な合成破損などの分布偏差を持つテストデータです。したがって、この現実的な設定に関する既存の研究が不足していることから、テストデータが強力な OOD サンプルによって汚染されているオープンワールドテストセグメントトレーニング (OWTTT) の堅牢性を向上させる方法を模索することになります。

図1: OWTTT設定における既存のTTT手法の評価結果

図 1 に示すように、まず OWTTT 設定下で既存の TTT 手法を評価し、自己トレーニングと分布アライメントによる TTT 手法の両方が強力な OOD サンプルの影響を受けることがわかりました。これらの結果は、既存の TTT 技術を適用することは、オープンワールドで安全なテスト時間トレーニングを実現するには実現不可能であることを示唆しています。彼らの失敗の理由は次の 2 つであると考えられます。

自己トレーニングベースの TTT では、テストサンプルを既知のカテゴリに割り当てる必要があるため、強力な OOD サンプルを処理するのが困難です。半教師あり学習で採用されているしきい値を適用することで、信頼性の低いサンプルの一部を除外することはできますが、それでもすべての強力な OOD サンプルが除外されることは保証されません。
強力な OOD サンプルを計算してターゲットドメインの分布を推定する場合、分布アライメントベースの方法が影響を受けます。グローバル分布アライメント[1]とカテゴリ分布アライメント[2]の両方が影響を受け、不正確な特徴分布アライメントにつながる可能性があります。

既存の TTT 方法が失敗する潜在的な理由を考慮して、自己トレーニングフレームワークにおけるオープンワールド TTT の堅牢性を向上させるために組み合わせた 2 つの手法を提案します。

まず、自己学習したバリアント、つまりソースドメインのプロトタイプをクラスターセンターとしてターゲットドメインでクラスタリングした TTT のベースラインを構築します。誤った疑似ラベルの強いOODが自己トレーニングに与える影響を軽減するために、強いOODサンプルを拒否するハイパーパラメータフリーの方法を設計します。

弱い OOD サンプルと強い OOD サンプルの特性をさらに分離するために、分離された強い OOD サンプルを選択してプロトタイププールを拡張できるようにします。したがって、自己トレーニングにより、強力な OOD サンプルは、新しく拡張された強力な OOD プロトタイプの周囲に密接なクラスターを形成できるようになります。これにより、ソースドメインとターゲットドメイン間の配布の調整が容易になります。さらに、確証バイアスのリスクを軽減するために、グローバル分布調整を介して自己トレーニングを正規化することを提案します。

最後に、オープンワールド TTT シナリオを合成するために、CIFAR10-C、CIFAR100-C、ImageNet-C、VisDA-C、ImageNet-R、Tiny-ImageNet、MNIST、および SVHN データセットを採用し、1 つのデータセットを弱い OOD として、その他を強い OOD として使用してベンチマークデータセットを確立します。私たちはこのベンチマークをオープンワールドテストセグメントトレーニングベンチマークと呼んでおり、これが将来の作業を促進し、より現実的なシナリオでのテストセグメントトレーニングの堅牢性に焦点を当てることを期待しています。

方法

この論文は、提案された方法を紹介するために 4 つの部分に分かれています。

1) オープンワールドテストフェーズのトレーニングタスク設定の概要。

2)プロトタイプクラスタリングを介して TTT を実装する方法と、オープンワールドのテスト時間トレーニング用にプロトタイプを拡張する方法を紹介します。

3)動的プロトタイプ拡張のためのターゲットドメインデータの使用方法を紹介します。

4) プロトタイプクラスタリングと組み合わせた分布調整を導入し、強力なオープンワールドテスト時トレーニングを実現します。

図2: 方法の概要

タスク設定

TTT の目的は、ソースドメインの事前トレーニング済みモデルをターゲットドメインに適合させることです。ターゲットドメインは、ソースドメインに対して分布がシフトしている可能性があります。標準的なクローズドワールド TTT では、ソースドメインとターゲットドメインのラベル空間は同じです。ただし、オープンワールド TTT では、ターゲットドメインのラベル空間にソースドメインのターゲット空間が含まれるため、ターゲットドメインにはこれまでにない新しい意味カテゴリが存在することになります。

TTT定義間の混乱を避けるため、評価にはTTAC [2]で提案されたsTTT（sequential test-time training）プロトコルを採用する。 sTTT プロトコルでは、テストサンプルは順番にテストされ、少量のテストサンプルが観察された後にモデルの更新が実行されます。タイムスタンプ t に到着するテストサンプルの予測は、t+k (k は 0 より大きい) に到着するテストサンプルの影響を受けません。

プロトタイプクラスタリング

ドメイン適応タスクにおけるクラスタリングを用いた研究[3, 4]に触発され、テストセグメントのトレーニングをターゲットドメインデータ内のクラスター構造の発見とみなします。代表的なプロトタイプをクラスターの中心として識別することにより、ターゲットドメイン内のクラスター構造が識別され、テストサンプルがプロトタイプの 1 つの近くに埋め込まれることが推奨されます。プロトタイプクラスタリングの目的は、次の式に示すように、サンプルとクラスター中心間のコサイン類似度の負の対数尤度損失を最小化することとして定義されます。

モデルの重みを調整することによる悪影響を回避するために、強力な OOD サンプルを除外するハイパーパラメータフリーの方法を開発しました。具体的には、次の式に示すように、各テストサンプルの強力な OOD スコア os を、ソースドメインプロトタイプとの最も高い類似性として定義します。

図3: 外れ値は二峰性分布を示す

図 3 に示すように、外れ値は二峰性分布に従っていることがわかります。したがって、固定のしきい値を指定する代わりに、2 つの分布を最もよく分離する値として最適なしきい値を定義します。具体的には、問題は外れ値を 2 つのクラスターに分類するものとして定式化でき、最適なしきい値はクラスター内の分散を最小化します。 0 から 1 までのすべての可能なしきい値を 0.01 のステップサイズで徹底的に検索することにより、最適化を効率的に実現できます。

動的なプロトタイプの拡張

強力な OOD プロトタイプのプールを拡張するには、ソースドメインと強力な OOD プロトタイプの両方を考慮してテストサンプルを評価する必要があります。データからクラスターの数を動的に推定するために、同様の問題が以前にも研究されてきました。決定論的ハードクラスタリングアルゴリズムDP-means [5]は、データポイントから既知のクラスタ中心までの距離を測定し、距離が閾値を超えた場合に新しいクラスタを初期化することによって開発されています。 DP-means は、K-means 目的を最適化することと同等であることが示されていますが、クラスターの数に対する追加のペナルティがあり、動的なプロトタイプ拡張のための実行可能なソリューションを提供します。

追加のハイパーパラメータを推定する際の難しさを軽減するために、まず、既存のソースドメインプロトタイプと強力な OOD プロトタイプに最も近い距離として、拡張された強力な OOD スコアを持つテストサンプルを次のように定義します。したがって、このしきい値を超えるサンプルをテストすると、新しいプロトタイプが確立されます。近くのテストサンプルを追加しないようにするために、このプロトタイプ拡張プロセスを段階的に繰り返します。

他の強力な OOD プロトタイプが識別されると、テストサンプルのプロトタイプクラスタリング損失を定義し、2 つの要素を考慮します。まず、既知のクラスとして分類されたテストサンプルは、プロトタイプの近くに埋め込み、他のプロトタイプからは遠ざける必要があります。これが K クラス分類タスクを定義します。第二に、強力な OOD プロトタイプとして分類されるテストサンプルは、K+1 クラス分類タスクを定義するソースドメインプロトタイプから遠く離れている必要があります。これらの目的を念頭に置いて、プロトタイプのクラスタリング損失を次のように定義します。

配置制約を分散する

自己トレーニングは誤った疑似ラベルの影響を受けやすいことはよく知られています。ターゲットドメインが OOD サンプルで構成されている場合、状況はさらに悪化します。失敗のリスクを減らすために、次のように分布アライメント[1]を自己学習の正規化子としてさらに使用します。

実験

人工的に合成された破損したデータセットやスタイルを変更するデータセットなど、5 つの異なる OWTTT ベンチマークデータセットでテストします。実験では主に、弱いOOD分類精度ACCS、強いOOD分類精度ACCN、および2つのACCHの調和平均という3つの評価指標を使用しました。

表1 Cifar10-Cデータセットにおけるさまざまな手法のパフォーマンス

表2 Cifar100-Cデータセットにおけるさまざまな手法のパフォーマンス

表3 ImageNet-Cデータセットにおけるさまざまな手法のパフォーマンス

表4 ImageNet-Rデータセットにおけるさまざまな手法のパフォーマンス

表5 VisDA-Cデータセットにおけるさまざまな手法のパフォーマンス

上の表に示されているように、私たちの方法は、ほぼすべてのデータセットにおいて現在の最良の方法よりも大幅に改善されています。強力な OOD サンプルを効果的に識別し、弱い OOD サンプルの分類への影響を軽減できます。私たちの方法は、オープンワールドのシナリオでより堅牢な TTT を実現できます。

要約する

本論文では、まずオープンワールドテストセグメントトレーニング（OWTTT）の問題と設定を提案し、既存の方法ではソースドメインサンプルとは意味的なオフセットがある強いOODサンプルを含むターゲットドメインデータの処理が困難であることを指摘し、上記の問題を解決するための動的プロトタイプ拡張に基づく自己トレーニング方法を提案します。この研究が、より堅牢な TTT 手法を探求するための、TTT に関するその後の研究に新たな方向性をもたらすことを期待しています。

<<: 企業におけるビッグデータ活用のための実践的AI技術

>>: ChatGPT に複数のバージョンのコンテンツを入力して一度に選択できるようにする方法