大連理工大学は、小規模サンプル認識にDeepBDCを提案し、6つのベンチマークで最高のパフォーマンスを達成した。

大連理工大学は、小規模サンプル認識にDeepBDCを提案し、6つのベンチマークで最高のパフォーマンスを達成した。

本論文では、確率と統計に基づく類似度測定法であるブラウン距離共分散をディープラーニングに初めて導入し、エンドツーエンドの小サンプル認識手法 DeepBDC を提案します。提案された方法は、一般的な物体認識、細粒度分類、およびクロスドメイン分類タスクを含む 6 つの標準データベースで最高のパフォーマンスを実現します。この論文はCVPR 2022の口頭発表として採択されました。

  • 論文リンク: https://arxiv.org/pdf/2204.04567.pdf
  • コードリンク: http://www.peihuali.org/DeepBDC

第1章 はじめに

人間が新しいことを学ぶとき、関連する知識を素早く習得するには、通常、少量の学習データのみが必要です。たとえば、これまで見たことのない動物を、数枚の写真だけで認識することができます。現代の人工知能システムが依存するディープラーニング アルゴリズムでは、トレーニングに大量のデータが必要になることが多く、トレーニング コストが非常に高くなります。同時に、大量の手動でラベル付けされたデータを取得するのも非常に時間がかかり、労力がかかります。したがって、理想的な人工知能システムは、人間と同じ迅速な学習能力を備えている必要があります。つまり、各タイプのトレーニングデータにラベル付けされたサンプルが非常に少ない場合、ディープラーニングモデルは優れた認識能力を備えている必要があります。これが小サンプル分類タスクです。

このタスクは、少数のサンプルから豊富な知識を学習することが難しく、過剰適合になりやすいため、非常に困難です。現在、実現可能な解決策は、メタ学習(または「学習するための学習」)に基づいてタスク全体にわたってより深い知識を学習し、それを新しいタスクに転送することです。この場合、トレーニングはエピソード トレーニングと呼ばれる一連のサブタスクで構成されます。最新の研究では、メトリックベースの方法が大きな注目を集めています。これらの方法の核心は、ディープニューラルネットワークを通じてクエリとサポート画像の表現を抽出し、表現間の距離を測定してカテゴリ判断を行うことです。

統計的に言えば、クエリ画像(またはサポート画像)の特徴は、高次元空間内のランダムベクトル X(または Y)として見ることができます。したがって、画像間の類似性は確率分布によって測定できます。ただし、高次元の特徴の分布をモデル化することは困難であり、一般的なアプローチは統計モーメントをモデル化することです。 ProtoNet とそのバリアントは、画像を一次モーメント (平均ベクトル) で表現し、メトリック学習にユークリッド距離またはコサイン類似度を使用します。より豊富な統計を得るために、いくつかの以前の研究では、2 次モーメント (共分散行列) または 1 次モーメントと 2 次モーメントの組み合わせ (ガウス分布) を研究し、類似度の尺度としてフロベニウス ノルムまたはカルバック ライバラー (KL) ダイバージェンスを採用しました。しかし、これらの方法は周辺分布のみを利用し、結合分布を無視しており、分布間の統計的特性を十分に調査していません。さらに、共分散は 2 つの分布間の線形相関しか測定できませんが、ディープ ニューラル ネットワークの高次元の特徴は非線形であることが多いため、正確な測定が困難になります。

表1: DeepBDCと類似手法の比較

一般に、X と Y の相関は、それらの結合分布に基づいて測定する必要があります。最適輸送理論における地球移動平均距離 (EMD 距離) は、この相関関係を測定する効果的な方法です。これまでの研究で述べられているように、EMDは最適な結合分布を求める。

、その限界分布は与えられた

そして

予想される輸送コストが最小限に抑えられます。

小規模サンプル分類では、DeepEMD は画像間の結合分布をより有効に活用して類似性を測定するために、画像領域を最適に一致させる微分可能な EMD を提案しました。 DeepEMD は非常に競争力のあるパフォーマンスを実現しますが、線形計画方程式を解く必要があるため計算コストが非常に高く、実際のトレーニングとテストには時間がかかります。さらに、相互情報量(MI)も典型的な測定方法であり、結合分布と限界積の間の KL ダイバージェンスを通じて 2 つのランダム変数間の相関を定量化できます。残念ながら、高次元空間では MI の計算は困難であり、複雑な確率密度モデリングや KL ダイバージェンスの下限推定が必要になることがよくあります。

この論文では、小規模サンプルの分類タスク向けに、深層ブラウン距離共分散 (DeepBDC) に基づく手法を提案しました。ブラウン距離共分散 (BDC) は、Gábor らによって最初に提案され、結合特徴関数と限界積の間のユークリッド距離として定義されます。 2 つのランダム変数間の相関関係を自然に定量化できます。

DeepBDC では、深層ニューラル ネットワークに柔軟に接続して画像の表現として BDC マトリックスを取得できるプラグ アンド プレイ モジュールとして BDC を実装しました。 2 つの画像間の類似性は、画像のペアの BDC 行列の内積を計算することによって得られます。

同時に、本研究で実装された BDC モジュールは、Chen らが提案した baseline/baseline++ などの単純な転移学習に基づくフレームワークにも適用できます。古典的な共分散と比較して、ブラウン距離共分散は非線形ランダム変数間の相関と独立性を特徴付けることができるため、分布間の類似性をより正確に測定できます。

結合分布も考慮する EMD と比較すると、BDC は計算効率が高く、ネットワークの推論速度にほとんど影響を与えません。同時に、BDC は確率密度をモデル化する必要がないため、計算は MI よりも簡単です。上記の表 1 では、この調査により DeepBDC とその類似製品との違いが示されています。

この論文の貢献は次のように要約できます。

  • この研究では、ディープネットワークに基づく小サンプル分類にブラウン距離共分散 (BDC) を初めて導入し、BDC がディープラーニングにおいて大きな可能性と将来の応用価値を持っていることを示しています。
  • この研究では、提案された DeepBDC を、さまざまな小規模サンプル学習フレームワークに適用できるプラグアンドプレイ モジュールに実装します。同時に、本研究では、プロトタイプ ネットワーク フレームワークに基づく Meta DeepBDC と単純な転移学習フレームワークに基づく STL DeepBDC という、異なるパラダイムの 2 つの小規模サンプル学習フレームワークを組み合わせて DeepBDC をインスタンス化しました。
  • この研究では、提案された方法の詳細なアブレーション研究を実施し、6 つの少数ショット分類ベンチマークで広範な実験を実行します。実験結果によると、どちらのインスタンスも現時点で最高の分類パフォーマンスを達成しています。

第2章 深層ブラウン距離共分散

2.1 理論

BDC 理論は、Gábor らによって初めて確立され、ランダム変数の結合特性関数とそれらの周辺分布の積の間のユークリッド距離として表現できます。覚えて

寸法は

そして

X と Y 間の BDC 測定値は次のように表すことができます。

XとYの間の結合特性関数として表すと、

そして

はそれぞれXとYの周辺分布であり、

それらの結合確率密度関数です。

上記はBDCの連続表現である。離散的な場合には次のように定義できる。

、で

に基づいています

ユークリッド距離行列を計算します。同様に、

ユークリッド距離行列

、で

。この場合、BDC 測定値は次のように記述できます。

行列トレースを表す。

行列の転置を表す。

これをBDCマトリックスと呼びます。ここ

最後の3つの項目は

コラムNo.

列とすべて

アイテムの平均。マトリックス

同様の方法は、

計算してみましょう。そしてBDC行列は対称なので、

これは2つのBDCベクトルとして書くこともできる。

そして

の内積は次のようになります。

(または

)を抽出して

(または

)を取得し、ベクトル化します。

BDC 測定

次のような優れた特徴があります。

  • これは非負であり、 と が独立である場合に限り と等しくなります。
  • と の間の線形相関と非線形相関を特徴付けることができます。
  • これは、平行移動および直交変換に対して不変であり、それぞれのスケーリングに対して同変です。つまり、任意のベクトル、スカラー、直交行列に対して、 です。

2.2 BDCモジュール

前のセクションから、入力画像のペアに対して、それぞれの BDC 行列を個別に計算し、内積演算を実行して 2 つの画像間の類似度を取得できることがわかります。そのため、本研究では、このプロセスを独立したモジュールとして実装し、各画像の高レベル畳み込み特徴の BDC 行列を計算しました。また、BDC行列のサイズは入力畳み込み特徴次元の2次関数であるため、出力次元を制御するために、本研究では次元削減のために1×1畳み込み層を導入しました。

この研究では、まず次元削減後の畳み込み特徴を再形成し、

、で

そして

空間の高さと幅です。

チャンネル数です。各列

または各行

ランダムベクトルとみなすことができる

観測された値。

次、

例として、BDC モジュールの計算プロセスを紹介します。

下の式に示すように、計算は 3 つのステップに分かれています。最初のステップでは、ユークリッド距離の正方行列を計算します。

はい

いいえ。

コラムと

列間のユークリッド距離の二乗。平方根をとってユークリッド距離行列を得る。

最後に、行平均、列平均、および全体の平均を距離行列から減算して、BDC 行列を取得します。

ここにマトリックスがあります

各要素は1であり、

は単位行列、◦ はアダマール積を表します。研究では、

2.3 DeepBDCの2つのインスタンス

実際の小サンプル分類訓練では、研究者は通常、一連の

分類タスクは

クラス、各クラス

サンプル。その中には

サンプルはサポートセットを形成する

、そして各カテゴリーには

クエリセット

典型的な小規模サンプル学習パラダイムは、ProtoNet に代表されるメタ学習です。これは、各トレーニング中にデータの一部を抽出して学習用のサポート セットとクエリ セットを形成し、ネットワークがさまざまなタスクから学習する方法を学習し、この能力を新しいカテゴリに転送できるようにします。同時に、単純な転移学習に基づく別の学習フレームワークも、優れた一般化パフォーマンスを達成しました。トレーニング段階では、一般的な画像分類タスクです。学習を通じて、ネットワークはより優れた埋め込み機能を取得し、新しいカテゴリでテストするときにすばやく適応できます。本研究では、これら2つの学習フレームワークに基づいて、メタ学習に基づくMeta DeepBDCと単純転移学習に基づくSTL DeepBDCを構築した。

図1に示すように、Meta DeepBDCはProtoNetアーキテクチャに基づいて構築されており、サポートセット画像に対して得られたBDC表現を平均化することで各カテゴリのプロトタイプ表現が得られます。クエリ画像のBDC表現と各カテゴリのプロトタイプ表現の内積を計算することで各カテゴリ間の距離が得られ、カテゴリ判定が行われます。実験段階では、プロトタイプ表現を獲得するためのいくつかの異なる方法が評価されました。

図 1: Meta DeepBDC。

STL DeepBDC は、一般的な転移学習フレームワークである Good-Embed に基づいており、大量のラベル付きデータをトレーニングに使用して、画像の埋め込み特徴を取得するためのより優れた基本モデルを取得します。新しいカテゴリ空間では、埋め込まれた特徴が線形層または回帰器を通じて学習され、認識のための分類器が得られます。図2に示すように、本研究では、入力画像の埋め込み特徴としてBDC行列をテール分類器に送って学習させ、クロスエントロピー損失関数を使用してネットワークを最適化します。

図 2: STL DeepBDC。

第3章 実験

3.1 データセットと実験設定

この論文では、一般的な認識タスクである miniImageNet と tieredImageNet のほか、きめ細かい認識タスクである CUB、Cars、Aircraft で研究を評価しました。これらのデータセットでは、以前の研究と公平に比較​​するために、標準的なデータセット分割、データ拡張、およびトレーニング戦略を使用しました。各データセットは、メタトレーニング、メタ検証、メタテストの 3 つのサブセットに分かれており、各サブセット内のカテゴリは重複しません。 224×224 サイズの画像を入力として使用する CUB を除き、他の実験では 84×84 解像度の入力を使用します。

バックボーンモデルには、以前の研究で使用された ResNet-12 (84×84 入力画像用) と ResNet-18 (224×224 入力画像用) を使用しました。 ResNet-12の残差ブロックは、同じ数のチャネルを持つ3つの連続した3×3畳み込み層で構成されています。ネットワークの各ステージのチャネル数は[64, 160, 320, 640]で、残差ブロック数は[1, 1, 1, 1]です。 ResNet-18 は、He らによって提案された ResNet 論文のオリジナル アーキテクチャを使用します。同時に、より深いモデルでのパフォーマンスを評価するために、この研究ではResNet-34とそのバリエーションも使用し、それぞれ224×224と84×84の入力を持つ実験に適用しました。 ResNet-34 のバリアントは ResNet-12 に基づいており、各ステージの残差ブロックの数を [1,1,1,1] から [2,3,4,2] に変更します。

3.2 SOTA法との比較

この研究では、まず miniImageNet 上で DeepBDC の 1 ショット/5 ショットのパフォーマンスを評価しました。表 2 からわかるように、STL DeepBDC が最高のパフォーマンスを達成し、Meta DeepBDC も優れたパフォーマンスを発揮し、現在の最高性能を上回るかそれに匹敵するパフォーマンスを達成しました。そのうち、5 ショットタスクでは、Meta DeepBDC と STL DeepBDC はそれぞれ以前の最高 BML より 0.83% と 1.82% 高くなっています。

公平な比較を可能にするために、本研究ではまず、細粒度認識タスクCUBにおいて、設定に応じてベースラインモデルProtoNetとGood-Embedを再実装しました。表 2 は、この研究で実装された ProtoNet と Good-Embed が元の論文の精度と非常に競争力があり、現在の最高の研究よりも大幅に優れていることを示しています。 1 ショットでは、Meta DeepBDC と STL DeepBDC はそれぞれ FRN より 1% と 1.46% 高く、5 ショットでは、これら 2 つの実装はそれぞれ FRN より 0.84% と 1.04% 優れています。

クロスドメインタスクでは、この研究では miniImageNet をソースドメインとして使用し、3 つの細粒度データセット CUB、Cars、Aircraft をクロスドメイン評価のターゲットドメインとして使用します。彼らは、miniImageNet のセット全体をトレーニング セットとして使用し、ターゲット ドメイン データセットでテストしました。結果は表 3 に示されています。miniImageNet→CUB では、共分散ベースの CovNet は非常に競争力があり、現在の最良の FRN よりわずかに劣るだけです。 FRNと比較すると、Meta DeepBDCとSTL DeepBDCは、高性能FRNよりもそれぞれ0.8%と3.1%高くなっています。miniImageNet→Aircraftでは、本研究の2つの実装も他の方法に比べて大幅に改善され、パフォーマンスが3.2%以上向上しています。miniImageNet→Carsでも、本研究の方法がリードしており、1ショットと5ショットで最高のADMよりもそれぞれ0.7%と4.2%向上しています。これらの結果は、私たちの方法が優れたドメイン転送能力を持っていることを十分に実証しています。

表 2: 一般的な分類タスクと細粒度認識タスクにおけるパフォーマンスの比較。黒は最高のパフォーマンスを示し、赤は 2 番目に優れたパフォーマンスを示します。

表 3: ドメイン転送タスクにおけるパフォーマンス比較。黒は最高のパフォーマンスを示し、赤は 2 番目に優れたパフォーマンスを示します。

3.3 アブレーション実験

まず、この研究では、次元削減層が DeepBDC や同様の方法のパフォーマンスに与える影響を評価しました。上からわかるように、次元削減層によって出力される特徴チャネルの数は d です。この研究では、d が異なる値をとった場合の 5 ショットのパフォーマンスを評価します。図 3 に示すように、次元が増加するにつれて、ADM と CovNet はそれぞれ d=196 と d=256 で最高値に達し、その後パフォーマンスは低下して 1 次 ProtoNet のパフォーマンスに近づきます。 Meta DeepBDC も同様の状況ですが、次元が 640 を超えた場合にのみパフォーマンスの低下が発生します。さらに、この研究の 2 つの実装は、すべての次元で同様の方法よりも大幅に優れていることもわかります。これは、ブラウン距離共分散を使用することによる優れたパフォーマンスをさらに実証しています。

図 3: 次元削減層のチャネル数 d がパフォーマンスに与える影響。

この研究では、Meta DeepBDC と STL DeepBDC をそれぞれ評価します。 Meta DeepBDC の重要な実装は、2 つの表現間の距離を計算することです。この研究では、同じ実験設定で、ユークリッド距離とコサイン距離という、他の 2 つの一般的なメトリックを評価しました。結果を表 4 に示します。

このことから、さまざまな距離関数の計算コストは​​基本的に同程度であることがわかります。1 ショット タスクでは、内積が最高のパフォーマンスを達成できます。5 ショット タスクでは、ユークリッド距離が最高のパフォーマンスを達成できます。 STL DeepBDC の場合、この研究では、さまざまな分類器を使用することによるパフォーマンスへの影響を評価しました。SVM を使用すると時間コストが最も低くなりますが、パフォーマンスは理想的ではありません。ロジスティック回帰を使用すると最高のパフォーマンスを実現でき、計算効率はそれほど影響を受けません。特に、Softmax 分類器と比較すると、明らかな利点があります。これら 2 つの実験的結論に基づいて、本研究ではすべての実験でこのような設定を使用しました。

表4: Meta DeepBDCの距離関数評価。

表5: STL DeepBDCの分類器評価。

さらに、この研究では、各方法の実行時間も比較しました。同じコンピューティング デバイス上で、各タスクのメタ トレーニングおよびメタ テスト中の DeepBDC および同様の方法の実行時間 (ミリ秒/エピソード) を測定します。結果を表6に示します。結合分布を考慮したDeepEMDは類似手法の中で最も優れたパフォーマンスを発揮しますが、トレーニングとテストのコストが非常に高く、他のすべての手法をはるかに上回っていることがわかります。 DeepBDC のトレーニングとテストのコストは CovNet や ProtoNet よりもわずかに高くなりますが、パフォーマンスは大幅に向上します。したがって、この部分の実験は、DeepBDC が実際のアプリケーションに適用できる優れた効率的な方法であることを証明しています。

表6: STL DeepBDCの分類器評価。

同時に、この研究では、より大容量のモデルにおける DeepBDC のパフォーマンスも調査しました。現在の小規模サンプル学習法では、基本的なバックボーンモデルとしてResNet-12またはResNet-18を使用するのが一般的であるため、本研究ではより深いResNet-34を使用して実験を行いました。 miniImageNet と CUB での同様の方法と比較した結果を表 7 と 8 に示します。この調査では、両方の実装において、大容量モデルを使用すると一貫してパフォーマンスが向上することがわかります。

表 7: miniImageNet 上の ResNet-34 に基づく DeepBDC のパフォーマンス。

表 8: CUB 上の ResNet-34 に基づく DeepBDC のパフォーマンス。

最後に、この研究では、いくつかの線形および非線形相関サンプルについて、ブラウン距離相関係数 (BDCorr) と古典的な共分散相関係数 (Corr) に基づいて相関をモデル化できることが実証されました。図 9 に示すように、BDCorr は線形相関サンプルに対して Corr と同様の機能を持ちますが、非負値であるため、BDCorr は方向性を反映できず、傾斜の大きさも反映できません。ただし、図 10 から、すべての非線形相関サンプルでは Corr は 0 に等しく、非線形相関を測定できないことがわかります。一方、BDCorr は、この複雑な非線形状況での相関を特徴付けることができます。これは、分布間の相関関係を測定する際に、BDC が従来の共分散よりも強力であることを完全に証明しています。

表9: 線形関連サンプルの比較。

表10: 非線形相関サンプルの比較。

第4章 結論

この論文では、小規模サンプルの分類タスク向けに DeepBDC を提案しました。DeepBDC はサンプル ペア間の結合分布を測定してより正確な類似性を取得し、小規模サンプルの分類のパフォーマンスを大幅に向上させます。私たちの知る限り、大きな可能性を秘めながらも過小評価されてきた統計手法であるブラウン距離共分散がディープラーニングに導入され、あらゆるディープ畳み込みネットワークに柔軟に組み込むことができる効率的なプラグアンドプレイ モジュールとして実装されたのは、これが初めてです。この研究で提供された 2 つの実装スキーム、メトリック学習に基づく Meta DeepBDC と単純な転移学習に基づく STL DeepBDC は、この使いやすさを実証しています。

多数の実験により、本研究の手法は、複数の一般的な、細粒度の、クロスドメインの小規模サンプル学習タスクで非常に競争力のあるパフォーマンスを達成し、現時点で最高の結果を達成したことが示されています。本研究で提案するDeepBDCは、距離・類似性の測定や相関関係のモデル化を行う基本的なディープラーニング技術であり、コンピュータビジョンや機械学習への幅広い応用が期待されています。

<<:  DeepFakeの頭部置換技術がアップグレード:浙江大学の新モデル、GANが美しい髪の頭部を生成

>>:  デューク大学: 効率的な人工知能システムのソフトウェアとハ​​ードウェアの共同設計

ブログ    
ブログ    

推薦する

AIを使ってAIを評価する上海交通大学の新しい大規模モデルは、いくつかのタスクでGPT-4を上回り、モデルデータはオープンソースです

大規模モデルのアライメントパフォーマンスを評価する最も効率的な方法は何ですか?生成AIのトレンドでは...

額をタップして入力できる。Googleエンジニアの「帽子型キーボード」は数え切れないほどのファンを魅了。自分で作ることもできる

キーボードと帽子を組み合わせたらどうなるでしょうか?冗談はさておき、Google 日本支社のエンジニ...

家族に王位継承者はいないのですか?それは問題ではない、誰かがAIを使っておとぎ話の魔法の世界を作ったのだ

家には鉱山も王座もありませんが、王子様やお姫様になりたいという夢を持たない人がいるでしょうか?最近、...

PyTorch を使用したノイズ除去拡散モデルの実装

ノイズ除去拡散確率モデル (DDPM) の仕組みを詳しく検討する前に、生成 AI の進歩、具体的には...

エラー分析を正しく行う方法、NLP研究者は学ぶ必要がある

著者注:機械学習モデルがいつ、どのように、なぜ失敗するかを分析することを「エラー分析」と呼びます。科...

...

人工知能に関する4つの大きな誤解

サンタフェ研究所の教授であり、『人工知能:考える人間のためのガイド』の著者でもあるメラニー・ミッチェ...

機械学習が金融業界にもたらす破壊的変化

過去 10 年間で、金融業界ではこれまでにない最先端のテクノロジーが数多く導入されました。この変化は...

スマートビルディングにおけるエッジAIの役割を解明

仕事や住居のための物理的な空間として機能することから、入居者に活気ある建築体験を提供することまで、近...

...

...

ベイジアン機械学習: 古典的なモデルとコード実装!

[[420350]]ベイズの定理は確率モデルにおける最も有名な理論の 1 つであり、機械学習でも広...

顔認識ブームは沈静化すべきでしょうか?

北京地下鉄は昨年11月から、セキュリティチェックに顔認識技術を使用する試験運用を開始し、ブラックリス...

チューリング賞受賞者のベンジオが新論文を発表、Redditがクラッシュ: アイデアがクラッシュ

[[403771]]機械学習における重要な研究はモデルの一般化を改善することであり、モデルをトレーニ...

Googleとハーバード大学がこれまでで最も複雑な3D脳マップを作成

脳の神経回路を研究するのは簡単ではありません。なぜなら、現時点では、すべてのニューロン、シナプス、そ...