この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。

ディープラーニングは人工知能（AI）分野の継続的な発展を促進し、多くの技術的進歩を達成しました。同時に、限られたハードウェアリソースでモデルの潜在能力を最大限に引き出し、展開されたモデルの精度を向上させる方法が、学界と産業界の研究のホットスポットとなっています。その中で、知識蒸留は、モデルの圧縮と強化の方法として、より一般化能力の強い「ビッグネットワークモデル」に含まれる知識を「スモールネットワークモデル」に「蒸留」し、スモールモデルの精度を向上させるものであり、完全監督、半監督、自己監督、ドメイン転送など、AI分野のさまざまな方向に広く使用されています。

最近、 OPPO 研究所と上海交通大学は、知識蒸留のパラダイムそのものに焦点を当て、新しい自己蒸留フレームワークである DLB (Self-Distillation from Last Mini-Batch) を提案しました。このモデルは、追加のネットワークアーキテクチャの変更を必要とせず、ラベルノイズに対して堅牢で、トレーニングの空間計算量を大幅に削減します。さらに、3 つのベンチマークデータでの実験では、モデルは SOTA パフォーマンスを達成しました。関連論文「一貫性正規化のための最後のミニバッチからの自己蒸留」が CVPR 2022 に掲載されました。

論文リンク: https://arxiv.org/pdf/2203.16172.pdf

DLB 自己蒸留フレームワーク

蒸留の計算の複雑さを軽減するにはどうすればよいでしょうか?

知識蒸留は、一般的に、オフライン蒸留、オンライン蒸留、自己蒸留の 3 つのカテゴリに分けられます。その中で、自己蒸留は軽量なトレーニングと高い知識移転効率という特徴があり、最近研究者から注目を集めています。

図1: 我々の手法と他の自己蒸留法との比較

ただし、Be Your Own Teacher などの従来の自己蒸留では、モデルのトレーニング中にモデル構造を変更する必要があります。さらに、高いトレーニングコスト、計算の冗長性、効率の低さも、自己蒸留が克服する必要がある困難な問題です。

上記の問題を解決し、モデルを携帯電話などの端末デバイスに適切に展開できるようにするため、OPPO 研究所と上海交通大学の研究者は DLB 自己蒸留フレームワークを提案しました。トレーニング前後のバッチ予測結果の一貫性を利用することで、モデルのネットワーク構造を変更することなく、トレーニングの複雑さを軽減し、モデルの一般化能力を高めることができます。

1. 本論文の目的

トレーニングの計算の複雑さを軽減し、モデルの精度と一般化を向上させるために、より軽量な自己蒸留法が提案されています。

2. 本論文の革新性と貢献

DLB は、次のバッチの一部のサンプルと重複するソフトターゲットを保存することで自己蒸留を実行することが提案されています。コンピューティングメモリを節約し、トレーニングプロセスを簡素化します。
トレーニングサンプルの各フォワードプロセスは、学習効率を向上させるためにバックプロパゲーションプロセスに関連付けられています。
この実験では、DLB トレーニング方法の動的影響を分析し、その正規化効果が、即座に効果を発揮するスムーズなラベルによってもたらされるトレーニングの一貫性から生じていることを発見し、自己蒸留の理論的研究の実験的基礎を提供しました。

DLB自己蒸留フレームワークトレーニングメカニズム

DLB トレーニングフェーズの各反復では、ターゲットネットワークは「教師」と「生徒」の 2 つの役割を果たします。教師の役割は、正規化のための次の反復のソフトターゲットを生成することです。生徒の役割は、前の反復の平滑化されたラベルから抽出し、教師あり学習の目標を最小化することです。

データセットは次のように定義される

n 個のサンプルを含むバッチは次のように定義されます。

画像分類を例にとると、まず画像はデータ拡張され、次にニューラルネットワークに入力されて、予測出力と実際の値の間のクロスエントロピー損失が最適化されます。

上記の式における p_i の表現は次のとおりです。

θ はネットワークパラメータ、K は分類カテゴリの数、τ は温度を表します。

一般化能力を向上させるために、従来のバニラ知識蒸留では、事前トレーニング済みの教師ネットワークの知識を、追加の最適化された KL ダイバージェンス損失を通じて転送します。

教師モデルを事前トレーニングして (P_i^τ )̃ を生成する従来の方法とは異なり、DLB はトレーニングで前のバッチに含まれる情報を使用して (P_i^τ )̃ を生成し、それを正規化されたインスタントスムースラベルとして使用します。

図2：DLBトレーニング法の模式図

図2に示すように、t回目の反復におけるデータサンプルは次のように定義されます。

ニューラルネットワークのパラメータはθ_tです。

B_t と B_(t-1) はデータサンプラーを使用して取得され、L_CE は順方向処理後に計算されます。各ミニバッチの半分は前の反復と一致するように制約され、残りの半分は次の反復と一致するように制約されます。その後、ミニバッチの前半は、前回の反復で生成された動的ソフトターゲットを使用して学習されます。今すぐ

t-1回の反復からのソフトラベル

生成する。したがって、導入された正則化損失式は次のようになります。

平滑化されたラベルを保存するのに追加のメモリコストはほとんど必要ないため、追加の計算コストは低くなります。全体的な損失関数は次のように表されます。

要約すると、DLB アルゴリズムの全体的なトレーニングの疑似コードは次のようになります。

実験のセットアップ

研究者らは、CIFAR-10、CIFAR-100、TinyImageNet を含む 3 つの画像分類ベンチマークデータセットを使用してパフォーマンスを評価しました。実験結果はすべて、次の表に示すように最高のパフォーマンスを達成しました。

具体的には、平均エラー率レベルでは、DLB は CIAFR-100 では 0.83% から 2.50% に、CIFAR-10 では 0.37% から 1.01% に、TinyImageNet では 0.81% から 3.17 に改善されます。 DLB のパフォーマンスは Tf-KD や PS-KD よりも大幅に優れていることは注目に値します。これは、モデルの一般化を改善する上での DLB の利点を証明しています。

DLB とデータ拡張ベースの正規化手法との互換性を評価するために、研究者らは CIFAR-10 および CIFAR-100 で DLB を CutMix、CutOut、DDGSD と組み合わせました。以下に示すように、実験では、DLB とブースティングベースの正則化を組み合わせることで、さらなるパフォーマンスの向上が達成できることが示されています。

その堅牢性を証明するために、研究者らはトレーニング前に CIFAR-100 と CIFAR-10 にラベルノイズをランダムに注入しました。実験結果を下の図に示します。DLB はラベルノイズに効果的に抵抗し、全体的なパフォーマンスを向上させることができます。

結論

この論文では、自己蒸留の考え方に基づいたディープラーニングトレーニング戦略を提案しています。この戦略は、自己蒸留の考え方をモデルトレーニングプロセスに統合し、教師の追加事前トレーニングを必要とせずに従来の知識蒸留を改善します。 3 つのベンチマークデータセットでの実験を通じて、DLB トレーニング戦略の有効性と普遍性がさまざまな側面で実証されています。

現在、ディープラーニングネットワークモデルの構造的複雑さは増大し続けており、限られたハードウェアリソースを使用して AI モデルを開発および展開することが新たな科学的研究上の問題となっています。この記事では、研究者が設計した DLB トレーニング戦略によって、「モデルの複雑さを増やさずにモデルの精度を向上させる」という業界の難しい問題がある程度解決されました。

>>: 新しいターミナルゲームプレイ: 「ゼロコード」スクリプトベースのガイダンス