この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。

この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。

ディープラーニングは人工知能(AI)分野の継続的な発展を促進し、多くの技術的進歩を達成しました。同時に、限られたハードウェア リソースでモデルの潜在能力を最大限に引き出し、展開されたモデルの精度を向上させる方法が、学界と産業界の研究のホットスポットとなっています。その中で、知識蒸留は、モデルの圧縮と強化の方法として、より一般化能力の強い「ビッグネットワークモデル」に含まれる知識を「スモールネットワークモデル」に「蒸留」し、スモールモデルの精度を向上させるものであり、完全監督、半監督、自己監督、ドメイン転送など、AI分野のさまざまな方向に広く使用されています。

最近、   OPPO 研究所と上海交通大学は、知識蒸留のパラダイムそのものに焦点を当て、新しい自己蒸留フレームワークである DLB (Self-Distillation from Last Mini-Batch) を提案しました。このモデルは、追加のネットワーク アーキテクチャの変更を必要とせず、ラベル ノイズに対して堅牢で、トレーニングの空間計算量を大幅に削減します。さらに、3 つのベンチマーク データでの実験では、モデルは SOTA パフォーマンスを達成しました。関連論文「一貫性正規化のための最後のミニバッチからの自己蒸留」が CVPR 2022 に掲載されました。

論文リンク: https://arxiv.org/pdf/2203.16172.pdf

DLB 自己蒸留フレームワーク

蒸留の計算の複雑さを軽減するにはどうすればよいでしょうか?

知識蒸留は、一般的に、オフライン蒸留、オンライン蒸留、自己蒸留の 3 つのカテゴリに分けられます。その中で、自己蒸留は軽量なトレーニングと高い知識移転効率という特徴があり、最近研究者から注目を集めています。

図1: 我々の手法と他の自己蒸留法との比較

ただし、Be Your Own Teacher などの従来の自己蒸留では、モデルのトレーニング中にモデル構造を変更する必要があります。さらに、高いトレーニング コスト、計算の冗長性、効率の低さも、自己蒸留が克服する必要がある困難な問題です。

上記の問題を解決し、モデルを携帯電話などの端末デバイスに適切に展開できるようにするため、OPPO 研究所と上海交通大学の研究者は DLB 自己蒸留フレームワークを提案しました。トレーニング前後のバッチ予測結果の一貫性を利用することで、モデルのネットワーク構造を変更することなく、トレーニングの複雑さを軽減し、モデルの一般化能力を高めることができます。

1. 本論文の目的

トレーニングの計算の複雑さを軽減し、モデルの精度と一般化を向上させるために、より軽量な自己蒸留法が提案されています。

2. 本論文の革新性と貢献

  • DLB は、次のバッチの一部のサンプルと重複するソフト ターゲットを保存することで自己蒸留を実行することが提案されています。コンピューティング メモリを節約し、トレーニング プロセスを簡素化します。
  • トレーニング サンプルの各フォワード プロセスは、学習効率を向上させるためにバックプロパゲーション プロセスに関連付けられています。
  • この実験では、DLB トレーニング方法の動的影響を分析し、その正規化効果が、即座に効果を発揮するスムーズなラベルによってもたらされるトレーニングの一貫性から生じていることを発見し、自己蒸留の理論的研究の実験的基礎を提供しました。

DLB自己蒸留フレームワークトレーニングメカニズム

DLB トレーニング フェーズの各反復では、ターゲット ネットワークは「教師」と「生徒」の 2 つの役割を果たします。教師の役割は、正規化のための次の反復のソフト ターゲットを生成することです。生徒の役割は、前の反復の平滑化されたラベルから抽出し、教師あり学習の目標を最小化することです。

データセットは次のように定義される

n 個のサンプルを含むバッチは次のように定義されます。

画像分類を例にとると、まず画像はデータ拡張され、次にニューラル ネットワークに入力されて、予測出力と実際の値の間のクロス エントロピー損失が最適化されます。

上記の式における p_i の表現は次のとおりです。

θ はネットワークパラメータ、K は分類カテゴリの数、τ は温度を表します。

一般化能力を向上させるために、従来のバニラ知識蒸留では、事前トレーニング済みの教師ネットワークの知識を、追加の最適化された KL ダイバージェンス損失を通じて転送します。

教師モデルを事前トレーニングして (P_i^τ )̃ を生成する従来の方法とは異なり、DLB はトレーニングで前のバッチに含まれる情報を使用して (P_i^τ )̃ を生成し、それを正規化されたインスタントスムースラベルとして使用します。

図2:DLBトレーニング法の模式図

図2に示すように、t回目の反復におけるデータサンプルは次のように定義されます。

ニューラルネットワークのパラメータはθ_tです。

B_t と B_(t-1) はデータ サンプラーを使用して取得され、L_CE は順方向処理後に計算されます。各ミニバッチの半分は前の反復と一致するように制約され、残りの半分は次の反復と一致するように制約されます。その後、ミニバッチの前半は、前回の反復で生成された動的ソフト ターゲットを使用して学習されます。今すぐ

t-1回の反復からのソフトラベル

生成する。したがって、導入された正則化損失式は次のようになります。

平滑化されたラベルを保存するのに追加のメモリコストはほとんど必要ないため、追加の計算コストは​​低くなります。全体的な損失関数は次のように表されます。

要約すると、DLB アルゴリズムの全体的なトレーニングの疑似コードは次のようになります。

実験のセットアップ

研究者らは、CIFAR-10、CIFAR-100、TinyImageNet を含む 3 つの画像分類ベンチマーク データセットを使用してパフォーマンスを評価しました。実験結果はすべて、次の表に示すように最高のパフォーマンスを達成しました。

具体的には、平均エラー率レベルでは、DLB は CIAFR-100 では 0.83% から 2.50% に、CIFAR-10 では 0.37% から 1.01% に、TinyImageNet では 0.81% から 3.17 に改善されます。 DLB のパフォーマンスは Tf-KD や PS-KD よりも大幅に優れていることは注目に値します。これは、モデルの一般化を改善する上での DLB の利点を証明しています。

DLB とデータ拡張ベースの正規化手法との互換性を評価するために、研究者らは CIFAR-10 および CIFAR-100 で DLB を CutMix、CutOut、DDGSD と組み合わせました。以下に示すように、実験では、DLB とブースティングベースの正則化を組み合わせることで、さらなるパフォーマンスの向上が達成できることが示されています。

その堅牢性を証明するために、研究者らはトレーニング前に CIFAR-100 と CIFAR-10 にラベルノイズをランダムに注入しました。実験結果を下の図に示します。DLB はラベルノイズに効果的に抵抗し、全体的なパフォーマンスを向上させることができます。

結論

この論文では、自己蒸留の考え方に基づいたディープラーニングトレーニング戦略を提案しています。この戦略は、自己蒸留の考え方をモデルトレーニングプロセスに統合し、教師の追加事前トレーニングを必要とせずに従来の知識蒸留を改善します。 3 つのベンチマーク データセットでの実験を通じて、DLB トレーニング戦略の有効性と普遍性がさまざまな側面で実証されています。

現在、ディープラーニング ネットワーク モデルの構造的複雑さは増大し続けており、限られたハードウェア リソースを使用して AI モデルを開発および展開することが新たな科学的研究上の問題となっています。この記事では、研究者が設計した DLB トレーニング戦略によって、「モデルの複雑さを増やさずにモデルの精度を向上させる」という業界の難しい問題がある程度解決されました。

<<:  Googleの最新の「効率的なトランスフォーマー」では、トランスフォーマーの効率を向上させる方法を説明しています

>>:  新しいターミナルゲームプレイ: 「ゼロコード」スクリプトベースのガイダンス

ブログ    

推薦する

...

...

Google の 130 億パラメータの多言語モデル mT5 が利用可能になり、101 言語への容易な移行が可能になりました。

Facebook は多言語機械翻訳モデル「M2M-100」をオープンソース化したばかりだが、今度は...

...

人工知能時代の未来の人材をどう育成するか?専門家や名門校の校長はこう言う

人工知能の時代、未来の人材をどう育成するか? 10日、2019年重慶人材大会第4回大学・高校教育発展...

自動運転車は複雑な相互作用の問題をどのように解決するのでしょうか?清華大学とMITが共同でM2Iソリューションを提案

自動運転車が公道を走るようになると、必然的に道路上の「暗黙のルール」のいくつかを学習する必要が出てき...

ITとビジネスの調和を実現する: デジタル変革にローコードが不可欠な理由

[51CTO.com クイック翻訳]ビジネスの世界では、デジタルトランスフォーメーションという言葉を...

...

ロボット革命はビジネス環境を変えている

今世紀の前半には、巨大な片腕の巨人のような産業用ロボットがロボット工学の分野を支配していました。産業...

...

...

AI に物語を伝える: シーンを想像するように教えるにはどうすればよいでしょうか?

[[282830]]視覚的な想像力は人間が生まれながらに持っているものです。AI は同様の能力を持...

...

...

単一画像超解像におけるディープラーニングの応用: SRCNN、知覚損失、SRResNet

[[209375]]単一画像の超解像度では、品質の低下を最小限に抑えながら小さな画像のサイズを拡大...