Rocket Launch: 効率的で軽量なネットワークトレーニングフレームワーク

まとめ

クリックスルー率の推定などのオンラインリアルタイム応答システムでは、応答時間に関して非常に厳しい要件があります。複雑な構造と深いレイヤーを持つディープモデルでは、厳しい応答時間の制約を十分に満たすことができません。応答時間の制限を満たす優れた性能を持つモデルを得るために、私たちは新しいフレームワークを提案しました。トレーニングフェーズでは、複雑性が大きく異なる2つのネットワークを同時にトレーニングします。単純なネットワークは軽量ネットワーク（ライトネット）と呼ばれ、複雑なネットワークはブースターネットワーク（ブースターネット）と呼ばれます。前者と比較して、より強力な学習能力を備えています。 2 つのネットワークはいくつかのパラメータを共有し、カテゴリラベルを個別に学習します。さらに、軽量ネットワークはブースターのソフトターゲットを学習することでブースターの学習プロセスを模倣し、より優れたトレーニング結果を実現します。テスト段階では、予測には軽量ネットワークのみが使用されます。私たちのアプローチは「ロケット打ち上げ」システムと呼ばれています。公開データセットと Alibaba のオンラインディスプレイ広告システムでは、当社の方法はオンライン応答時間を増加させることなく予測効果を向上させ、オンラインモデルの適用における大きな価値を実証しています。

背景

応答時間は、オンライン応答システムの有効性とユーザーエクスペリエンスを直接決定します。たとえば、オンラインディスプレイ広告システムでは、1 人のユーザーに対して、数百の候補広告のクリックスルー率を数ミリ秒以内に推定する必要があります。したがって、厳しい応答時間内でモデルのオンライン予測効果をどのように向上させるかが、業界が直面している大きな課題です。

既存の方法

現在、モデル応答時間の問題を解決するには 2 つの方法があります。

一方では、モデル構造とパラメータが固定されている条件下では、数値圧縮を使用して推論時間を短縮できます。同時に、Mobile NetやShuffleNetなど、より合理化されたモデルを設計し、モデルの計算方法を変更する取り組みもあります。

一方、複雑なモデルは、合理化されたモデルのトレーニングを支援するために使用されます。テストフェーズでは、KD や MIMIC などの十分に学習された小さなモデルが推論に使用されます。これら 2 つのソリューションは互いに矛盾しません。ほとんどの場合、2 番目のソリューションは最初のソリューションよりも推論時間をさらに短縮できます。同時に、厳格なオンライン応答時間と比較して、より多くの自由なトレーニング時間と複雑なモデルをトレーニングする能力があることを考慮して、2 番目のアイデアを採用して方法を設計しました。

研究の動機と革新

ロケットの打ち上げでは、最初の段階ではブースターと機体が一緒に前進します。第 2 段階では、ブースターが分離し、機体だけが前進します。私たちのフレームワークでは、トレーニングフェーズでは、複雑なネットワークと単純なネットワークの 2 つのネットワークが一緒にトレーニングされます。複雑なネットワークはブースターとして機能し、パラメータの共有と情報提供を通じて軽量ネットワークのトレーニングを促進します。予測フェーズでは、ブースターネットワークはシステムから分離され、軽量ネットワークが単独で動作するため、予測のオーバーヘッドを増やすことなく予測効果が向上します。全体のプロセスはロケットの打ち上げに似ているため、このシステムを「ロケット打ち上げ」と名付けました。

トレーニング方法の革新

私たちのフレームワークの革新性は、その斬新なトレーニングアプローチにあります。

1. 従来のモデルと簡略化されたモデルを一緒にトレーニングします。共同トレーニングの利点は次のとおりです。

a) 一方で、総トレーニング時間が短縮されます。教師ネットワークと生徒ネットワークが別々にトレーニングされる従来の教師-生徒パラダイムと比較して、私たちの共同トレーニングプロセスは総トレーニング時間を短縮します。これは、毎日大量のトレーニングデータを取得し、モデルを継続的に更新するオンライン広告システムなどのシナリオに非常に役立ちます。

b) 一方、ブースターネットワークは、プロセス全体を通じて軽量ネットワークにソフトターゲット情報を提供し、ソリューションプロセス全体で軽量ネットワークをガイドします。従来の方法と比較して、私たちの方法はより多くのガイダンス情報を取得し、より良い結果を達成します。

2. 勾配固定技術の使用:

トレーニングフェーズでは、類似したソフトターゲットを持つ 2 つのネットワークの損失は制限され、ブースターネットワークを更新せずに軽量ネットワークの勾配更新にのみ使用されます。これにより、ブースターネットワークは軽量ネットワークの影響を受けず、実際のラベルからのみ情報を学習します。この技術により、ブースターネットワークはより優れたモデルを学習する自由度が高まり、ブースターネットワークの効果が向上すると、軽量ネットワークのトレーニング効果も向上します。

構造革新

ブースターネットワークと軽量ネットワークは一部のレイヤーのパラメータを共有しており、共有パラメータはネットワーク構造の変化に応じて変化する可能性があります。一般的に、2 つのネットワークは下位層を共有できます。ニューラルネットワークでは、低層を使用して情報表現を学習することができ、低層ネットワークを共有することで軽量ネットワークの情報表現機能を向上させることができます。

方法論フレームワーク:

図1: ネットワーク構造

図 1 に示すように、トレーニングフェーズでは、Light Net と Booster Net の 2 つのネットワークを同時に学習し、2 つのネットワークがいくつかの情報を共有します。私たちは、ほとんどのモデルを表現層の学習と判別層の学習として理解しています。表現層は入力情報の高レベルの処理を学習し、判別層は現在のサブタスクの目標に関連して学習します。私たちは、マルチタスク学習における考え方のように、表現層の学習は共有できると考えています。したがって、私たちの方法では、共有される情報は基礎となるパラメータ（画像フィールドの最初のいくつかの畳み込み層や NLP の埋め込みなど）です。これらの基礎となるパラメータは、入力情報の基本的な特性をある程度反映できます。

トレーニングプロセス全体を通して、ネットワーク損失は次のようになります。

損失は 3 つの部分で構成されます。最初の項目はライトネットによるグラウンドトゥルースの学習、2 番目の項目はブースターネットによるグラウンドトゥルースの学習、3 番目の項目は 2 つのネットワークのソフトマックス前のロジットの平均二乗誤差 (MSE) です。この項目は、2 つのネットワークによって学習されたロジットを可能な限り類似させるためのヒント損失として使用されます。

共同トレーニング

2 つのネットワークは一緒にトレーニングされるため、ブースターネットはプロセス全体を通じて軽量ネットワークの学習を監督します。ある程度、ブースターネットは軽量ネットのソリューションプロセス全体をガイドします。これは、大規模なモデルを学習し、大規模なモデルの固定出力のみをソフトターゲットとして使用して小規模ネットワークの学習を監督する一般的な教師と生徒のパラダイムとは明らかに異なります。ブースターネットの各反復出力は、ラベルに非常に近い予測値を保証することはできませんが、このソリューションに到達することは、最終的な収束ソリューションを見つけることに役立ちます。

ヒント損失

グラデーションブロック

実験結果

実験的に、方法の各サブ部分の必要性を検証しました。同時に、Knowledge Distillation (KD) や Attention Transfer (AT) など、公開データセット上のいくつかの教師-生徒方式と比較しました。現在主流の AT と公平に比較するために、AT と同じネットワーク構造である Wide Residual Network (WRN) を採用しました。実験ネットワーク構造は次のとおりです。

図2: 実験で使用したネットワーク構造

赤+黄色はライトネット、青+赤はブースターネットを示します。 (a) は、2 つのネットワークが最下位レベルのブロックを共有していることを示しています。これは、一般的な共有構造設計と一致しています。 (b) は、2 つのネットワークが各グループの最下位ブロックを共有していることを示しています。この共有方法は、AT が各グループの後に注意の転送を実行するという概念と一致しています。

それぞれのイノベーションの効果

さまざまな比較実験を通じて、パラメータの共有と勾配の固定によって効果が向上することを検証しました。

さまざまなLOSS効果の比較

軽量ネットワーク層数の変化による影響図

ブースターネットを固定し、ライトネットの層数を変更することで、ロケット打ち上げは常にKDよりも優れたパフォーマンスを達成します。これは、ライトネットがブースターネットから常に貴重な情報を取得できることを示しています。

視覚化

可視化実験を通じて、私たちの方法により、ライトネットがブースターネットの基礎となるグループの特徴表現を学習できることが分かりました。

公開データセットの結果の比較

独自の方法の有効性を検証することに加えて、公開データセットに対していくつかの実験も実施しました。

CIFAR-10 では、さまざまなネットワーク構造とパラメータ共有方法を試しましたが、私たちの方法は既存の教師-生徒方式よりも大幅に優れていました。ほとんどの実験設定では、KDを重ね合わせることでさらに改善できる。

ここで、WRN-16-1,0.2M は、深さ 16、幅 1、パラメータサイズ 0.2M の広い残差ネットを意味します。

同時に、CIFAR-100とSVHNで優れたパフォーマンスを達成しました。

現実世界のアプリケーション

同時に、Alibaba ディスプレイ広告データセットでは、単にライトネットを実行する場合と比較して、当社の方法により GAUC が 0.3% 向上します。

私たちのオンラインモデルは、バックエンドでパラメータ数と完全接続層の深さを増やすことで改善できます。ただし、モデルがオンラインの場合、計算時間の大部分は完全接続層で消費されます (埋め込みは単なるフェッチ操作であり、パラメータ数の増加によって時間消費が大幅に増加することはありません)。そのため、バックエンドで深くて広いモデルを直接起動するのはストレスになります。次の表に、モデルパラメータの比較とオフライン効果の比較を示します。

要約する

オンライン応答時間はオンラインシステムにとって重要です。本論文で提案されたロケット打ち上げ訓練フレームワークは、予測時間を増加させることなくモデルの予測効果を向上させます。これは、オンライン応答モデルの効果を改善するための新しいアイデアを提供します。現在、Rocket Launchingフレームワークは、オンラインCTR推定システムに信頼性の高いソリューションを提供し、オンライン応答時間制限とモデル構造の複雑さの間の矛盾を緩和します。当社の技術は、オンライン計算が8倍圧縮されても同じパフォーマンスを実現できます。これにより、オンラインサービスマシンの日常的なリソース消費を削減でき、Double Eleven などのトラフィックピークシナリオでもアルゴリズムテクノロジが低下しないようにする信頼性の高いソリューションとなります。