まとめクリックスルー率の推定などのオンラインリアルタイム応答システムでは、応答時間に関して非常に厳しい要件があります。複雑な構造と深いレイヤーを持つディープモデルでは、厳しい応答時間の制約を十分に満たすことができません。応答時間の制限を満たす優れた性能を持つモデルを得るために、私たちは新しいフレームワークを提案しました。トレーニングフェーズでは、複雑性が大きく異なる2つのネットワークを同時にトレーニングします。単純なネットワークは軽量ネットワーク(ライトネット)と呼ばれ、複雑なネットワークはブースターネットワーク(ブースターネット)と呼ばれます。前者と比較して、より強力な学習能力を備えています。 2 つのネットワークはいくつかのパラメータを共有し、カテゴリ ラベルを個別に学習します。さらに、軽量ネットワークはブースターのソフト ターゲットを学習することでブースターの学習プロセスを模倣し、より優れたトレーニング結果を実現します。テスト段階では、予測には軽量ネットワークのみが使用されます。私たちのアプローチは「ロケット打ち上げ」システムと呼ばれています。公開データセットと Alibaba のオンライン ディスプレイ広告システムでは、当社の方法はオンライン応答時間を増加させることなく予測効果を向上させ、オンライン モデルの適用における大きな価値を実証しています。 背景応答時間は、オンライン応答システムの有効性とユーザー エクスペリエンスを直接決定します。たとえば、オンライン ディスプレイ広告システムでは、1 人のユーザーに対して、数百の候補広告のクリックスルー率を数ミリ秒以内に推定する必要があります。したがって、厳しい応答時間内でモデルのオンライン予測効果をどのように向上させるかが、業界が直面している大きな課題です。 既存の方法現在、モデル応答時間の問題を解決するには 2 つの方法があります。 一方では、モデル構造とパラメータが固定されている条件下では、数値圧縮を使用して推論時間を短縮できます。同時に、Mobile NetやShuffleNetなど、より合理化されたモデルを設計し、モデルの計算方法を変更する取り組みもあります。 一方、複雑なモデルは、合理化されたモデルのトレーニングを支援するために使用されます。テストフェーズでは、KD や MIMIC などの十分に学習された小さなモデルが推論に使用されます。これら 2 つのソリューションは互いに矛盾しません。ほとんどの場合、2 番目のソリューションは最初のソリューションよりも推論時間をさらに短縮できます。同時に、厳格なオンライン応答時間と比較して、より多くの自由なトレーニング時間と複雑なモデルをトレーニングする能力があることを考慮して、2 番目のアイデアを採用して方法を設計しました。 研究の動機と革新ロケットの打ち上げでは、最初の段階ではブースターと機体が一緒に前進します。第 2 段階では、ブースターが分離し、機体だけが前進します。私たちのフレームワークでは、トレーニングフェーズでは、複雑なネットワークと単純なネットワークの 2 つのネットワークが一緒にトレーニングされます。複雑なネットワークはブースターとして機能し、パラメータの共有と情報提供を通じて軽量ネットワークのトレーニングを促進します。予測フェーズでは、ブースター ネットワークはシステムから分離され、軽量ネットワークが単独で動作するため、予測のオーバーヘッドを増やすことなく予測効果が向上します。全体のプロセスはロケットの打ち上げに似ているため、このシステムを「ロケット打ち上げ」と名付けました。 トレーニング方法の革新 私たちのフレームワークの革新性は、その斬新なトレーニング アプローチにあります。 1. 従来のモデルと簡略化されたモデルを一緒にトレーニングします。共同トレーニングの利点は次のとおりです。 a) 一方で、総トレーニング時間が短縮されます。教師ネットワークと生徒ネットワークが別々にトレーニングされる従来の教師-生徒パラダイムと比較して、私たちの共同トレーニングプロセスは総トレーニング時間を短縮します。これは、毎日大量のトレーニングデータを取得し、モデルを継続的に更新するオンライン広告システムなどのシナリオに非常に役立ちます。 b) 一方、ブースターネットワークは、プロセス全体を通じて軽量ネットワークにソフトターゲット情報を提供し、ソリューションプロセス全体で軽量ネットワークをガイドします。従来の方法と比較して、私たちの方法はより多くのガイダンス情報を取得し、より良い結果を達成します。 2. 勾配固定技術の使用: トレーニング フェーズでは、類似したソフト ターゲットを持つ 2 つのネットワークの損失は制限され、ブースター ネットワークを更新せずに軽量ネットワークの勾配更新にのみ使用されます。これにより、ブースター ネットワークは軽量ネットワークの影響を受けず、実際のラベルからのみ情報を学習します。この技術により、ブースター ネットワークはより優れたモデルを学習する自由度が高まり、ブースター ネットワークの効果が向上すると、軽量ネットワークのトレーニング効果も向上します。 構造革新 ブースター ネットワークと軽量ネットワークは一部のレイヤーのパラメータを共有しており、共有パラメータはネットワーク構造の変化に応じて変化する可能性があります。一般的に、2 つのネットワークは下位層を共有できます。ニューラル ネットワークでは、低層を使用して情報表現を学習することができ、低層ネットワークを共有することで軽量ネットワークの情報表現機能を向上させることができます。 方法論フレームワーク:図1: ネットワーク構造 図 1 に示すように、トレーニング フェーズでは、Light Net と Booster Net の 2 つのネットワークを同時に学習し、2 つのネットワークがいくつかの情報を共有します。私たちは、ほとんどのモデルを表現層の学習と判別層の学習として理解しています。表現層は入力情報の高レベルの処理を学習し、判別層は現在のサブタスクの目標に関連して学習します。私たちは、マルチタスク学習における考え方のように、表現層の学習は共有できると考えています。したがって、私たちの方法では、共有される情報は基礎となるパラメータ(画像フィールドの最初のいくつかの畳み込み層や NLP の埋め込みなど)です。これらの基礎となるパラメータは、入力情報の基本的な特性をある程度反映できます。 トレーニングプロセス全体を通して、ネットワーク損失は次のようになります。 損失は 3 つの部分で構成されます。最初の項目はライト ネットによるグラウンド トゥルースの学習、2 番目の項目はブースター ネットによるグラウンド トゥルースの学習、3 番目の項目は 2 つのネットワークのソフトマックス前のロジットの平均二乗誤差 (MSE) です。この項目は、2 つのネットワークによって学習されたロジットを可能な限り類似させるためのヒント損失として使用されます。 共同トレーニング 2 つのネットワークは一緒にトレーニングされるため、ブースター ネットはプロセス全体を通じて軽量ネットワークの学習を監督します。ある程度、ブースター ネットは軽量ネットのソリューション プロセス全体をガイドします。これは、大規模なモデルを学習し、大規模なモデルの固定出力のみをソフト ターゲットとして使用して小規模ネットワークの学習を監督する一般的な教師と生徒のパラダイムとは明らかに異なります。ブースター ネットの各反復出力は、ラベルに非常に近い予測値を保証することはできませんが、このソリューションに到達することは、最終的な収束ソリューションを見つけることに役立ちます。 ヒント損失 グラデーションブロック 実験結果実験的に、方法の各サブ部分の必要性を検証しました。同時に、Knowledge Distillation (KD) や Attention Transfer (AT) など、公開データセット上のいくつかの教師-生徒方式と比較しました。現在主流の AT と公平に比較するために、AT と同じネットワーク構造である Wide Residual Network (WRN) を採用しました。実験ネットワーク構造は次のとおりです。 図2: 実験で使用したネットワーク構造 赤+黄色はライトネット、青+赤はブースターネットを示します。 (a) は、2 つのネットワークが最下位レベルのブロックを共有していることを示しています。これは、一般的な共有構造設計と一致しています。 (b) は、2 つのネットワークが各グループの最下位ブロックを共有していることを示しています。この共有方法は、AT が各グループの後に注意の転送を実行するという概念と一致しています。 それぞれのイノベーションの効果さまざまな比較実験を通じて、パラメータの共有と勾配の固定によって効果が向上することを検証しました。 さまざまなLOSS効果の比較軽量ネットワーク層数の変化による影響図ブースターネットを固定し、ライトネットの層数を変更することで、ロケット打ち上げは常にKDよりも優れたパフォーマンスを達成します。これは、ライトネットがブースターネットから常に貴重な情報を取得できることを示しています。 視覚化可視化実験を通じて、私たちの方法により、ライトネットがブースターネットの基礎となるグループの特徴表現を学習できることが分かりました。 公開データセットの結果の比較独自の方法の有効性を検証することに加えて、公開データセットに対していくつかの実験も実施しました。 CIFAR-10 では、さまざまなネットワーク構造とパラメータ共有方法を試しましたが、私たちの方法は既存の教師-生徒方式よりも大幅に優れていました。ほとんどの実験設定では、KDを重ね合わせることでさらに改善できる。 ここで、WRN-16-1,0.2M は、深さ 16、幅 1、パラメータ サイズ 0.2M の広い残差ネットを意味します。 同時に、CIFAR-100とSVHNで優れたパフォーマンスを達成しました。 現実世界のアプリケーション同時に、Alibaba ディスプレイ広告データセットでは、単にライトネットを実行する場合と比較して、当社の方法により GAUC が 0.3% 向上します。 私たちのオンラインモデルは、バックエンドでパラメータ数と完全接続層の深さを増やすことで改善できます。ただし、モデルがオンラインの場合、計算時間の大部分は完全接続層で消費されます (埋め込みは単なるフェッチ操作であり、パラメータ数の増加によって時間消費が大幅に増加することはありません)。そのため、バックエンドで深くて広いモデルを直接起動するのはストレスになります。次の表に、モデル パラメータの比較とオフライン効果の比較を示します。 要約するオンライン応答時間はオンライン システムにとって重要です。本論文で提案されたロケット打ち上げ訓練フレームワークは、予測時間を増加させることなくモデルの予測効果を向上させます。これは、オンライン応答モデルの効果を改善するための新しいアイデアを提供します。現在、Rocket Launchingフレームワークは、オンラインCTR推定システムに信頼性の高いソリューションを提供し、オンライン応答時間制限とモデル構造の複雑さの間の矛盾を緩和します。当社の技術は、オンライン計算が8倍圧縮されても同じパフォーマンスを実現できます。これにより、オンライン サービス マシンの日常的なリソース消費を削減でき、Double Eleven などのトラフィック ピーク シナリオでもアルゴリズム テクノロジが低下しないようにする信頼性の高いソリューションとなります。 ソースロケット発射: 高性能なライトネットを訓練するための普遍的で効率的なフレームワーク チーム名: Alimama Business Unit 著者: 周国瑞、ファン・イン、ビアン・ウェイジエ、チュー・シャオチアン、ガイ・クン 完全版はこちら: PDF |
<<: アリババAIチームが米国CES展示会に参加、外国人は新たな4大発明のアップグレードを賞賛!
>>: Python のデータクロール、分析、マイニング、機械学習、Python 分散コンピューティングに関するコンテンツ共有
ドローンは警報装置、検出器、カメラなどを搭載し、多くの機能を実現でき、セキュリティ監視、スマートビル...
序文Matplotlib は、データの視覚化を簡単に作成できる人気の Python ライブラリです。...
経験とデータに基づく革命統計革命は 1990 年代初頭に人工知能 (AI) に広がり、2000 年代...
「人間は見たことのないものを想像することはできない」ということわざがあります。したがって、ほとんどの...
[[411040]]畳み込みニューラル ネットワーク (CNN) は、その強力な畳み込み機能とプーリ...
AI は、クラウドの管理と運用に大変革をもたらすものとして台頭しています。しかし、AI とクラウド ...
[[283641]]機械学習モデルを API にパッケージ化することにまだ不安がありますか?このツ...
8月8日、OpenAIのGPTモデルのトレーニングには大量のネットワークデータが必要であり、データ...
[51CTO.com からのオリジナル記事] 顔認識技術は新しいものではありません。多くの人が携帯...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...