Tencent TRS: 産業実践におけるメタ学習とクロスドメイン推奨

1. メタ学習

1. パーソナライズモデリングの問題点

推奨シナリオでは、データの 80% 分布の問題に遭遇します。サンプルの 80% がシナリオの 20% に適用され、単一のモデルの方が大規模なシナリオ推定に適しているという問題が発生します。さまざまなシナリオを考慮してモデルのパーソナライズ機能を向上させる方法が、パーソナライズされたモデリングの問題点です。

業界ソリューション:

PPNet/Poso: このモデルは、バイアスゲートなどを通じてパーソナライゼーションを実現し、パフォーマンスとコストが優れています。ただし、複数のシナリオがモデルパラメータのセットを共有し、パーソナライズされた表現には制限があります。
オンエンドのパーソナライゼーション: モデルは各エンドに展開され、エンドのリアルタイムデータを使用してトレーニングされ、エンドモデルのパラメータがパーソナライズされます。ただし、これはエンドのパフォーマンスに依存し、モデルが大きすぎることはできません。トレーニングには小さなモデルを使用する必要があります。

業界モデルに存在する問題に対応して、次の解決策を提案しました。

クラウドの豊富なコンピューティング能力を活用して各シナリオのモデルを展開し、モデルの究極のパーソナライズを実現します。
このモデルは非常に汎用性が高く、ユーザー/群衆/アイテムなどのパーソナライズされたモデリングシナリオに適用できます。

2. メタ学習はモデルのパーソナライゼーションの問題を解決する

要件: コストやパフォーマンスを損なうことなく、各ユーザーまたはグループにパーソナライズされたモデルを展開します。
ソリューションの選択: モデル構造とモデルパラメータが異なるモデルをユーザーごとに展開すると、モデルのトレーニングとサービスのコストが比較的高くなります。モデルのパーソナライズの問題を解決するために、同じモデル構造の下で各シナリオにパーソナライズされたモデルパラメータを提供することを検討します。
展開場所: モデルをクラウド上に展開し、クラウド上の豊富なコンピューティング能力を計算に活用すると同時に、クラウド上のモデルを柔軟に制御したいと考えています。
アルゴリズムのアイデア: 従来のメタ学習は、サンプル数が少ないことやコールドスタートの問題を解決します。アルゴリズムを完全に理解することで、推奨の分野では、メタ学習の革新性を利用して、モデルの極端なパーソナライズの問題を解決します。

全体的な考え方は、メタ学習を使用してクラウド内の各ユーザー向けにパーソナライズされたモデルパラメータのセットを展開し、最終的にコストとパフォーマンスの損失がない効果を実現することです。

3. メタ学習入門

メタ学習とは、新しいタスクをガイドするための一般的な知識を学習し、ネットワークが迅速に学習できるようにするアルゴリズムを指します。例えば、上図では、分類タスクは猫と鳥、花と自転車です。この分類タスクをK-short N-class分類タスクと定義し、メタ学習を通じて分類知識を学習することを期待しています。推定の微調整プロセスでは、犬やカワウソなどの分類タスクでは、非常に少ないサンプルで微調整することで究極の推定効果が得られることを期待しています。別の例を挙げると、四則演算の混合演算を学ぶときは、まず加算と減算を学び、次に乗算と除算を学びます。この 2 つの知識を習得すると、この 2 つの知識を統合して計算する方法を学ぶことができます。加算、減算、乗算、除算の混合演算については、個別に計算するのではなく、加算、減算、乗算、除算に基づいて、最初に乗算と除算の演算規則を学び、次に加算と減算を学び、いくつかのサンプルを使用してこの規則をトレーニングします。これにより、この規則をすばやく理解し、新しい推定データでより良い結果を得ることができます。メタ学習の考え方もこれに似ています。

従来の学習方法の目標は、すべてのデータに対して最適な θ、つまりグローバル最適 θ を学習することです。メタ学習では、タスクを次元として使用してシナリオの一般性を学習し、すべてのシナリオで損失を最適化できるようにします。従来の学習方法で学習された θ は、大規模なシーンの母集団に近く、大規模なシーンの推定には優れていますが、ミッドテールとロングテールの推定には平均的な効果があります。メタ学習とは、すべてのシーンに類似したポイントを学習し、各シーンのデータまたは新しいシーンのデータを使用してこの点を微調整し、各シーンの最適なポイントに到達することです。したがって、各シナリオでパーソナライズされたモデルパラメータを構築し、究極のパーソナライズの目標を達成することが可能になります。上記の例では、群衆をメタ学習のタスクとして使用していますが、これはユーザーやアイテムをタスクとしてモデル化する場合にも適用できます。

メタ学習には 3 つのタイプがあります。

メトリックベースの方法: KNN や K-means などのメトリック学習方法を使用して、新しいシーンと既存のシーン間の距離を学習し、それらがどのカテゴリに属するかを推定します。代表的なアルゴリズムは、畳み込みシャム、ニューラルネットワーク、マッチングネットワーク、プロトタイプネットワークです。
モデルベースの方法: メモリまたは RNN を通じてモデルパラメータを迅速に学習します。代表的なアルゴリズムは、メモリ拡張、ニューラルネットワークです。
最適化ベースの方法：近年人気の高い方法です。勾配降下法を使用して各シナリオの損失を計算し、最適なパラメータを取得します。代表的なアルゴリズムはMAMLで、現在パーソナライズされたモデリングに使用されています。

4. メタ学習アルゴリズム

モデル非依存メタ学習 (MAML) は、モデル構造に依存せず、一般化に適したアルゴリズムです。メタトレーニングと微調整の 2 つの部分に分かれています。

メタトレインには初期化θがあり、シーンサンプリングとシーン内サンプルサンプリングの2つのサンプリングを実行します。最初のステップはシーンのサンプリングです。このサンプリングラウンドでは、サンプルの総数は 100,000 または数百万のタスクで、数百万のタスクから n タスクがサンプリングされます。2 番目のステップでは、各シーンのバッチサイズのサンプルをサンプリングし、バッチサイズのサンプルを 2 つの部分に分割します。1 つはサポートセット、もう 1 つはクエリセットです。サポートセットを使用して、確率的勾配降下法で各シーンの θ を更新します。3 番目のステップでは、クエリセットを使用して各シーンの損失を計算します。4 番目のステップでは、すべての損失を合計し、勾配を θ に戻します。終了条件が満たされるまで、全体として複数ラウンドの計算を実行します。
このうち、サポートセットはトレーニングセット、クエリセットは検証セットとして理解できます。

微調整プロセスはメタトレーニングプロセスと非常によく似ています。θ を特定のシナリオに配置し、シナリオのサポートセットを取得し、勾配降下法 (SGD) を使用してシナリオの最適なパラメータを取得します。タスクシナリオでスコアリングされるサンプル (クエリセット) を使用して推定結果を生成します。

5. メタ学習産業化の課題

メタ学習アルゴリズムを産業シナリオに適用するのは非常に困難です。メタ学習アルゴリズムのメタトレーニングプロセスには、シーンサンプリングとサンプルサンプリングの 2 つのサンプリングが含まれます。サンプルは、シーンの順序に従って整理、保存、処理する必要があります。同時に、サンプルとシーンの対応関係を保存するための辞書テーブルが必要です。このプロセスは、大量のストレージスペースとコンピューティングパフォーマンスを消費します。同時に、サンプルは消費のためにワーカーに配置する必要があり、これは産業シナリオにとって大きな課題となります。

次のような解決策があります。

解決策 1: メタトレーニングバッチでサンプル選択を実行します。同時に、数千万規模のモデルトレーニングのために、無限フレームワークを修正して、メタ学習サンプル編成と数千万規模のモデルトレーニングをサポートします。従来のモデル展開方法では、各シナリオにモデルのセットを展開しますが、その結果、モデルのサイズが数千万と非常に大きくなり、トレーニングとサービスにかかるコストが増加します。呼び出しと解放のアプローチを採用し、モデルパラメータのセットを 1 つだけ保存することで、モデルサイズの増加を回避します。同時に、パフォーマンスを節約するために、コアネットワーク部分のみを学習します。
解決策 2: 提供プロセス中に微調整します。従来のサンプル保存リンクでは、サンプルの維持コストが高くなります。そのため、従来の方法を放棄し、中間層のデータのみをメタ学習の入力として保存します。

6. メタ学習ソリューション

まず、メタトレーニングでバッチ内のシーンとサンプルの選択を実装します。各バッチには複数のデータがあり、各データはタスクに属します。これらのデータはバッチでタスクに従って抽出され、抽出されたサンプルはメタトレーニングプロセスに投入されます。これにより、シーン選択とサンプル選択の処理リンクのセットを個別に維持する必要があるという問題が解決されます。

実験研究と論文の閲覧を通じて、微調整とメタ学習の過程で、推定層に近いほどモデルの推定効果への影響が大きいことがわかりました。同時に、emb層はモデルの推定効果に大きな影響を与え、中間層は推定効果に大きな影響を与えません。そのため、メタ学習では推定層に近いパラメータのみを選択するという考えです。コストの観点から、emb 層は学習コストを増加させるため、emb 層ではメタ学習のトレーニングは実行されません。

全体的なトレーニングプロセスでは、上図の MMoe トレーニングネットワークに示すように、タワーレイヤーのパラメータを学習し、他のシーンのパラメータは元のトレーニング方法に従って学習されます。サンプルはユーザーディメンションに基づいて整理されます。各ユーザーには独自のトレーニングデータがあります。トレーニングデータは 2 つの部分に分かれています。1 つはサポートセット、もう 1 つはクエリセットです。サポートセットでは、ローカルコンテンツのみを学習してタワー更新とパラメータトレーニングを実行し、クエリセットデータを使用してネットワーク全体の損失を計算し、勾配をフィードバックしてネットワーク全体のパラメータを更新します。

したがって、トレーニングプロセス全体は次のようになります。ネットワーク全体の元のトレーニング方法は変更されません。メタ学習はコアネットワークのみを学習します。コストの観点から、埋め込みはメタ学習に参加しません。損失 = 元の損失 + メタ損失。fintune の場合、emb が保存されます。サービングプロセスでは、emb を使用してコアネットワークを微調整し、スイッチを使用してメタ学習を制御し、オンとオフを切り替えることができます。

従来のサンプル保存方法では、提供プロセス中に直接微調整を実行すると、サンプル保存リンクのセットをオンラインで維持する必要があり、複数のオンライン実験セットには複数のサンプルセットの維持が必要になるなど、深刻な問題が発生します。同時に、微調整プロセスでは、元のサンプルを使用して微調整を行います。サンプルは、emb レイヤー、ボトムレイヤー、メタ学習レイヤーを通過する必要がありますが、メタ学習は、サービングプロセスでメタ学習レイヤーのみを学習する必要があり、他の部分は考慮しません。サービングプロセス中にモデルへのメタ学習入力のみを保存することを検討します。これにより、サンプルリンクのメンテナンスを節約し、一定の効果を達成できます。emb部分のみを保存すると、この部分の計算コストとメンテナンスコストを節約できます。

私たちは以下のアプローチを使用します。

ストレージはモデルのルックアップテーブルに配置されます。ルックアップテーブルは密な変数と見なされ、PS に保存されます。すべてのパラメータはワーカーにプルされます。更新されると、すべての変数にプッシュされるため、ネットワーク時間の消費が増加します。もう 1 つの方法は、無限ハッシュテーブルを使用することです。ハッシュテーブルは、キーと値の形式で保存されます。キーはシーンで、値はメタレイヤーの入力です。この方法の利点は、必要なシーンの入力レイヤーを PS からプッシュまたはプルするだけで済むため、全体的なネットワーク時間が節約されることです。したがって、このメソッドをサンプリングして、メタレイヤーの入力を保存します。同時に、メタ学習レイヤーをモデルに保存すると、モデルが大きくなり、古くなり、現在のモデルと互換性がなくなる可能性があります。この問題を解決するために、時間除去、つまり期限切れの埋め込みを除去します。これにより、モデルが小さくなるだけでなく、リアルタイムの問題も解決されます。

このモデルは、サービング段階で埋め込みを使用します。埋め込みは最下層に入力されます。スコアリングの際には、元の方法は使用されません。代わりに、メタ学習層を使用してサポートセット内のデータを取得し、この層のパラメータを更新し、更新されたパラメータを使用してスコアリングを行います。このプロセスは GPU では計算上不可能なので、CPU で実行します。同時に、Wuliang GPU 推論は自動バッチマージを実行し、複数のリクエストをマージし、マージされたリクエストを GPU 上で計算します。このように、バッチの増加に応じて勾配が変化します。この問題に対処するために、バッチと勾配に基づいて num ディメンションを追加します。勾配を計算するときに、勾配の安定性を維持するために、num に応じて grad を追加して処理します。最終的には、コストとパフォーマンスを制御できるようになり、何千もの環境と何千ものモデルが実現されます。

7. メタ学習産業化の実践

フレームワークとコンポーネントの助けを借りて、メタ学習は一般化されます。ユーザーがシステムにアクセスするときは、モデルコードを変更するだけで済みます。トレーニングとサービングについて心配する必要はありません。サポートセットの読み取りおよび書き込みインターフェイス、メタトレーニングおよび微調整実装インターフェイス、GPU サービング適応インターフェイスなど、実装したインターフェイスを呼び出すだけで済みます。ユーザーは、損失、タスク入力、ラベルなどのビジネス関連のパラメータを渡すだけで済みます。この設計により、アルゴリズムエンジニアは研究、開発、実験、試行錯誤のコストを節約でき、アルゴリズムの反復効率が向上します。同時に、ユニバーサルコードは複数のビジネスシナリオに対応できるため、人的資源コストとリソースコストを節約できます。

デュアルタワーリコールシナリオでのメタ学習の使用は、ユーザータワーとアイテムタワーを含むユーザーディメンションに基づいてモデル化することです。このモデルの利点は、プラグイン可能で、サンプルやオンラインアーキテクチャを変更する必要がなく、安定していてリスクがないことです。欠点は、サポートセットが前の 1 時間のデータであるため、リアルタイムの問題があることです。

メタ学習のもう1つの応用シナリオは、シーケンスリコールシナリオです。このシナリオでは、ユーザーをモデリングのシナリオとして使用し、ユーザーの行動シーケンスをサポートセットとして使用します。ユーザー行動シーケンスには、正のサンプルのみが含まれます。負のサンプルキューを維持し、サンプリングキュー内のサンプルを負のサンプルとして使用し、正のサンプルと結合してサポートセットとして使用します。これを行う利点は、リアルタイムパフォーマンスが向上し、コストが削減されることです。

最後に、メタ学習は、上図の MMoe ファインチューニングモデルなどのソートシナリオにも適用されます。実装には、ファインチューニングのみを使用する方法と、メタトレーニングとファインチューニングを同時に使用する方法の 2 つの方法があります。 2 番目の実装方法の方が効果的です。

メタ学習はさまざまなシナリオで良好な結果を達成しました。

2. クロスドメイン推奨

1. クロスドメインレコメンデーションの問題点

各シーンには複数の推奨エントリがあり、シーンごとにリコール、粗いソートから細かいソートへのリンクのセットを確立する必要があり、コストが非常にかかります。特に小規模なシナリオや中規模およびロングテールのトラフィックでは、データがまばらであり、最適化スペースが限られています。コストを節約し、結果を改善するために、製品内の同様の推奨エントリ、オフライントレーニング、オンラインサービスのサンプルを 1 つのセットに統合できますか?

しかし、そうするにはいくつかの課題があります。ブラウザで顧愛玲を検索すると、関連する検索語が表示されます。特定のコンテンツをクリックして戻った後、結果をクリックすると推奨事項が表示されます。両者のトラフィックシェア、クリックスルー率、機能の分布はかなり異なり、推定ターゲットにも違いがあります。

クロスドメインモデルをマルチタスクモデルとして使用すると、深刻な問題が発生し、良好な成果が得られません。

Tencent でクロスシナリオモデリングを実装するのは非常に困難です。まず、他社では2つのシナリオの特徴は1対1で対応できますが、テンセントのクロスドメインレコメンデーション分野では、2つのシナリオの特徴を合わせることができません。サンプルは1つのシナリオにしか属せず、データの分布が大きく異なり、推定対象を合わせることが困難です。

上記の方法は、Tencent のクロスドメイン推奨シナリオのパーソナライズされたニーズを処理するために使用されます。共通機能に対して共有埋め込みを実行し、シーン固有の機能には独自の独立した埋め込み空間があります。モデル部分には、共有エキスパートとパーソナライズエキスパートがあります。すべてのデータは共有エキスパートに流れ込み、各シーンのサンプルには独自のパーソナライズエキスパートが存在します。共有エキスパートとパーソナライズエキスパートは、パーソナライズゲートを介して融合され、タワーに入力されます。スターメソッドは、異なるシーンのスパースターゲットの問題を解決するために使用されます。エキスパート部分では、シェアボトム、MMoE、PLE、ビジネスシナリオの完全なモデル構造など、任意のモデル構造を使用できます。この方法の利点は、モデルの汎用性が高く、さまざまなモデルの統合に適していること、シーンエキスパートを直接移行できるため、元のシーン効果が損なわれず、シーン間の知識転送効果が向上すること、融合後にモデルが縮小され、トレーニング速度が向上し、コストが節約されることです。

ユニバーサル構築を実施しました。赤い部分は、パーソナライズされた機能、パーソナライズされたモデル構造など、パーソナライズされたアクセスが必要なコンテンツです。ユーザーはパーソナライズされたコードを書くだけで済みます。その他の部分については、コードセット全体をModelZooに接続して直接継承して使用できるようにし、機械学習プラットフォームのワークフローコンポーネントにカプセル化して直接実行できるようにしました。このアプローチにより、マルチシナリオ学習の研究とアクセスのコストが削減されます。

この方法ではサンプルサイズが増加し、モデル構造が複雑になりますが、効率は向上します。理由は次のとおりです。一部の特徴が共有されているため、融合後の特徴の数は 2 つのシーンの特徴の合計よりも少なくなります。共有埋め込み機能により、バッチ内のキー平均は 2 つのシーンの合計よりも小さくなります。サーバーからのプルまたはプッシュの時間が短縮されるため、通信時間が節約され、全体的なトレーニング時間が短縮されます。

複数のシナリオを統合することで、全体的なコストを削減できます。オフラインサンプル処理ではコストを 21% 削減でき、CPU を使用してデータを追跡するとコストを 24% 節約でき、モデルの反復時間を 40% 短縮できます。オンライントレーニングコスト、オンラインサービスコスト、モデルサイズをすべて削減できるため、リンク全体のコストを削減できます。同時に、複数のシーンのデータを融合することは GPU コンピューティングに適しており、2 つの単一シーン CPU を GPU に融合すると、さらにコストを節約できます。

クロスドメイン推奨はさまざまな方法で使用できます。 1つ目は、複数のシーンと単一のターゲットのモデル構造です。マルチシーンモデリングアーキテクチャは直接使用できますが、タワー側のスターを使用することは推奨されません。2つ目は、複数のシーンと複数のターゲットの融合です。マルチシーンモデリングフレームワークは直接使用できます。3つ目は、同じ細かいランキング製品に対する異なるターゲットモデルの融合です。マルチシーンモデリングフレームワークは直接使用できます。タワー側のスターを使用することは推奨されません。最後は、現在進行中の、同じ製品の複数のリコールと粗いランキングモデルの融合です。

クロスドメインの推奨により、結果が改善されるだけでなく、コストも大幅に節約できます。

<<: エコノミスト：AI産業の急成長によりサンフランシスコの雇用は38％回復

>>: テクノロジーはサプライチェーンの未来をどう変えるのか