タオバオの推奨シナリオのための強力なツール：複雑な目的を統合し、リアルタイムの規制をサポートする再注文モデル

1. 情報フローシナリオの課題と並べ替えモデルの独自の利点

多くの学生は再ランキングに馴染みがないかもしれません。次の図は、業界で一般的な推奨システムのパイプラインです。ユーザーがタオバオモバイルにアクセスすると、数億の候補プールから数万の商品が呼び出されます。数万の商品は粗いランキングモデルに渡されてスコアリングされ、その中から数千の商品が選択されて細かいランキングモデルに渡されます。細かいランキングモデルは数十または数百の商品を再ランキングモデルに渡してさらにスコアリングします。

重量と効率の観点から見ると、先行モジュールの重量は非常に大きく、効率要件も非常に高くなります。スコアリングの量が減ると、効率は徐々に低下します。ここでの効率とは、1 つの製品をスコアリングするために必要な計算量を指します。より多くの計算能力が消費されるからこそ、後続のモデルのスコアリング精度も高くなるのです。

再配置は、2018年にアリババの荘涛氏によって初めて正式に提案された概念です。文字通り、物事を再び再配置することを意味します。スコアリングと精度に加えて、再配置モデルと以前のモデルとの大きな違いは、コンテキスト情報と呼ばれる、モデル化された項目間の相互作用を示すことです。

例えば、上の写真の商品がTaobao Mobileでユーザーに表示されると、中央の商品は色やサイズが周囲の商品と大きく異なるため、ユーザーがこの商品をクリックする可能性が高くなります。これはコンテキスト情報の非常に典型的な応用例です。

次の図は、複雑な情報フローのシナリオが現在直面している課題と、並べ替えの独自の利点を示しています。

右の2つのスクリーンショットは、Taobaoモバイルアプリのものです。おすすめボタンを少し下にスクロールすると、[Guess You Like]ビジネスが表示されます。その商品形式は2列フローです。いわゆるフローとは、ユーザーが継続的にスクロールダウンし、フローがスクロールダウンするにつれてより多くの情報を受け取ることができることを意味します。この製品形式は情報フローと呼ばれます。複雑と呼ばれる理由は、ライブ放送、製品、写真、テキスト、ビデオ、そして時々ユーザー調査関連のコンテンツが含まれているためです。おすすめの横にはフォローボタンがあります。このストリームには、ユーザーがTaobao Mobileでフォローしている店舗やインフルエンサーに関連するコンテンツが表示されます。大きなカードの1列のストリームです。商品の場合は、通常、商品リストの形式で表示されます。

後で共有する実験結果はすべて「フォロー」フローからのものです。これら 2 つのシナリオは、取引を促進することだけを目的とした、同じ店舗での 6 マスのグリッドの商品推奨など、単純な目標を持つ他の推奨シナリオとは異なります。このような複雑な情報フローのシナリオでは、多くの課題があります。

1 つ目のポイントは、コンテンツを分割して、画面をコンテンツでいっぱいにすることです。店舗を密集させることはできません。カテゴリを密集させることはできません。画面をドレスで埋め尽くすことも、表示スタイルを密集させることはできません。画面をライブブロードキャストで埋め尽くすこともできません。
2 つ目のポイントは、トラフィックコントロールが行われることです。たとえば、マーチャントの供給を活用したり、マーチャントのコンテンツ制作への熱意を維持したりするために、通常はコールドスタートブーストプランが設けられます。たとえば、マーチャントが積極的に新しいコンテンツをリリースする場合、3 日以内に 100 回の露出を確保します。この部分のコンテンツはコールドスタートコンテンツと呼ばれ、通常は一定の割合のコールドスタートコンテンツを確保します。
3つ目は、生放送、商品、写真、テキスト、ビデオなど、複数の形式が混在していることです。この混合フローの難しさは、各供給の背後にある表現が揃っていないこと、または生放送と商品の特徴が揃っていないことに反映されています。特徴の次元が異なる場合、混合フローを作るのは困難です。異なるコンテンツへの露出がユーザーにもたらす価値も異なり、統一された価値測定をどのように行うかがもう一つの難しさです。
4 番目の課題は、複数の供給チャネルの統合です。供給の概念は、この部分には異なる制作リンク、または独立した想起およびスコアリングリンクがあり、必ずしもコンテンツ形式と強く結びついているわけではないことを意味します。例えば、それらはすべて生放送であり、専門家による生放送である場合もあれば、店舗による生放送であることもあり、その背後にはさまざまな制作リンクがあります。
5番目の課題は、複数の目標です。同じ店舗での商品の推奨には、取引を成立させるという1つの目標しかありません。しかし、私たちが日々の情報の流れの中で注目している指標は数十、数百あるかもしれません。それらは、ユーザーエクスペリエンス指標、効率指標、マーチャントエコロジー指標、サブビジネス目標に大別できます。たとえば、ライブストリーミングと製品の背後に 2 つのビジネスチームがあるとします。チーム間では重複するビジネス目標と異なるビジネス目標があり、推奨と配信を通じて双方にメリットのある状況を実現する必要があります。

コンテキスト情報を認識して制御する能力が、これらの課題を解決する鍵となります。最初の課題である断片化を例にとると、特定の商品を特定の位置に配置したい場合、再配置モデルは周囲のコンテンツがどのストアから来ているかを調べます。これをコンテキスト認識と呼びます。商品を配置する際に、これらの商人を避けて店内が混雑しないようにすることができます。これは、コンテキストに対する再配置モデルの制御能力と呼ばれます。

従来のソリューションでは、通常、パイプラインソリューションを使用して、比較的単純なコンテンツと機能を持つ一連のモジュールを接続します。例えば、各供給チャネルから最適な商品を選定した後、まずそれらを統合し、その後 1 つの店舗に分散させます。コールドスタート率が十分に高くない場合は、コールドスタートコンテンツがランダムに挿入されます。また、ビジネスニーズに基づいて、特定のコンテンツを推奨結果全体の最上部に配置するためのピン留めリンクも用意されます。たった 3 つのモジュールでも、多くの愛、憎しみ、復讐が描かれる可能性があり、それらのモジュールが互いに結びつくことで、お互いの足を引っ張り合うことになりかねません。たとえば、ストアが分割された後、ストアはクラスター化されませんが、挿入されたコールドスタートコンテンツが周囲のストアで繰り返される可能性があり、以前の結果が壊れます。挿入中にストアを分割する要件が満たされているかどうかを検討する必要がある場合、コールドスタートコンテンツが挿入されない可能性があります。コールドスタートとピンニングでも状況は同様です。

もう 1 つの問題は、このモードでは各モジュールの機能は比較的単純ですが、システムレベルでの共同最適化が不足しているため、システム全体の最終的な推奨結果が最適ではないことです。モジュールの順序が間違っているのではないかと質問する学生もいました。可能ですが、モジュール間の干渉を排除できる本当に良いシーケンスは存在しないというのが私の理解です。今日共有したいのは、再配置モデルを使用して、このパイプライン推奨パラダイムを完全に覆す方法です。

複雑な目的に基づく再配置スキームは、各供給チャネルから候補セットを選択し、すべての候補セットを再配置モデルに投入して、最終的な推奨シーケンスを直接生成します。主な利点は次の 2 つの点に反映されます。

まず、並べ替えモデルの強力なコンテキスト認識および制御機能に基づいて、上記のすべての課題を考慮できます。
第二に、それ自体が、ビッグデータに基づくエンドツーエンドの共同最適ソリューションを提供できるディープニューラルモデルです。

2. 再配置モデルのモデリングパラダイムのまとめ

再配置モデルは、大まかに V1、V2、V3 と呼ばれる 3 つのモデリングパラダイムに分けられます。

バージョン V1 の特徴は、入力項目間の相互影響を捉えようとする点、つまり、コンテキスト情報を部分的に捉えること、部分的なコンテキスト認識、シングルポイントスコアリング、貪欲ソートを備えていることです。

たとえば、緑の店舗と黄色の店舗の 2 つの店舗から 5 つの候補商品があるとします。再配置モデル V1 は、RNN または Transformer 構造を通じてモデル間の相互影響と関係性を捉え、各項目にランキングスコアを付与し、スコアに従って降順に並べ替え、最終結果として上位の項目を抽出します。

このモデルの問題点の 1 つは、アイテムが同じストアからのものであるかどうかを制御できないことです。データが異なるストアから取得されるようにするには、ストアを分割するロジックを追加する必要があります。逆に言えば、この再配置モデルは最終結果を出力しません。したがって、V1 並べ替えモデルにはコンテキストを制御する機能がありません。

V2の特徴は、V1をベースにシーケンス項目選択モードを追加した点です。具体的には、エンコーダーはコンテキスト全体の埋め込みを取得し、項目を 1 つずつ選択します。たとえば、この場合は最初の n 個の項目が選択されており、n+1 番目の項目を選択する必要があります。モデルはまず、現在の位置にあるアイテムを選択する方法を示す状態変数を計算し、次にその状態を使用して各候補アイテムの注目度を計算します。注目度の値は、アイテム選択の確率と非常に似ています。一般的に言えば、注目度の値の大きさに基づいてアイテムが選択され、現在の位置に配置されます。製品が選択されるたびに、状態が即座に更新され、すべての注目値が再計算されます。このモデリングパラダイムでは、コンテキストを制御する機能が実現されます。

n+1 番目の商品を選択する場合、前の n 個の商品がすでに選択されているため、それらの商品がどの店舗から来たのかが決定されます。 n + 1 を選択すると、以前の製品を確認することでストアの重複を回避できるため、コンテキストをより強力に制御できます。

しかし、V2 再配置モデルのボトルネックは、再配置モデルが教師あり学習パラダイムに基づいてトレーニングされるため、各ステップの最適な選択をラベルとして手動で指定する必要があることです。候補となる製品セット、ユーザーの現在のリアルタイムステータス、および以前の n 製品の選択が与えられた場合、モデルをトレーニングできるように、このステップで最適な選択が何かをモデルに伝える必要があります。

しかし、問題は、事前注文設定が非常に多い場合、このステップで何を選択すればよいかをどのように判断するかということです。教師ありトレーニングは、特にモデルの微調整において推奨システムで広く使用されています。ユーザー特性と商品特性を取得し、CTRクリックランキングモデルを入力してクリック率を推定します。この商品はオンラインでユーザーに公開されるため、ユーザーがクリックしたかどうかを知ることができます。クリックまたはクリックなしのラベルを収集するのは簡単です。トレーニング中は、予測値と実際の値の間の距離を最小限に抑えることで、モデルトレーニングを適切に行うことができます。

しかし、教師ありトレーニングを順列モデルに適用する場合には、これは当てはまりません。たとえば、ユーザー機能、m 個の製品、およびその機能があり、これらが再配置モデルに入力されて、12345 などの最適なシーケンスが推定されます。最適なシーケンスはラベルとして指定する必要があります。たとえば、この場合、最適なシーケンスは 34125 になります。モデルは、これら 2 つの変数間の距離を最小化することによってトレーニングされます。

しかし問題は、複数のコンテンツ供給、複数の目標、複数のビジネスニーズがある場合などの複雑なシナリオでは、最適な順序をどのように把握するかということです。最適なシーケンスがわかっている場合、なぜモデルをトレーニングする必要があるのでしょうか?関連する研究では、最適なシーケンスを見つけるためのいくつかの探索的方法が提案されています。たとえば、購入された商品を最初に、クリックされた商品を 2 番目に、その他はランダムな順序にします。これは実際には人工的に構築された最適な順序です。ただし、このトレーニングモードでは、構築されたシーケンスの品質によって、再配置モデルの上限が直接決定されます。上記の理由に基づいて、V2 に基づいて報酬駆動型トレーニングを追加することを特徴とする、再配置された V3 のモデリングパラダイムが提案されます。

まず、ユーザーと候補アイテムのシーケンスが与えられたときにシーケンスを生成する役割を担うアクターが存在します。もう一つの重要なモジュールは評価モジュールと呼ばれます。シーケンスが与えられると、評価モジュールはシーケンスを評価し、報酬ポイントをアクターにフィードバックします。アクターは報酬の大きさに応じてシーケンスを生成する戦略を調整します。

基本的な考え方は、モデルが大きな報酬スコアを持つシーケンスを見ると、将来同様の状況に遭遇したときに、モデルはより高い確率で現在のシーケンスを生成するというものです。

Reward には 2 つの非常に顕著な利点があります。

まず、ラベルは必要ありません。シーケンスを生成した後、評価者は現在のシーケンスを評価するだけで済みます。最適なシーケンスとその報酬を知る必要はありません。
第二に、指示可能である必要はありません。情報検索の分野では、NDCGは通常、推奨結果の評価に使用されます。ただし、トレーニング中の作業のほとんどは、NDCG指標を直接最適化するものではありません。重要な理由の1つは、NDCGは微分可能ではなく、勾配を計算する方法がないため、ディープモデルトレーニングを実行できないことです。しかし、報酬は微分可能である必要はないので、非常に柔軟にさまざまな計算を報酬に追加できます。たとえば、店舗が分散している場合、結果のシーケンス内の店舗数は明らかに微分可能ではありませんが、良い報酬となります。

3. 多目的統合による再配置モデル

このモデリングパラダイムに基づくモデルの再配置は、さまざまなビジネス目標にエレガントに統合できます。

バージョン V3 に基づいたデザインが上記に示されています。入力は、ユーザー、m 個の候補アイテム C ₁から C _m 、および報酬関数 R _wです。 R _wは w をパラメータとする線形和であり、和の項は w に効用関数 U を乗じたものである。 U はクリック数、コールドスタートコンテンツの割合など、さまざまなビジネス目標であり、w はビジネス目標の融合重みです。

出力が argmax R _w条件を満たすことを期待します。ユーザーと現在の候補セットが与えられた場合、候補セット内の任意のアイテムのシーケンスから最大の R _wを持つ星印の付いたシーケンスを選択し、L _w * として記録します。このモデルのタスクは、このシーケンスが存在する場合に L _w * を見つけることです。複数存在する場合は、いずれか 1 つを返すことができます。

このタスクを完了するための最も基本的な考え方は、アクターをトレーニングすることです。アイテム候補のセットが与えられると、アクターは順方向操作を実行し、最適なシーケンスを提供します。十分なトレーニングを経ると、生成されるシーケンスは L _w * に近くなると考えられます。

シーケンスジェネレータアクター自体は、エンコーダとデコーダの構造です。入力項目とユーザーが与えられると、まず DeepSet エンコーダーが選択されてコンテキスト全体の埋め込みが取得され、次に項目が 1 つずつ選択されます。項目を選択するのは PointerNet デコーダーです。全体の構造は v2 モデルとほぼ同じです。赤ちゃんが選択されるたびに、状態が即座に更新され、注目度の値も更新されます。このため、再配置モデルの計算コストは比較的高くなります。

シーケンスジェネレーターのエンコーダーは DeepSet を使用します。これは、ディープネットワークを使用してセットをモデル化することを意味します。セット内の要素間に順序はありません。並べ替えモデルでは、ユーザーと候補アイテムの関連情報のみを知る必要があり、初期順序は必要ありません。複雑な状況では、非常に悪い初期順序が生成されると、再配置モデルのパフォーマンスが損なわれる可能性が非常に高いため、最終的にはモデルに初期順序を与えることをあきらめ、代わりにユーザーと候補アイテムを再配置モデルに直接与えることにしました。

具体的なアプローチとしては、ユーザーの特徴とアイテムの特徴を入力することです。まず、アイテムの特徴を拡張します。新しく追加される特徴は、すべてのアイテム候補の中でのアイテムの価格の順位付けであったり、アイテム候補内でそのストアが複数回繰り返されていることであったり、または同様の特徴であったりします。

次に、埋め込み検索を通じて、一部の ID タイプの機能がアイテム埋め込みに変換され、数値計算に参加します。ユーザーの埋め込みと各候補の埋め込みを連結し、MLP の複数のレイヤーを実行します。これらの MLP は複数の層の DNN で構成されており、それぞれが個別に実行され、各アイテムの埋め込みが合計されて複数の層の MLP に渡されます。

シーケンスジェネレーターのデコーダーは PointerNet デコーダーです。コンテキストの埋め込みを取得したら、段階的に項目の選択を開始します。まず、埋め込みは RNN の初期隠し状態として RNN に入力されます。最初に、特別な TOKEN 開始が RNN に入力され、次に RNN によって計算された出力がステージとして使用されます。キーを取得した後、各項目の注目度が計算され、ここではローカルコンテキスト強化注目度が使用されます。

各商品の注目度を取得したあと、マスキング操作が実行されます。主な理由は 2 つあります。1 つ目は、商品の前身が選択された場合、再度選択することはできないため、そのような商品の注目度値は 0 にマスキングされます。2 つ目は、ビジネスでこの商品をこの位置に配置することが必要な場合は、この商品を除くすべての商品の注目度値が 0 に設定され、次のサンプリングプロセスでこの商品が確実に選択されるようにするためです。

トレーニング中にはサンプリングプロセスが必要です。サンプリングプロセスによってランダム性が導入され、アクターがさまざまなシーケンス生成戦略を試して、最終的に適切な戦略を見つけることができるためです。図に示すケースでは、最初の項目を選択し、それを RNN に送り込み、状態またはコンテキスト情報をすばやく更新してから、次の項目を選択します。

黄色の部分はローカルコンテキスト強化アテンションです。アイテムの埋め込みと状態に加えて、状態とアイテムのローカルコンテキストもあります。左側のベクトルは、手作業で編み込まれた一連の特徴です。たとえば、最初の特徴は、これまでのコールドスタートコンテンツの割合であり、2 番目の特徴は、現在のアイテムが前の順序で繰り返されているかどうかであり、再配置モデルがストアを分割するのに役立ちます。全体として、この一連の処理された特徴は、モデルがビジネスの意図を迅速に把握するのに役立ちます。

ここでのモデリングの考え方は、変数間にはデータモデルとトレーニングによってのみ捕捉および適合できる関係がいくつかあるが、そのような関係は複雑で表現できない変数関係に限定する必要があるというものです。明確で明確なルールがある場合は、モデルを手探りで調べるのではなく、できるだけ明確に表現する必要があります。まず、これは不要であり、次に非効率的であるため、ローカルコンテキスト拡張パラメータモジュールが追加されます。

シーケンス評価機能は、モデルがオフラインでトレーニングされたときに生成されたシーケンスを評価します。たとえば、どのユーザーがこのページ全体をクリックするかというクリック確率の推定は、モデルにのみ依存します。ユーザーとアイテムを取得した後、アクターと同じ方法で特徴の前処理が実行され、各アイテムの埋め込みが取得され、シーケンス全体の表現として連結されます。次に、5 つのチャネルを使用して、一般的なマルチヘッドアテンション、RNN など、さまざまな角度からこのリストから機能を抽出します。これらのチャネルによってキャプチャされた機能結果は連結され、MLP を通じて出力され、ユーザーがページ上のいずれかの製品をクリックするかどうか、または何回クリックされるかなどの最終的な予測が生成されます。他のチャネルについては詳細には説明しません。

評価モデルは標準損失を使用します。たとえば、クリックスルー率予測モデルをトレーニングして、ユーザーがこのページの推奨結果をクリックするかどうかを判定する場合は、0 または 1 のラベルと標準のクロスエントロピー損失を使用して評価者をトレーニングします。評価者を完全にトレーニングし、ロックしてから、アクターのトレーニングを開始します。

ここではいくつかの強化学習アルゴリズムが使用されています。現在使用されているのは、REINFORE ベースのアルゴリズムです。REINFORE は非常に古典的な RL アルゴリズムであり、それに基づいていくつかの小さな一般的なトリックが追加されています。

ジェネレーターのトレーニングの損失は 2 つの部分で構成されます。1 つは報酬に関連し、もう 1 つはモデルがこのリストを生成する確率です。ユーザーと候補者が与えられると、ジェネレーターはシーケンスを生成し、それを評価器または報酬関数に入力して報酬評価を取得します。次に、ベースラインを減算します。つまり、実際のオンライン露出のリストを減算します。オフライントレーニングデータはログを通じて取得されるため、オンラインシステムはその時点での露出シーケンスが何であったかを認識します。このシーケンスも報酬関数に入力されて報酬値を取得し、減算操作を実行して、オンラインシーケンスよりも高いか優れた結果を生成することを期待します。

2 番目の部分では、ユーザーと候補を指定して確率項を乗算し、ジェネレーターがこのシーケンスを生成する確率を計算します。トレーニングの中心的な考え方は、報酬スコアの高いシーケンスが生成される可能性が高くなるということです。

たとえば、候補項目が 4 つある場合、長さ 4 のシーケンスが生成されます。最初のステップは、各アイテムの注目度を計算することです。このステップでは、最初のアイテムが選択されます。 2 番目のステップは、コンテキストを更新し、残りの 3 つの項目の注目度の値を計算することです。たとえば、このステップでは 0.8 のものを選択します。 3 番目のステップに進むと、候補は 2 つだけ残ります。このステップでは、0.4 が選択されます。ここではサンプリングアクションがあるため、0.6 は選択されない可能性があることに注意してください。 4 番目のステップでは、選択できるアイテムは 1 つだけになり、このアイテムのテンションは 1 になります。

この場合、生成モデルがこのシーケンスを生成する確率は 0.5*0.8*0.4*1 です。この確率値をこの位置に置くだけです。モデルが継続的に損失を最小化している限り、高報酬シーケンスは高い生成確率を持つことができます。

私たちの論文では、オンラインビジネスの目標をまとめ、4 つのカテゴリに分類しています。各カテゴリでは、報酬や効用をどのように設計するかなど、それを再注文モデルに有機的に統合する方法を紹介しています。興味のある学生は、より詳細な議論が含まれている論文を読むことができます。このようにして、複数の最適化目標を有機的に統合できる再配置モデルが設計されます。

次に、複数の目的間の重みを柔軟に調整する方法について説明します。

4. ハイパーネットワークに基づくリアルタイム制御可能な再配置モデル

リアルタイムで制御可能な複数の目的間の重みを設計する動機は、まず、報酬関数が線形加重和の形式であるという仮定があり、この部分の用語は効用関数と呼ばれます。ユーティリティ関数は、ユーザーのクリックスルー率、多様性、新鮮さ、新規性などの 1 つの次元からシーケンスを評価します。ここでの効用がモデル推定を必要とするか、または効用を手動で書き出すことができるかに関係なく、アクターをトレーニングするときには効用は固定関数であると見なされるため、報酬関数全体で唯一の可変パラメータは w であり、この w は異なる目標間の傾向を表します。

従来の優先順位の重み付けでは、これは静的モードであり、モデルトレーニングの開始時に w を指定する必要があります。何らかの理由で w を調整する必要がある場合は、モデル全体を再トレーニングする必要があり、非常に時間がかかり、多くのリソースを消費します。最適な w を見つけるのを支援する一連の研究があり、最良の効果を得るためにトレーニング中に w を継続的に調整する研究もあります。私たちの研究は、このフレームワークから飛び出しています。全体的な考え方は、特定の最適な w を見つけることではなく、任意の w に対して最適なシーケンスを生成することです。この形式は、優先重みの動的指定と呼ばれます。

ユーザーが Taobao Mobile にアクセスして推奨を受ける必要がある場合、その時点で w セットを指定すると、モデルはこの w セットに基づいて最適なシーケンスを生成します。これの利点は、まず、高速なハイパーパラメータ調整を実現できることです。コールドスタート比を例にとると、w をどのくらいの大きさにすればよいかはどうすればわかりますか? 実際には、オンラインで継続的に試すことがよくあります。ただし、モデルを再トレーニングする必要がある場合、増分データでトレーニングしている場合でも、数時間または数日かかる場合があります。この高速ハイパーパラメータ調整機能があれば、w を調整するだけで、オンラインでのリアルタイム監視が正常かどうかを確認できます。正常でない場合は、再度調整します。完了するまでに数十分、最大で半日かかる場合があります。

さらに、この方法では、フローの変化に迅速に対応し、より正確なフロー制御を実現できます。特に大規模なプロモーションの際には、最初の 5 分間のトラフィックと最後の 5 分間のトラフィックが異なります。トラフィックの変化に迅速に対応する必要があります。オンラインストリーミングトレーニングモデルでも、遅延ゼロのこのリアルタイム応答速度を実現することはできません。

ビジネスに最も大きな影響を与えると考えられる 3 番目のポイントは、最適な w が存在しない可能性があるということです。トラフィックフローが異なれば、最適な w も異なります。たとえば、新しいユーザーにとって最も重要なことは、このシナリオを理解して気に入ってもらうことです。そのため、ユーザーにとってより関連性の高いコンテンツを配信します。しかし、成熟したユーザーにとっては、より多くの驚きと発見がもたらされることを期待する可能性があるため、驚きと発見のwはより大きく調整されます。

まとめると、より合理的なビジネスアプローチは、人口と戦略によって分割された W 構成を使用することです。トラフィックソースに基づいて戦略を作成することもできます。トラフィックをさまざまな戦略に分割し続けることができます。従来のモデルでは、各部門ごとにさらに多くのモデルをトレーニングする必要があります。ただし、新しく提案された動的ソリューションでは、必要なモデルは 1 つだけです。

この研究は最新の KDD2023 に掲載されました。論文のタイトルは「ポリシーハイパーネットワークによる制御可能な多目的再ランキング」です。技術ソリューション全体の重要なポイントは、ハイパーネットと条件付きトレーニングです。

下のボックスは任意に再配置したモデルで、上のボックスは新しく追加された Hypernet 部分です。オンラインサービング部分では、ユーザーと候補アイテムが現場に到着すると、リアルタイムで正しいと思われる w を指定して Hypernetwork に渡すことができ、Hypernetwork は一連のパラメータを生成して再配置モデルに渡します。青と黄色は再配置モデルのパラメータで、2 つの部分に分かれています。1 つは θ _wで、w に敏感なパラメータです。たとえば、再配置モデル DNN の最後の数層の w と b、つまり最後の数層の重みとバイアスは w に敏感です。モデルパラメータのほとんどは w の影響を受けないと考えられます。たとえば、各項目の埋め込み表現は w の影響を受けないはずです。オンラインハイパーネットが θ _wを生成すると、再配置モデルは完全な θ を使用してシーケンスを生成できます。 θ _wのこの部分は w に従うため、生成されたシーケンスは L _w * に最も近い結果であるとも考えられます。これは、サービング中のネットワークフォワード計算のプロセスです。

トレーニングサンプルが取り込まれると、ここでのトリックは w をランダムにサンプリングし、サンプリング範囲は事前に指定された分布になります。w のサンプリング分布を指定し、各サンプルまたは各トレーニングバッチの w を指定するには、ここで何らかの事前の知識が必要です。フォワード操作では、再配置モデルがシーケンスを生成すると、評価のために評価者に渡す必要があります。評価者は、サンプリングされた w に基づいてシーケンスも評価します。報酬は勾配に変換され、ハイパーネットに送られてパラメータが更新されます。また、再配置モデルに送られて、w に影響を受けないパラメータが更新されることもあります。

条件付きトレーニングは、条件付き GAN から技術を借用し、それを再配置モデルの設計に使用します。

上の図はオンラインの結果を示しています。左側の実験は、オンライン配送用に w をランダムにサンプリングする、トレーニング済みのリアルタイム調整可能な再注文モデルです。たとえば、最初の図では、横軸はクリックの効用の重み、縦軸は実際にオンラインで回収されたサンプルの平均クリック値です。例えば、図(a)では横軸が0.5です。これは、オンライン配信時のクリックウェイトが0.5となるケースを集め、実際のオンラインクリック率をカウントした点です。これらの点を一つずつプロットしていくと、青い折れ線が得られます。オレンジ色の直線は最初のフィットです。クリックの効用重みが増加すると、全体的なクリック率またはクリック数も明らかに上昇傾向にあることがわかります。これは、再配置モデルが実際に与えられた w に基づいて異なるシーケンスを生成できることを示しています。

同じ考え方に基づいて、図 (b) はコールドスタートコンテンツの割合を示し、図 (c) はストアの多様性を示し、図 (d) はグループ間ソートの有用性を示しており、異なるグループのコンテンツはグループの優先度に従って大まかにソートする必要があることを示しています。これら 4 つの図は、再配置モデルが実際に調整可能であることを示しています。右はオンラインABテストの結果です。ベースラインソリューションは冒頭で述べたパイプラインモードです。実験ソリューションは、オンラインハイパーパラメータを使用してより良い位置に調整された、リアルタイム制御可能な再配置モデルです。ユーザーのクリック数、ユーザーが閲覧する企業の数、コールドスタートの割合、グループ間のランキング、滞在時間、ユーザーが閲覧するコンテンツの量にさまざまな程度の改善が見られたことがわかります。

V. 結論

関連する作業は、アリババと人民大学の協力により完了しました。私たちは、Taobao Technology Private Domainユーザーアルゴリズムチームの出身であり、ストアの詳細に関連するアルゴリズムを含むTaobaoモバイル商人のプライベートドメイン製品を担当しています。膨大な量のデータを分析して学習することにより、数億人のユーザーが商人のプライベートドメインで効率的に購入および買い物をするのを支援し、数千万人の商人がユーザーをうまく管理するのを支援します。同時に、私たちはイノベーションに焦点を当てており、私たちの結果の多くは、AAAI、SIGIR、WWW、KDDなどのトップの国際会議で編集され、公開されています。詳細については、このアドレスにメールを送信するか、WeChatを介してQRコードをスキャンしてください。

6. 質疑応答

Q1：各オンラインユーザーのパーソナライズされた重量はどのように取得されますか？

A1：技術的には各ユーザーをサポートすることは可能ですが、各ユーザーの訪問の重みでさえ異なる場合があります。しかし、オンラインでは、この粒度は人口レベルに分類されます。各グループのセットアップ方法については、これは主に、ビジネスによって決定される革新と関連性の量など、いくつかのビジネス要件に依存します。コールドスタートの割合などのいくつかの例は、アルゴリズムによって決定されます。

Q2：オンラインサービングは異なり、トラフィックが異なると重みが異なります。

A2：オンラインサービングのウェイトは異なり、オフライントレーニングのウェイトも異なります。順列モデルは、オフライントレーニング中にこの重量または同様のウェイトを見たという理由だけで、オンラインでの重量の良いシーケンスを生成できます。したがって、オフライントレーニング中、各トレーニングサンプルまたは各トレーニングバッチについて、Wはトレーニング用にサンプリングされます。

Q3：Wにはどのような分布が選択されますか？

A3：これは確かに非常に頻繁に尋ねられる質問です。まず、ビジネスの入力があります。これは、これが問題でない場合、たとえば、コールドスタートの重みが基本的に調整されます。ただし、論文では、このアルゴリズムがあまりにも多くの事前知識を必要としないより一般的なソリューションであることを確認するために、Wの分布は0から1まで均一な分布に設定され、オンライン関数もこの範囲内で調整されます。

Q4：微調整の代わりに再ランキングにこのような複雑なモデルを使用してみませんか？

A4：左から右への各モジュールの計算は、一般にM倍になり、Mは入力アイテムの数、つまりMICENCEの数です。通常、シャッフルモデルへの入力は50であり、返されたシーケンスは10である可能性があります。ただし、洗練されたランキングモデルのスコアリングスケールは数千のスコアであり、1000です。再配置のようにモデル化すると、その複雑さは100倍になり、オンラインで持続不可能です。

Q5：分割ルールとコールドスタート戦略をどのように保証できますか？同じ店舗が表示される可能性はありますか？

A5：これは良い質問です。いくつかのビジネス要件は難しいルールであり、一部のビジネス要件はソフトルールです。たとえば、特定のアイテムは、上部に配置する必要があります。しかし、これは報酬にユーティリティを追加することで実現することはできませんが、マスキングを使用することで達成できます。他のすべてのアイテムの注意値は0に設定されます。

しかし、店舗を解散したりコールドスタートしたことなど、他のことはソフトルールであり、高い確率で達成できる限り、問題ありません。ユーザーがナイキが本当に好きで、スニーカーを購入したいだけなら、私は彼に2つのナイキケースを連続して与えることを受け入れますが、大きな問題はありません。分割ルールもソフトルールであり、分割できる可能性が高いです。実際、これらのユーザーエクスペリエンスルールが満たされていない場合、並べ替えモデルの結果が放棄されます。 4つの連続した店舗が一緒に立ち往生しているなど、このルールに特に悪いシーケンスが生成された場合、この結果はその後の経験ルールに貼り付けられ、この結果が破棄され、代替ベースラインソリューションが使用されます。

ユーザーはコールドスタート戦略をあまり認識していないため、コールドスタートに関するその後の必須ルールはありません。ウェイトを調整することにより、コールドスタートタスクの完了のインジケーターを見ることができます。もちろん、コールドスタート自体には閉ループ制御があり、コールドスタートの現在の割合にはリアルタイムのフィードバックリンクがあります。コールドスタートの信号は、重みが同じであっても、閉ループ制御のPID信号が強力である場合、PID制御信号が強くなります。再配置されたWと閉ループ制御PID信号が連携して、コールドスタートの完全性を確保します。

Q6：再配置の全体的な時間消費とおおよそのP99インデックスはどのくらいですか？オンライン機能の大きさとオンライン処理にはどのくらいの時間がかかりますか？

A6：それは約20ミリ秒以上であり、25ミリ秒未満でなければなりません。洗練されたランキングモデルのスコアリングに基づいて、再配置モデルは、優れたパフォーマンスを実現するためにあまりにも多くの機能を使用する必要はないため、現在はほとんど使用されていません。これは、低消費の重要な理由です。

Q7：Taobao Feedには、製品だけでなく、このフレームワークが主題の一貫性をどのように考慮していますか？

A7：これは実際には、デザイン全体の中で最も重要な部分の1つです。私の答えは、私はそれを考慮しないということです。赤ちゃんをビデオの下に置くべきか、それともライブブロードキャストをビデオの下に置くべきかを結論付けるのは難しいからですか？あなたは本当に知らないので、あなたはこの問題を積極的に確認することを避けるべきです。これらすべてのビデオ、ライブブロードキャスト、製品をモデルに並べ替えてから、再配置されたモデルを視聴しますが、明日のように配置されます。たとえば、今日より多くのユーザーがクリックすると、人々がそれを購入しないようにしてください。

Q8：異なる材料の特性を統合する方法は？たとえば、ライブブロードキャスト資料と商品資料の機能はまったく異なります。

A8：これは、材料特性を統一する必要がないため、混合配置に再配置モデルを使用することの利点でもあると思います。機能として、それが本当に豊富な情報を含み、安定している場合、それは良い機能です。たとえば、ビデオコンテンツはABCを返し、ベビーコンテンツによって返される機能はd、e、およびfと呼ばれます。たとえば、機能は最終的にすべてのフィードになり、各フィードはABCDEで表されます。 2つの機能セットを統合または整列させる方法については、再配置モデル、ビッグデータ、トレーニングに任せても構いません。心配する必要はありません。

Q9：高級スケジュールモデルのスコアを再配置します。

A9：微細なスケジューリングモデルは非常に重いです。したがって、ファインプレートモデルの位置付けは、コア推定値を正確に計算することであり、推定クリックスルーレートの分布は実際のクリックスルーレートに非常に近いはずです。モデル構造がわずかに調整された微細なレイアウトでは、CTR値の推定分布は大幅に変化しないはずです。この場合、フロントバックカップリングの問題はそれほど強力ではありません。

現在のシーケンスモデルは、クリックカウントの推定値に対するクリックレートの推定値など、比較的重要な変更を受けており、その後の再配置モデルは直接適用できません。ファインスケジュールモデルはクリック数を推定できますが、クリックレートを下流モデルに渡す必要があります。サンプリング戦略が調整される場合、たとえば、推定されたクリックレートが大幅に変化する場合があります。この問題を解決するために、業界でよく使用される方法は、一連の操作を通じて、推定されたクリックスルーレートの意味に物理的価値に固定され、推定値が再配置モデルに達すると安定しています。

Q10：生成されるシーケンスの長さは、最後の露出シーケンスの長さよりも大きいです。ファインソートの長さはどれくらいですか？発電機の報酬で明らかにされていない製品とは何ですか？

A10：c在庫ユーザーの体性感覚は、無制限の下向きの情報の流れですが、技術的な観点からは、推奨が塗られています。たとえば、10の内容が最初に宣伝されている場合、ユーザーはほぼ10コンテンツを読み取り、次のページを推奨します。したがって、少なくとも現在のソリューションでは、評価者によるシーケンス長入力は10で、各ページの長さに従います。

再配置モデルのページサイズは10で、並べ替えシーケンスによって生成されるシーケンスの長さも10です。現在、トレーニングの評価評価者のトレーニングの長さは、最後の露出シーケンスの長さです。再配置モデルの入力のシーケンス長は一般に数万であり、ほとんどの場合、それらの数百は大きさです。

真にオンラインで明らかにされていない製品は、候補セットに埋もれて配置され、再配置モデルに引き渡されます。それはまさに、オンラインシーンで実際に明らかにされていない宝物が現れますが、評価者を使用して、ユーザーがこのシーケンスをクリックするかどうかを判断する他の手段はありません。極端な場合、10の宝物がオンラインで表示されません。

Q11：RLトレーニングの不安定性に問題はありますか？

A11：RLは不安定で、データは変更されておらず、モデルは変わらず、ランダムシードは今回は可能である可能性がありますが、次回はRLトレーニングの難しさの発現でもあります。モデルトレーニングをより安定させる方法は、現在、シンプルで粗雑な方法を使用しています。効果が大きく変わらない限り、起動する前にテストが行われます。現在、このモデルは微細なスケジュールが特徴付けられているため、モデル全体が大きくなく、数時間で完了します。

Q12：オンライン推論中に発電機が一度に生成するシーケンスの数。

A12：オンラインでのトレーニングを生成する場合、オフライントレーニングはオンラインでプッシュされます。

将来、他の学生の作業の下で、マルチシーケンスの並べ替えモデルが起動し、サンプリングもオンラインで発売され、その後、評価者が最適なシーケンスを選択します。これで、完全なオンラインアプリケーションは、生成の出力結果であるだけでなく、他の手で擦り付けて最高のものを選択しようとします。

Q13：再配置されたモデルのオフラインインジケーターをどのように検討すればよいですか？

A13：実際には、オフラインモデルの指標は得られた評価者の報酬に基づいており、別の指標はより良い割合です。より良いパーセンテージは、同じケースで生成される並べ替えられたシーケンスであり、これは報酬の観点からオンラインの実際の配信シーケンスの確率よりも優れています。基本的に、この値は少なくとも50％を超えるべきであると考えられています。

Q14：並べ替えられた候補コンテンツプールの50の選択されたアイテムはどのように選択されていますか？シーケンシャルに従って完全に分類されていますか？ 50の再配置候補プールにコンテンツを入力するようにするなど、他のビジネスニーズを検討します。

A14：ユーザーが物事にあまりにも注意を払わない場合など、いくつかの特別なケースがあります。また、ネットワーク全体に推奨されるコンテンツも提供します。その時、私はネットワーク全体で症例に遭遇し、200人の赤ちゃんが返されました。細かいスケジューリングモデルによって傍受された200のフィードのうち197がすべて同じタイプのフィードであることは恥ずかしいことです。たとえば、最大の1つのバイヤーショーをそのようなビジネスルールがある場合、最初に戻ってきた結果を廃止する必要があります。

<<:

>>: 新技術により大規模人工知能モデルの処理性能が効果的に向上