OPPO 広告想起アルゴリズムの実践と調査

1. 背景

1. 古いリコールアーキテクチャ

上の図の左上部分は、最初にリコールしてからソートする一般的な推奨システムのプロセスを示しています。左下の部分は OPPO の古いリコールアーキテクチャで、最初にターゲットフィルタリングを実行し、次に切り捨て戦略を実行し、最後にパーソナライズされたリコールを実行します。ここで問題となるのは 2 つです。1 つ目は、パフォーマンスの問題により、すべての広告に対してパーソナライズされたリコールを実行できないことです。2 つ目は、パーソナライズされたリコールが切り捨て戦略の後に行われるため、パーソナライズされたリコールの効果に影響が出ることです。そのため、私たちはエンジニアリングとアルゴリズムの変換を通じてすべての広告のパーソナライズされたリコールを実現し、プラットフォームの全体的な指標を改善したいと考えています。さらに、より優れたマルチチャネルリコールメカニズムを通じて、全体的な広告再生エクスペリエンスとエコロジーを改善したいと考えています。

2. 新しいリコールアーキテクチャ

上の図の左上部分は、新しいリコールアーキテクチャです。最も重要な変更点は、最近傍検索機能である ANN の導入です。このエンジニアリング変換により、すべての広告のパーソナライズされたリコールがサポートされます。

同時に、マルチチャンネルリコールメカニズム、つまり「単一のメインチャンネルと複数の補助チャンネル」リコールメカニズムを再設計しました。シングルメインパスとは、LTR方式である「最終目標に向けた一貫した想起」を用いたメインパスを指します。マルチ補助ブランチには、ECPM ブランチ、コールドスタートブランチ、およびその他のブランチが含まれます。

ECPM の支線は主に、幹線道路の LTR 不足を補うために使用されます。コールドスタートブランチは、主に新しい広告のコールドスタートをサポートします。

OPPOは「公平性」と「効率性」を通じてコールドスタートアップをサポートします。「公平性」の観点から言えば、一部の新しい広告については、新しい広告がランダム探索を行うための独立したトラフィックが存在し、これは公平な戦略です。「効率」の点では、将来的に可能性のある新しい広告を識別するためにアルゴリズムが使用され、各リクエストにはこれらの新しい広告専用のリコール割り当てが設定されます。これら 2 つの方法により、新しい広告のコールドスタート効果を向上させることができます。

他にも、主に特定の種類の特定の問題を対象としたものや、運用担当者のための中期および短期の運用手段として存在するブランチがいくつかあります。アーキテクチャの切り替えと継続的な反復により、新しいリコールアーキテクチャは ARPU の累計 15% 増加をもたらし、これはかなりの効果です。

次に、メインリコールモデルの選択、オフライン評価指標の構築、サンプル最適化の実践、モデル最適化の探求という4つの側面から、OPPOのメインリコールモデルに関するビジネス実践と探求の一部を紹介します。

2. 主要道路リコールモデルの選択

1. 主要道路リコールモデルの目的

まず、主要なロードリコールモデルの目的を紹介します。これは、次の 3 つの方向に分けられます。

一貫性: まず、リコール側のスコアリング基準は、ダウンストリーム側のスコアリング基準と一致している必要があります (一貫性は同じことを意味するわけではありません)。同時に、インセンティブ互換性のロジックを満たす必要があります。つまり、価格調整感度など、広告システム全体と一致する必要があります。
一般化: これまでに見たことのない、またはめったに見たことのないデータに対するモデルのパフォーマンスを指します。それを「共通性」と「個別性」に分けて考えます。「共通性」とは、新しい広告や新しいユーザーなど、これまで見たことのないデータに一般化できるようにモデルが一般的なルールを学習できるかどうかを指します。「個別性」とは、特にロングテールの広告やユーザーなど、データが少ない場合に、モデルが個々の違いに注意を払うことができるかどうかを指します。
多様性: リコールの寡占効果を軽減し、下流のリンクを確認できるようにすることを意味します。広告システムにおいて「情報繭」という言葉を耳にすることはあまりないかもしれませんが、実は広告システムには「情報繭」が存在します。たとえば、正確なランキングで表示される広告が単一すぎる場合、正確なランキングではミッドテール広告とロングテール広告の推定に大きな偏差が生じる可能性があります。

2. Youtubeの論文からの選択を思い出す

上記の 3 つの方向性を決定した後、可能なリコールオプションを検討してみましょう。

まず、2016 年に YouTube が発表した古典的な論文から始めます。この論文では、推奨システムをリコールとランキングの 2 つの段階に分けました。リコールについては、「動画をクリックして視聴を完了する確率」を目標としてモデル化し、ランキングについては、「再生時間で重み付けされたクリックスルー率」を目標としてモデル化しました。

上記に基づいて、リコールの可能なオプションは 3 つ考えられます。

精度の推定: リコールとソートのロジックはまったく同じです。たとえば、ソートが回帰である場合、リコールも回帰になります。
ランキング学習: リコール学習はランキングスコアの分布です。
分類学習: リコール学習は、ユーザーがクリックした動画や広告など、競争やユーザーインタラクションのランキング付けに関するものです。

これら 3 つのオプションは、基本的に 2 つのソリューションに対応します。1 つ目は「正確な値の推定」と呼ばれ、上記の最初のオプションに対応します。2 つ目は「セットの選択」と呼ばれ、上記の 2 番目と 3 番目のオプションに対応します。どちらのオプションを選択すべきでしょうか?

3. 正確な価値推定とセット選択

まず、リコール選択に対する要求を明確にしましょう。まず、一定期間にわたる迅速な反復のニーズを満たすことができることを期待しています。次に、その開始点が十分に高いことを期待しています。まず、これら 2 つのソリューションの長所と短所を分析しました。

「正確な価値推定」モデリングの目標はECPMです。その利点は、解釈性が高く、価格調整に対して自然に敏感であることです。しかし、その欠点も明らかです。まず、リコールは正確なランキングと一致している必要があり、未公開の候補セットが多数存在するため、タスクが難しくなります。次に、さまざまな OCPC タイプの分布は大きく異なり、デュアルタワーモデルの学習は非常に困難です。最後に、リコール段階での正確な ECPM の要求が十分に強くないため、タスクの難易度が実際のニーズを超える可能性があります。

「セット選択」モデリングの目的は、上位の広告を正確にランク付けすることです。バックリンクを直接モデル化するため、一貫性が非常に高くなります。また、下流の最適化項目を自動的にマージする自然な機能も備えています。もちろん、欠点もあります。まず、推定値の解釈可能性が比較的弱いこと、次に、ECPM スコアリングの性質と一貫性を保つために、いくつかの個別の最適化 (価格調整感度など) が必要であることです。

オンラインでのパフォーマンスと長所と短所の比較を通じて、最終的な選択肢として「セット選択」テクノロジーを選択しました。

4. LTRプロトタイプモデル

LTR プロトタイプモデルは、上の写真の左側にあります。構造は比較的シンプルで、典型的なツインタワー型です。ただ、そのサンプルは少し特殊です。ペアワイズサンプルは複数のサンプルで構成されます。ポジティブサンプルはランキング上位の広告を指し、ネガティブサンプルは市場に公開されている広告からランダムにサンプリングされます。 Loss では Ranking Loss を使用しますが、ここでは詳細には説明しません。

3. オフライン評価指標の構築

プロトタイプモデルといくつかの機能レベルの最適化により、最初のバージョンでは ARPU が 6% 増加しました。最初のバージョンの後のさらなる反復では、最適化を導くためにオフライン評価メトリックが必要になります。

1. オフライン評価構築 - 全体

オフライン評価構築は主に3段階に分かれています。最初のフェーズでは、迅速にオンライン化するために、評価セットをカスタマイズせず、時間に基づいてサンプルをトレーニングセットとテストセットに分割しました。このアプローチの問題点は、AUC が 0.98 と高すぎるため、さらなる反復をガイドすることが困難になることです。さらに、リコールはサンプルごとに行われる技術であるため、サンプルが変更されると実験間の AUC を比較することはできません。一般に、この評価セットでは継続的な最適化を導くことが難しいため、第 2 段階のソリューションにつながる、より一貫性があり安定した評価セットが必要になります。

2. オフライン評価の構築 - 完全なデータベース評価

2 番目の段階は、オフラインの Faiss 完全データベース検索です。このとき、ポジティブサンプルは正確なランキングの上位 K 個の広告、ネガティブサンプルは最も露出度の高い広告、指標は GAUC とリコールです。リコールとは、精製ランキングの上位にあるトップ K と実際のスコアを持つトップ N との交差の数を指し、それを K で割って平均を算出します。これは、精製ランキングにおけるトップ K のリコール効果を実際に測定します。ハイパーパラメータは 2 つあります。1 つ目は K で、通常は実際のビジネス状況に基づいて選択する必要があります。2 つ目は N で、モデルのフォールトトレランスを指します。理論的には、N が大きいほど、タスクは単純になります。オフラインでは、N の選択はモデルの機能と一致する必要があることがわかりました。難しすぎたり単純すぎたりすると、モデルの反復に役立ちません。

第2フェーズの計画にはまだいくつかの小さな問題が残っています。まず第一に、Faiss は正確性を保証しますが、完全なデータベース検索の効率は依然として比較的低いです。さらに、現在のソリューションではランダムなネガティブサンプルのみを使用しているため、より詳細な効果分析を実行することは困難です。次に、第3フェーズであるセグメントサンプリング評価の評価計画を紹介します。

3. オフライン評価の構築 - セグメント化されたサンプリング評価

セグメント化されたサンプリング評価と以前の方式の最大の違いは、ネガティブサンプルが「簡単」、「中程度」、「難しい」の 3 つの部分に分割されることです。簡単なネガティブサンプルは、大規模な市場で公開される広告からサンプリングされます。中程度のネガティブサンプルは、現在のリクエストで粗いランキングには入るが細かいランキングには入らない広告からサンプリングされます。ハードなネガティブサンプルは、細かいランキングの最後にある広告からサンプリングされます。 Positive は、引き続き慎重にランク付けされたトップ K 広告で構成されています。量に関して言えば、Easy が Medium よりもはるかに大きく、Hard よりもはるかに大きく、Positive よりもはるかに大きいことを確認する必要があります。評価指標は変更されておらず、引き続き GAUC と Recall です。ネガティブサンプルが分割されているため、詳細な分析がしやすくなります。

4. サンプル最適化の練習

評価方法を決定した後、次のステップはいくつかのサンプルを最適化することです。

1. 価格調整感度モデル

前述の通り、リコールモデルは価格に敏感である必要があります。ここでは価格に敏感とは何かを詳しく説明します。広告システム全体にとって、広告の入札は広告主が広告を掲載するための非常に重要なツールであり、広告の競争力に影響を与えます。広告システム全体が広告主の入札に敏感になることを期待しています。この感度は、広告主の入札額が増加すると、すべてのリンクにおけるこの広告のスコアが増加することを意味します。これまでのアプローチでは、広告入札のバケット機能を基礎機能としてモデルに直接入力していました。しかし、広告主の入札額が増加しても、スコアはわずか 5% しか増加しないことがわかりました。この感度では十分ではなかったため、価格調整感度モデルを構築しました。

モデル構造は上図の左側に示されています。全体として、実際にはツインタワーモデルの右側に bid_part 構造を追加するだけです。この構造は基本的に、広告の入札 CPA にパーソナライズされた重みを掛けて得られる bid_logits です。この最適化により、広告の価格調整感度は5％から90％に向上し、予想通りとなりました。同時に、オンラインARPUも約1％増加しました。

2. ハードネガティブ

価格調整感度問題を解決した後、次のステップは効果を最適化することです。実際、Easy Negative の識別力はすでにかなり優れています。効果を高めたい場合は、Medium Negative と Hard Negative をフィードバックメカニズムとして追加するなど、ポストリンクデータを導入するのが最も簡単な方法です。

初期段階では、システムデータはハードデータのみを報告していたため、最初にハードネガティブが追加されました。 Hard Negative を追加する前は、オフライン効果が確実に向上し、想起の多様性も向上すると期待していました。これは、以前のサンプルではランキングの上位データのみに焦点を当てており、モデルがそれを記憶している可能性が高いため、この問題は強力なパーソナライゼーションなしでも解決できるためです。 Hard Negative を導入した後は、さまざまなリクエストを個別に理解する必要があります。上図の右側にあるオフライン指標からも、リコール効果とオンライン効果の両方が向上していることがわかります。その中で、広告の多様性は約 8% と大幅に増加しており、これは私たちが非常に望んでいる結果です。

3. 手動ルールマイニング否定的

Hard Negative に参加して全体的に大きな進歩を遂げた後は、Medium Negative に参加するのは自然な流れになるはずです。このデータシステムはまだ報告されていないため、手動ルールを使用して、いくつかの Medium Negatives をマイニングしたいと考えています。分析の結果、再現率と精度ランキングの全体的なスコアは一貫しているものの、極端なケースが 2 つあることがわかりました。最初のタイプは、リコールは多いものの、入札に勝つことはほとんどない広告です。これらの広告が存在する理由は、露出もされず、ファインランキングにも入っていないため、ネガティブサンプルになりにくく、モデルが認識できないためです。 2 つ目の状況は、リコールが非常に少ないのに、勝率が非常に高い場合です。もちろん、この状況は非常にまれなので無視します。

最初のケースでは、上図の左側のヒートマップに示されているように、横軸は落札された入札数のバケットであり、縦軸はリコール数のバケットであり、どちらも小さいものから大きいものまでです。左下の丸で囲んだ部分はリコールは多いが入札が非常に少ない広告です。大きな割合を占めるわけではありませんが、試してみる価値はあります。実践では、オフラインとオンラインの効果はわずかに改善されるだけで、手動のサンプルマイニングの効率は低すぎることがわかりました。そこで、モデルの自己発見を通じてこの問題を解決できるかどうかを検討しました。

4. モデルが中程度のネガティブを自己発見する

私がこのように考える理由は、Easy Negative は全体的に優れた識別力を持っているものの、識別が難しいサンプルもいくつか存在し、その割合は比較的低いからです。したがって、各ポジティブサンプルに多数の簡単なネガティブサンプルをサンプリングさせると、モデルはより難しいネガティブサンプルを自発的に学習できるようになりますか? Medium Negative と似ていますか?この観点から見ると、これは対照学習に似ています。

この目標を達成するには、2 つの方法があります。最初の方法は、Easy Negative をサンプルに直接追加することですが、計算コストとストレージコストが直線的に増加するという問題があります。2 番目の方法は、モデル内で直接バッチ内ネガティブサンプリングを行うことです。このソリューションには計算コストとストレージコストがかからないため、このソリューションを優先します。

ロスにも2つの方法があります。1つ目はLTRロスを使う方法です。しかし、私たちの実装では、各ペアワイズサンプルのサンプル数が増加するにつれて、LTR 損失の計算コストが指数関数的に増加するため、2 番目の方法であるポイントワイズ損失を優先する必要があります。この損失の計算コストはサンプル数に比例して増加します。同時に、損失計算の全体量はモデルトレーニングの小さな割合を占めるため、全体的な時間消費にはほとんど影響しません。そこで最終的に、Pointwise Lossを選択しました。

5. 大規模多分類ソリューション選択の紹介

損失計画が決定されたので、具体的にどの損失を使用すればよいでしょうか?先に進む前に、大規模な多重分類についての背景知識を説明する必要があります。

再現率は非常に大規模な多重分類問題として定義できます。ネガティブサンプルは数万の広告であり、ポジティブなサンプルは上位 K 個の広告です。通常のマルチ分類は実際にはソフトマックスを実行することであり、その分母はすべての負のサンプルのスコアの累積です。しかし、大規模な多重分類の場合、そうすると分母の計算が大きくなりすぎて、ほとんど実行不可能になります。この問題に対処するために、業界には 2 つのアプローチがあります。

最初の方法は、上図の左側に示すように、多重分類をバイナリ分類に変換することです。バイナリ分類に変換された後、実際には NCE 問題に変換されます。本質的には、前のモデルの推定値 F(x,y) が、中間に Log Q のサンプリング確率補正係数を追加して G(x,y) に修正されます。しかし、この値を計算するのは簡単ではありません。簡単な方法としては、G(x,y) を F(x,y) とほぼ等しくし、それをバイナリ分類 BCE 損失に直接入れます。これは NEG (Negative Sampling) と呼ばれます。 NCE の利点は、ネガティブサンプルの数が増えるにつれて、理論的には大規模なマルチ分類の効果に近づくことができることです。そして、この NEG は理論的に偏っています。

2 番目の方法は、多分類アプローチを継続的に維持することです。これは最初の方法と非常に似ていますが、違いは、G(x,y) がソフトマックスの損失に入れられ、負のサンプルが直接サンプリングされることです。 NCE と同様に、修正されたサンプルソフトマックスは理論的には大規模な多重分類の効果に近づくことができますが、修正されていないサンプルソフトマックスは偏っています。しかし、そのシンプルさから、修正されていないサンプルソフトマックスのような方法も一部の企業で使用され、利益を上げています。

6. モデルが中程度のネガティブを自己発見する

Pointwise Loss 法を使用することを決定した後、最初に比較的単純な Negative Sampling を試しました。サンプルはバッチネガティブサンプリングで、損失は BCE 損失であり、最後に元の BPR 損失がこの BCE 損失に追加されて融合されます。オフライン実験により、In Batch Negative Sampling のみを使用すると、効果が大幅に減少することがわかりました。ただし、LTR と In Batch Negative Sampling を組み合わせると、効果が若干向上します。

私たちは非常に困惑しました。何百ものサンプルを追加した後でも、効果はわずかに改善されただけで、私たちの期待と一致しませんでした。したがって、先ほど述べた Sample Softmax 法を引き続き使用し、In Batch ではネガティブサンプリングを使用します。Loss は、上図の右側の式に示すように、補正されていない Sample Softmax Loss です。これは infoNCE に少し似ているため、infoNCE を参考にして温度係数の概念も導入します。効果は上図の左下側に示されています。In Batch Sample Softmax のみを使用した場合、効果は基本的に従来の LTR と同じです。 LTRとIn Batch Sample Softmaxを組み合わせると、効果が大幅に向上します。温度係数をさらに調整すると、さらに大幅な改善が実現します。温度係数を調整したバージョンを使用した後、ARPU は約 2% 増加し、予想どおりでした。ただし、In Batch の数が増えると、Medium 効果と Hard 効果の間でトレードオフが発生することに注意してください。

なぜ Sample Softmax のパフォーマンスが NEG よりも優れているのか不思議に思い、調べてみたところ、この現象は多くの論文や記事で言及されており、孤立したケースではないことがわかりました。したがって、将来の大規模な分類問題では、サンプルソフトマックス法を優先することができます。

7. シナリオ共同訓練独立サービス

最後に、本質的には複数のシナリオの問題である共同トレーニングについてお話ししましょう。

OPPO のシナリオでは、メディアの属性、広告主の好み、その他の理由により、さまざまなメディアでの広告の配信は大きく異なります。これには以下のオプションがあります。

最初のアプローチは完全に独立することです。各メディアは個別にモデル化、トレーニング、推定されます。しかし、複数のモデルを最適化して維持するためのコストは比較的高く、メディア間の共通点を学習する方法はありません。

2 番目のアプローチは完全な統合です。主な特徴は、ネガティブサンプルの共有と共同トレーニングであり、サービス中は 1 つのモデルのみが使用されます。ただし、メディア間の違いを反映することは困難です。

もう 1 つのアプローチは、共同トレーニングと独立したモデリングです。異なるメディアからのサンプルは独立していますが、共同でトレーニングされます。モデル構造は上図の左側に示されています。異なるメディアには独自の広告タワーがあり、すべてのメディアはユーザータワーを共有しています。このとき、異なるメディアの広告埋め込みは独立しています。このアプローチは、メディアの共通性を維持できるだけでなく、メディアの個別性を学習し、統一された方法で最適化および反復することもできます。このアプローチは、いくつかの小規模なシーンでメリットを実現しており、現在は大規模なシーンでも推進する予定です。

上記はサンプル最適化の簡単な紹介です。リコールはまさにサンプルの技術、より具体的にはネガティブサンプルの技術であることがわかります。私たちの作業の多くは、ネガティブサンプルの最適化を中心に行われています。ただし、サンプルはモデルの上限を決定することしかできません。この上限に近づくには、モデルの最適化が必要です。

5. モデル最適化の検討

次はモデル最適化の探索部分です。主に 2 つの部分から構成されます。最初の部分は 2 つのタワー間の相互作用の最適化に関するもので、2 番目の部分は一般化の最適化に関するものです。

1. ダブルタワーインタラクションの最適化 - 全体

計算の複雑さの制約により、リコールには二重タワー構造が一般的に使用されます。しかし、デュアルタワー構造の欠点は、ユーザーとアイテムのやり取りが遅くなり、大量の情報が失われることです。この問題に対応して、業界ではいくつかの調査作業が行われてきましたが、それは簡単に次のように分類できます。

最初のタイプは、SENet や並列 2 つのタワーなど、2 つのタワーの相互作用時間を変更せずに相互作用ベクトルの情報量を増やすものです。もう 1 つは、DAT、IntTower、MVKE などの 2 つのタワー間の相互作用の瞬間を早めることです。もう 1 つの方法は、モデルを変更せずに、機能を通じて相互作用することです。たとえば、同じ物理的意味を持つ機能は埋め込みを共有できますが、これも暗黙的な相互作用です。次に、これら3つのカテゴリから、実際に効果をあげたモデルをそれぞれ1つずつ選び、詳しく紹介していきます。

2. 相互作用ベクトルの有効情報量の向上 - SENet

1 つ目は SENet です。 SENet は当初、画像の分野で使用されていました。SENet は、特徴に対してパーソナライズされた重み付け (特徴アテンションに多少似ています) を実行し、重要な特徴を強調表示し、重要でない特徴を抑制することで、前述の「インタラクションベクトル情報の過剰な損失」の問題を軽減します。結果は上の図の左側に示されています。SENet は私たちのシナリオで大きな成果を達成しています。

さらに重要なことは、SENet の特徴の重みと特徴の重要度が非常に高い正の相関関係にあることです。その後の多くの特徴効果や重要性の分析では、SENet の特徴の重みを直接参照として使用します。

3. 2つのタワーの相互作用時間が早まる - DAT

2つ目は、MeituanのDATで、中国語名は二重強化ツインタワーモデルです。主な最適化ポイントは、ベクトル相互作用の時間を早めることです。最適化コンテンツは主に 2 つの部分で構成され、最初の部分は AMM と呼ばれ、2 番目の部分は CAL と呼ばれます。

ここでは主に AMM について説明します。 Meituan のデュアルタワーは、クエリタワーとアイテムタワーで構成されています。クエリタワー (上の図の緑色の部分) に新しい強化ベクトルが追加されます。これは、アイテムタワーの埋め込みの最後のレイヤーに可能な限り類似したものになることが期待されます。同様に、アイテムタワーにも拡張ベクトルがあり、これはクエリタワーの最後の出力埋め込みに可能な限り類似しています。このようにして、2 つのタワー間の相互作用が強化されます。

実験により、AMM 機能を追加した後、効果が大幅に改善されることが示されました。同時に、AMM 特徴を入力するときに下位の特徴を選択すると、改善がより顕著になります。最適な特徴を選択するためのルールは、ユーザー側では比較的一般化された特徴を使用し、アイテム側ではよりスパースでより具体的な特徴を使用することです。優先機能の方が効果的である理由は、ユーザー側の強化ベクトルが実際にはそれほど強力なパーソナライゼーションを必要としないことが原因であると推測されます。

4. 基礎となる機能の暗黙的な相互作用

最後は機能の暗黙的な相互作用です。デュアルタワーモデルでは、ユーザータワーとアイテムタワーに同じ物理的意味を持つ特徴がいくつかあることがよくあります。これらの特徴を共有する埋め込みは、直接的なトレーニングよりも優れています。私たちのシナリオには、セマンティックラベル機能と呼ばれるこの種の機能もあります。この特徴をマイニングする方法は、上図の左側に示されています。広告の意味情報を抽出し、それをビッグモデルに入力して、いくつかのラベルを追加します。これらの広告ラベルは、広告とユーザー間のインタラクションに基づいてユーザーに割り当てられるため、ユーザーと広告の両方にこれらのラベルが付きます。モデルをトレーニングする際、上図の左下に示すように、ユーザータワーとアイテムタワーのセマンティックラベルが埋め込みテーブルを共有するようにします。実験により、このソリューションによりオフライン指標がわずかに改善されることが示されました。

5. 一般化最適化

リコールの中核となる幹線道路リコールは、「ほとんどの問題」を解決する役割を担っている。しかし、広告や媒体、ユーザー、時間の粒度に違いがある場合が多く、その違いの共通点や個別の特徴を知ることは困難です。具体的には、広告の観点からは新しい広告と古い広告があり、メディアの観点からはさまざまなメディアがあり、ユーザーの観点からは活動性の高いユーザーと活動性の低いユーザーがおり、時間の観点からは、毎日、週末、休日、ダブルイレブンなどがあります。本質的に、ここで解決する必要がある問題は、「混合分布下での差別化された精密モデリング」の問題です。

業界もこの問題に関していくつかの調査を行ってきました。 Youtube の BiasNet のように、バイアスタワーを直接使用して最下層まで浸透するなど、パーソナライズ機能を直接強化するものもあれば、Tencent の MVKE や Google の CDN などのマルチエキスパートソリューション、Kuaishou の POSO や PPNet などの動的重み付け、そして融合方式もあります。次に、実際に一定の効果が得られている 2 つの方法、CDN と PPNet を紹介します。

6. コールドスタートの最適化 - CDN

まずはCDNを利用する背景をご紹介します。最初に反復を高速化するために、メインルートモデルはメインルートリコールだけでなく、新しい広告リコールブランチのコールドスタートにも使用されました。これには、メインモデルで新しい広告のランキング効果を考慮する必要があります。しかし、メインモデルのトレーニングセットでは、新しい広告の割合は確かに比較的小さいです。同時に、新しい広告の特徴は明らかに古い広告と異なるため、新しい広告の一部の情報と特徴が埋もれてしまい、新しい広告の有効性が保証されません。そこで、私たちは2023年にGoogleが提案したCDNモデルを参考にし、新たな広告の効果を最適化したいと考えました。

CDN の構造は、上図の左側の赤いボックスで示されています。基本的には、アイテムの特徴をメモリ特徴と一般化特徴に分割し、2 つのエキスパートを使用して学習し、最後にゲートを介して 2 つのエキスパートの重み付け融合を実行します。記憶特徴には主に項目のスパース特徴が含まれ、一般化特徴には主に統計特徴が含まれます。オンライン実験では、新しい広告のコールドスタート効率が 10% 向上したことが示されており、これは非常に印象的です。

7. マルチシナリオ最適化 - PPNet

次はマルチシナリオ最適化について紹介します。前述のサンプルレベルの最適化に加えて、モデルレベルの最適化もあります。

まず、背景を説明します。 OPPO には、テキスト情報ストリーム、ビデオストリームなど、多くのシーンタイプがあります。これらのシナリオを一緒にトレーニングする場合、共通性と個別性のバランスをどのように取るのでしょうか?

KuaishouのPPNetを参考にしており、実装方法は上図の左側の赤枠内に示されています。本質は、パーソナライズされたゲーティングネットワークを使用して、元のモデルに対してパーソナライズされた重み付けを動的に実行し、何千ものメディアと顔を持つモデルを取得することです。この方法により、効果が向上することがわかりました。

ただし、注意すべき点は、メディア ID を Gate コントロールに直接入力した場合、改善は比較的わずかになることです。専門家の知識を通じてこれらのゲート入力に対して何らかの集約が行われると、PPNet はその力を発揮し始めます。集約方法は、類似した属性または類似したユーザー行動を持つメディアを集約することです。最後に、異なるメディアに異なるバッチノルム（DBN）を使用すると、モデルのパフォーマンスがさらに向上します。

VI. 展望

前回の記事では、今年のOPPOリコールの主な関連作業を紹介しました。次回は、いくつかの展望についてお話しします。

まず、現在の ECPM ブランチは比較的シンプルですが、LTR メインロードを補完できるため、将来的には ECPM ブランチにいくつかの作業を行う予定です。

第二に、広告の推奨は全体として、広告の商業化とクリエイティブインテリジェンスへと移行しています。この傾向により、リコールとソートの分業も変化します。もちろん、リコールは、下流企業が最も価値のある広告を見つけるのに役立ち、このポジショニングは変化しません。

上記はこの共有のすべての内容です、ありがとう。

vii

Q1：リコールアルゴリズムが複雑すぎるとどう思いますか？

A1：解決したい問題の種類に依存するため、リコールアルゴリズムの複雑さを要求することはできません。たとえば、Oppoのリコールの現在の位置は「単一のメインロードと複数の補助道路」です。一部の従来の企業のリコールは「マルチメインリコール」であり、人気リコールの重ね合わせ、統計的リコール、関心のリコールなど、各リコールパスは比較的単純であり、アルゴリズムを複雑すぎる必要はありません。

Q2：リコールを学習するためにリコールを要求することで、リコールがより制限されますか？

A2：制限がSSBの問題として理解されている場合、実際、この問題は常にリコールに存在していました。以前のギャップは、リコールされた候補者の数から暴露された候補者へのものでした。それらを思い出し、今すぐ精度ランキングを行う方法を学ぶ場合、ギャップはすべての候補者から精密なランキングのトップ広告までのものになります。この方法ではSSBをある程度緩和しますが、SSBの問題には長期的な調査と解決策が必要です。

Q3：オフライン評価インジケーターのnとKはどのように決定されますか？

A3：さまざまなシナリオでは、nとkの値は異なります。

Kは、特定のビジネスシナリオに従って決定する必要があります。たとえば、情報の流れでは、通常、いくつかの広告が表示されるため、Kは1〜3である場合があります。

nの値はモデル効果とKに関連しています。nが大きいほど、タスクは簡単です。タスクが単純すぎて、0.99などのリコールが非常に高い場合、最適化はタスクが難しすぎて非常に少ない場合、多くの最適化が反映されない場合があります。 NとKの特定の組み合わせは、シナリオとモデルに従って調整する必要があります。

Q4：リコールフェーズでサンプルを設計するとき、単純なサンプルの比率はどのように調整されますか？

A4：候補セット全体からユーザーが興味を持っている広告を見つけることができます。

簡単で困難なサンプルの比率は、実践を通じて決定されます。たとえば、Facebookの論文は、困難なサンプルの比率は100対1であると述べました。私たちのシナリオはそれほど違いはありませんが、かなり似ています。

Q5：AUCがオフラインリコール評価に使用されるのはなぜですか？あなたのオフラインのリコール評価とオンライン結果は一貫していますか？

A5：リコールフェーズでは、AUCはガードレールインジケーターのようなものです。これは、リコールの全体的なランキングに大きな分布の問題がないことを確認するためです。これに基づいて、リコールを改善するために最善を尽くします。さらに、オフラインインジケーターのほとんどの全体的な傾向は、オンラインインジケーターの傾向と一致しています。もちろん、オフラインとオンラインの改善率がまったく同じであることを保証することはできません。

<<: 60年ぶり！ AI が新しい抗生物質の最初のバッチを発見し、MIT の主要な研究が Nature に掲載されました。人類はスーパーバグとの戦いに希望を持っている

>>: 大規模モデルアプリケーションの探索 - エンタープライズナレッジスチュワード