美団テイクアウト広告のためのインテリジェントコンピューティングパワーの探求と実践

著者 | 嘉宏、舜慧、郭良他

ディープラーニングの時代では、コンピューティングパワーの需要と消費が増加しています。コンピューティングパワーのコストを削減し、コンピューティングパワーの効率を向上させる方法が、徐々に重要な新しいトピックになってきました。インテリジェントなコンピューティングパワーは、トラフィックコンピューティングパワーの割り当てを洗練およびパーソナライズし、システムコンピューティングパワーの制約下でビジネス上のメリットを最大化することを目的としています。

1 事業背景

美団のフードデリバリー事業の急速な発展に伴い、フードデリバリー広告システムへの圧力はますます大きくなり、コンピューティングパワーが新たなボトルネックになり始めています。 2021年上半期、フードデリバリー広告のいくつかの事業ラインでコンピューティングリソースが不足し始め、コンピューティングパワーの割り当て効率を早急に改善する必要がありました。食品配達のシナリオでは、トラフィックは明確なバイモーダル構造を示します。広告システムはピーク時にパフォーマンスに対する大きなプレッシャーに直面し、非ピーク時には大量のコンピューティングパワーの冗長性があります。インテリジェントなコンピューティングパワーは、トラフィックコンピューティングパワーの割り当てを洗練およびパーソナライズし、システムコンピューティングパワーの制約下でビジネス上のメリットを最大化することを目的としています。

この記事は、広告インテリジェントコンピューティングパワーに関する一連の記事の2番目です。最初の記事「Meituanテイクアウト広告インテリジェントコンピューティングパワーの探求と実践」[1]では、テイクアウトシナリオ向けにAlibaba DCAF [2]線形計画法ソリューションを最適化し、弾性キュー向けのローカル最適コンピューティングパワー割り当てソリューションを実装しました（以下、「フェーズI」と呼びます）。上図に示すように、テイクアウトディスプレイ広告リンクでは、リコールチャネルとモデル意思決定の両方で固定戦略が使用されているため、コンピューティング能力が不十分な場合は、高品質のトラフィックによってもたらされるメリットの一部が失われます。

本稿では、進化的アルゴリズムに基づくマルチアクションコンピューティング割り当て法 ES-MACA (Evolutionary Strategies based Multi-Action Computation Allocation) を提案します。テイクアウト広告リンクでは、エラスティックチャネル、エラスティックキュー、エラスティックモデルの 3 つのアクションが同時に決定されます。事後アクション決定では、フロントエンドモジュールの決定によって引き起こされる状態変化を考慮し、マルチタスクモデルジョイントモデリングを使用してシステムシミュレーション（オフラインシミュレーション+利益推定、異なる決定アクション下での利益評価機能の実現）を実装し、リンク全体の最適なコンピューティングパワー割り当てを実現します。 ES-MACAは、第1号と比較し、テイクアウトディスプレイ広告事業ラインにおいて、CPM + 1.x%、収益 + 1.x%を達成しました。

2 全体的な考え方

膨大なオンライントラフィックの圧力と膨大な候補セットに対処するために、テイクアウト広告配信システムは、検索プロセス全体を、候補セットが減少する漏斗型のカスケードアーキテクチャに設計します。これには主に、リコール、粗いランキング、細かいランキング、メカニズムなどのモジュールが含まれます。最初のフェーズでは、コンピューティング能力の割り当て手段を弾性アクションとして定義し、テイクアウトシナリオと組み合わせて、弾性キュー、弾性モデル、弾性チャネル、弾性リンクの 4 つのアクションをまとめました。具体的なアクションは次のように定義されます。

エラスティックキュー: オンライン検索はファネルプロセスです。カスケードファネルの各モジュールでは、異なる値フローに異なる候補キューの長さを割り当てることができます。
弾性モデル: モデル推定サービスでは、さまざまな値フローに対して異なるサイズのモデルを選択できます。大きなモデルは小さなモデルよりも推定効果は優れていますが、より多くの計算能力も消費します。
柔軟なチャネル: リコールシナリオでは、さまざまな値フローで、複雑さやリコールチャネルの数が異なるリコールチャネルを選択できます。
柔軟なリンク: 検索リンクでは、さまざまな値フローがさまざまな複雑さの検索リンクを選択できます。

2.1 計算能力割り当て問題の形式的記述

M 個の計算能力決定モジュールを含むリンクでは、リンク全体に対する最適なインテリジェント計算能力の目標は、一般的に次のように説明できます。M 個のモジュールの計算能力レベルをインテリジェントに決定することにより、全体的な計算能力が制約を満たしながら、全体的なトラフィック収益を最大化できます。この問題の一般的な正式な説明は次のとおりです。上記は、複数のコンピューティングパワー決定モジュールのシナリオです。テイクアウトディスプレイ広告では、コンピューティングパワーと収益に敏感な決定モジュールは、広告リコール戦略、正確なランキングキューの長さ、正確なランキング推定モデルであり、それぞれ弾性チャネル、弾性キュー、弾性モデルの 3 つのアクションに対応します。この号では、エラスティックチャネル、エラスティックキュー、エラスティックモデルという 3 つのモジュールの計算能力の共同意思決定について検討します。複数のモジュールが共同で決定を下す場合、同じリクエストに対する異なるモジュールのアクションは相互に影響を及ぼします。次の図に示すように、弾性チャネルの決定結果によって実際のリコールキュー (候補キューの長さや広告の種類などの情報を含む) が決定され、弾性キューの入力状態に直接影響します。同様に、弾性キューの決定結果は弾性モデルの入力状態に影響します。そのため、マルチアクションジョイントモデリングでは、決定アクションがシステムと対話し、システム状態プロセスにより適合できるように、要求「状態」機能を追加しました。

2.2 課題分析

フードデリバリーインテリジェントコンピューティングパワーの第1フェーズでは、フードデリバリー広告シナリオ向けのDCAFソリューションに基づいて一連の調査と改善を実施し、初めて弾性モデル割り当てを試み、良好な収益を達成しました。近年、アリババのCRAS[3]方式は、事前スケジューリング、粗いスケジューリング、細かいスケジューリングの共同最適化のための共同最適計算能力割り当て線形計画方式を提案した。弾性アクションの分類から、ソリューションは 3 つの弾性キューの共同最適化問題をエレガントな方法で解決します。いくつかのデータ分析と合理的な仮定を通じて、CRAS は元の問題を 3 つの独立した類似のサブ問題に分解し、3 つのサブ問題を個別に解決します。

ただし、既存のソリューションは線形計画法に基づいており、1 つ以上の弾性キュー最適化問題にのみ焦点を当てています。弾性チャネルや弾性モデルなどの非弾性キューアクションの組み合わせに直面した場合、ソリューションを直接移行することはできません。特に、制約や最適化の目的が変わると、線形計画法ソリューションでは特定のビジネス問題を再モデル化して解決する必要があり、多くの人材が必要になります。さらに、既存の線形計画法ソリューションの問題モデル化と解決プロセスには、ビジネスデータに関連する強力な仮定が含まれていることがよくあります。これらの仮定は新しいビジネスでは満たすのが難しい場合があり、既存のソリューションを拡張して新しいビジネス問題に移行することがさらに難しくなります。

フードデリバリーシナリオの LBS 制限により、フードデリバリー広告の候補キューは、非 LBS 電子商取引シナリオよりも短くなり、複雑な事前分類、大まかな分類、細かい分類のプロセスが必要ありません。リンク全体では、リコールチャネル、精度ソートキューの長さ、精度ソート推定モデルなどのモジュールの計算能力の割り当てに注目しています。これらのモジュールは、実際には計算能力に敏感です。全体として、Meituan のフードデリバリー広告シナリオのチェーン全体に最適なコンピューティング能力を割り当てるという課題には、主に次の 2 つの側面が含まれます。一般化の問題

課題: 既存のソリューションはビジネスとあまりにも密接に結びついています。一方では、制約や最適化の目標が変わると、線形計画法ソリューションでは特定のビジネス問題を再モデル化する必要があります。他方では、特定のビジネスラインでは、ビジネスデータの特性に基づいて強力な仮定を追加する必要があることがよくあります。テイクアウト広告には現在 10 を超える事業ラインが含まれており、各事業ラインには複数のコンピューティング能力の意思決定シナリオがあります。各事業ラインの各シナリオを個別にモデル化すると、人件費が膨大になります。
対応戦略: 一般的なソリューションを採用し、基本的な一般的な機能に統合して、広告ビジネスのさまざまなコンピューティングパワーの意思決定シナリオを強化し、コストを削減し、効率を高めます。

逐次決定問題

課題: チェーン全体にコンピューティング能力を割り当てる場合、複数の意思決定モジュールが相互に結合され、現在のトラフィックの最終的なコンピューティング能力と収益に共同で影響します。下の図に示すように、事前アクション決定が行われた後、アクション決定後の相互作用結果を取得するには、実際の環境と相互作用する必要があります。システム状態の転送はモジュール間で行われ、トラフィックの利点は最後の決定モジュールが決定を完了した後にのみ得られます。これにより、従来の方法でモデル化することが困難になります。

解決策: リンク全体の最適なコンピューティング能力割り当て問題をモデル化するプロセスで、各リンクにシステムの「状態」転送プロセスを追加し、後部モジュールは前部モジュールの決定結果と要求ステータスに基づいて決定を行います。

上記 2 つの問題を考慮して、テイクアウト広告チェーン全体の最適な計算能力割り当て問題を多段階決定問題 (各決定モジュールが決定段階に対応) としてモデル化し、リコール計画、切り捨てキュー、推定モデルを時系列順に決定します。各ステージで、エージェントは環境と対話して決定を下し、エージェントのパラメータは進化アルゴリズムまたは強化学習を使用して解決できます。

フルリンクのコンピューティング能力割り当てプロセスは、マルコフ決定プロセス (MDP) または部分的に観測可能なマルコフ決定プロセス (POMDP) としてモデル化できます。上図に示すように、状態遷移は隣接する 2 つのステージ間で発生します。各ステージには異なる候補アクション (リコール戦略、切り捨て長、推定モデル番号など) があります。最後のステージのアクションが実行された後、システムフィードバックを通じて報酬が得られます。

オンラインログデータを収集し、オフライン強化学習 (オフライン RL) を使用してエージェントを解決できます。オンライン収益の損失を心配しない場合は、オンライン強化学習 (オンライン RL) を使用してエージェントを解決することもできます。しかし、ビジネスシナリオの複雑さにより、各段階での計算能力の制約を統一することは困難です。オフライン強化学習とオンライン強化学習はどちらも、多段階の強力な制約をモデル化して解決するのが難しいという問題に直面しています。

広く使用されている堅牢なグローバル最適化手法として、進化型アルゴリズムには次のような利点があります。

局所最適値を回避する: 進化アルゴリズムのパラメータ検索プロセスにはある程度のランダム性があり、局所最適値に陥ることは容易ではありません。
並列化可能: 進化アルゴリズムのパラメータ検索プロセスは並列化できるため、評価プロセスの時間のかかる問題を軽減できます。
広く使用されています: 進化的アルゴリズムは、事前の知識をあまり必要とせずに、不連続、微分不可能、非凸の最適化問題を処理できます。
シンプルで使いやすい: クロスエントロピー法 ( CEM ) などの一部の進化アルゴリズムは、制約問題を直接解決することなく、さまざまな制約問題をエレガントに解決できます。

進化型アルゴリズムは、テイクアウト広告のシナリオにおける問題を効果的に解決できます。他のビジネスラインに簡単に拡張でき、さまざまな意思決定の問題を非常に便利にモデル化できます。したがって、今回の課題では、テイクアウトシナリオのリンク全体に対する最適な計算能力の割り当ての問題を解決するために、進化的アルゴリズムを選択します。今後の作業では、強化学習ソリューションの使用を試みます。このセクションの反復パス（図）に示すように、フェーズ 1.5 では進化的アルゴリズムに基づくシングルアクションコンピューティングパワー決定方法 ES-SACA（進化的戦略に基づくシングルアクションコンピューティング割り当て）を試し、コンピューティングパワー割り当てシナリオにおける進化的アルゴリズムの有効性を検証しました。次に、本稿では、進化的アルゴリズムに基づくマルチアクションコンピューティングパワー意思決定手法 ES-MACA について主に紹介します。

3. ソリューション設計

広告システムのリンク全体で最適な計算能力の割り当てを実現するために、次の意思決定計画を設計しました。

オフライントレーニング: 決定エージェントのパラメータをランダムに選択し、履歴トラフィックをバッチで再生し、エージェントが広告配信シミュレーションシステムと対話して状態転送プロセスを完了します。エージェントパラメータはシステムによって返された報酬に基づいて最適化され、オフラインの最適なエージェントパラメータが最終的に出力され、オンラインに同期されます。

オンライン意思決定: 単一のオンラインリクエストに対して、オフラインの最適なエージェントを使用してオンラインシステムと対話し、意思決定を行います。

今回は、進化アルゴリズムを使用してエージェントパラメータを解決します。進化アルゴリズムのパラメータ最適化の核心は、組み合わせたアクションの価値の評価です。状態転送プロセスが関係するため、組み合わせたアクションの価値の評価は、単純な教師あり学習の問題ではなくなります。エージェントは、システムから利益を得る前に、システムと対話し、最終段階のアクションが完了するまで、順番に意思決定アクションを実行する必要があります。簡単な解決策としては、エージェントがオンラインで学習し、システムと対話しながら独自のパラメータを最適化できるようにすることですが、オンライン学習はビジネス上のメリットに影響を与えるため、当社としては受け入れられません。この問題を解決するために、オンライン広告システム環境をシミュレートする広告シミュレータを構築しました。シミュレータはエージェントと対話し、報酬に関するフィードバックを提供します。

3.1 チェーン全体に対する最適な計算能力の決定

3.1.1 問題のモデリング

フードデリバリー広告の配信シナリオに従って、進化アルゴリズムに基づいて問題全体を次のようにモデル化します。

（１）弾性チャネル：想起行動、１次元ベクトル、チャネルが呼び出されるかどうかを示します。

（２）エラスティックキュー：切り捨て長さ、整数値。

（３）弾性モデル：モデル番号、整数値。

ステータス: コンテキスト機能、リクエストキュー機能など (事後決定モジュールのステータスは、事前決定モジュールの決定に依存します。たとえば、エラスティックチャネルの決定は、エラスティックキューのキューの長さに直接影響します)。
アクション: 段階によって定義が異なります。
報酬: 収益目標はビジネス収益です。ソリューションパラメータがコンピューティングパワーの制約を満たすように、コンピューティングパワーの制約が報酬に追加されます。制約が厳しくなるほど、計算能力係数は大きくなります。

3.1.2 オフラインパラメータソリューション

オフラインパラメータソリューションは、主に進化アルゴリズムパラメータ最適化と報酬評価の 2 つのモジュールに分かれています。

パラメータ最適化モジュール: 一般的な進化アルゴリズムのパラメータ検索プロセスを実装し、パラメータの初期化、パラメータの評価 (報酬評価モジュールに依存)、パラメータのサンプリング、パラメータの進化を担当し、最終的に最適なパラメータを出力します。
報酬評価モジュール: 指定されたエージェントの特定のパラメータに基づいて、オンライントラフィックをバッチ再生し、エージェントが環境と対話できるようにし (オフラインシミュレーション)、最終的に対話結果に基づいて現在のパラメータに対応する収益を推定します。

3.1.2.1 パラメータの最適化

パラメータ最適化モジュールは、進化的アルゴリズムを使用してパラメータを解決します。この記事では、CEM を例に、パラメータ解決プロセスを詳しく説明します。

パラメータの初期化: パラメータの平均と分散を初期化し、指定された平均と分散に従って N 個のパラメータグループをランダムにサンプリングします。
報酬評価

オフラインシミュレーション: トラフィックを再生し、現在のパラメータに対応するエージェントがオフラインシミュレータと対話して状態転送プロセスを完了します。すべてのモジュールが意思決定を完了すると、オフラインシミュレーションモジュールは再生されたトラフィック対話結果を出力します。
収益の見積もり: 再生されたトラフィックインタラクションの結果に基づいて、現在のインタラクションの結果に基づく予想収益を見積もります。

パラメータの選択: パラメータに応じてトラフィックの予想される利点を組み合わせ、すべてのトラフィックに最も高い全体的な利点をもたらすパラメータの上位 K グループを選択します。
パラメータの進化: Top-K パラメータに基づいて新しいパラメータの平均と分散を計算します。
パラメータサンプリング: 新しい平均と分散に従って N 個のパラメータグループを再サンプリングし、パラメータの平均と分散が収束するまで 2 番目のステップに進みます。

ヒント: このシナリオでは、NES ソリューションは CEM ソリューションほど効果的ではありません。その理由は、NES では制約付き問題 (特に複数の制約付き問題) に対する報酬設計の要件が高すぎるためです。実際のシナリオでは、制約を厳密に満たすパラメータを解決するのは困難です。 3.1.2.2 報酬評価オフライン報酬評価プロセス: オフライントレーニング中に、選択されたエージェントと履歴トラフィックに対して行われます。

ステップ 1: シミュレーターはトラフィックの初期状態特性を構築し、それをエージェントにフィードバックします。
ステップ 2: エージェントは、シミュレータによって指定された交通状態の特性に基づいて、リコールチャネルギアの決定を行います。
ステップ 3: シミュレータは、エージェントによって与えられたリコール決定結果に従ってキューをリコールし、リコール結果をエージェントにフィードバックします。
ステップ 4: エージェントは、リコール結果と初期トラフィックステータスに基づいてキューの長さを決定します。
ステップ 5: シミュレーターは、エージェントによって提供されたキューの長さの決定結果に従って切り捨て操作をシミュレートし、切り捨て後のキューの状態をエージェントにフィードバックします。
ステップ 6: エージェントは、切り捨てられたキューに基づいて推定モデル番号を決定します。
ステップ 7: シミュレーターは、モデル番号の決定に基づいて、広告リストセットと決定関連の機能を提供します。
ステップ 8: オフラインでシミュレートされた広告リストの結果を収益推定モデルに入力して、各リクエストに対応するオフライン収益を推定します。
ステップ 9: 現在のエージェント戦略の評価結果として、トラフィック全体の報酬をカウントします。

3.1.2.2.1 オフラインシミュレーション

オンライン環境とのインタラクションのジレンマ（オフラインシミュレーションの必要性）：理論的には、意思決定エージェントはオンライン環境とインタラクションすることで最も現実的な報酬フィードバックを得ることができますが、オンライントラフィック探索を直接使用すると、次の問題が発生します。

オンライン収益の損失: エージェント収益のオンライン探索プロセスは、特に戦略決定がほぼランダムで、オンラインコンピューティング能力の制約と収益が保証されない戦略学習の初期段階では、損失を伴います。
トラフィック利用率が低い: エージェントの学習には、数十回または数百回のトレーニングラウンドが必要になることが多く、各トレーニングラウンドには複数の実行可能なパラメータセットが含まれます。信頼性の高いトラフィックデータを蓄積するには、各パラメータセットのトラフィックが小さすぎることはできません。全体として、トレーニング時間と効率は許容できないものになります。

オフラインシミュレーションの最終的な目標は、オンラインインタラクションロジックと収益フィードバックを再現することです。

基本的な考え方: 複雑なオンライン環境を完全に再現することは不可能ですが、オンライン環境のインタラクションロジックを参考にすることで、オフライン広告システムシミュレーターを使用して効率と精度のトレードオフを行うことができます。
その他のモジュール: この目標を達成するために、特定の広告キュー情報については、教師あり学習モデルを使用してトラフィック報酬を推定できます。

オフラインシミュレーション + 収益予測ソリューション:

オンラインランダム探索トラフィック: 少量のランダム探索トラフィックをオンラインに残し、各段階で候補アクションをランダムに決定し、トラフィックログとオンラインシステムのインタラクション結果を記録します。
オフラインシミュレーションシステム: オンラインロジックに基づいて、システムは履歴トラフィックログ、リコール、キューの切り捨て、大まかな CTR 推定などのロジックをシミュレートし、オフラインインタラクションの結果を生成します。
収益推定: オフライン報酬評価のコアモジュールとして、収益推定はパラメータの進化方向を決定します。次のセクションでは、収益推定スキームについて詳しく紹介します。

3.1.2.2.2 収益見積

目標と課題

データのスパース性の問題: モデリングリンクが長いため、ユーザーのコンバージョンデータが非常にスパースな場合、トラフィックのほとんどにコンバージョンアクションがありません (つまり、マーチャントの利益は 0 になります)。

目的: オンラインの空白トラフィックとランダム探索トラフィックに基づいて、さまざまなアクションでのリクエストの予想される利点を推定します。
課題: 従来の広告における「ユーザー広告」粒度でのローカルリンク CTR、CVR、GMV 推定タスクとは異なり、この論文は、リクエストの露出、クリック、注文 (変換) の全プロセスを含むリクエスト粒度でのフルリンク収益推定です。問題はより複雑で、特にデータのスパース性の問題に直面しています。

モデル推定ソリューション

マーチャント収益データはまばらであるのに対し、露出とクリックのデータは比較的密であり、露出 (プラットフォーム収益)、クリック、注文 (マーチャント収益) は強く相関する動作であることを考慮して、この推定スキームでは、共同モデリングにマルチタスクモデルを使用します。

モデル設計
機能エンジニアリング
各ステージの特徴は離散化され、埋め込みを通じてモデルに追加されます。
異なるキュー長でのトラフィックデータの分布に応じて、キュー長などの特徴が手動でバケットに分割され、埋め込みを通じてモデルに追加されます。

3.1.3 オンラインでの意思決定

単一のオンラインリクエストの場合、オフラインの最適なエージェントを使用してオンラインシステムと対話し、決定を下します。オフライン評価プロセスと一致して、意思決定プロセスは次の順序で実行されます。

ステップ 1: システムは初期トラフィックステータスをエージェントにフィードバックします。
ステップ 2: エージェントは、システムのトラフィックの状態に基づいて、リコールチャネルギアの決定を行います。
ステップ 3: システムは、エージェントによって与えられたリコール決定結果に従ってキューをリコールし、リコール結果をエージェントにフィードバックします。
ステップ 4: エージェントは、リコール結果と初期トラフィックステータスに基づいてキューの長さを決定します。
ステップ 5: システムは、エージェントによって提供されたキューの長さの決定結果に従って切り捨て操作を実行し、切り捨て後のキューの状態をエージェントにフィードバックします。
ステップ 6: エージェントは、切り捨て後のキューの状態に基づいて推定モデル番号を決定します。
ステップ 7: システムは、エージェントによって指定されたモデル番号に従って見積サービスを呼び出します。

3.2 システム構築

インテリジェントコンピューティングパワーの第1フェーズでは、意思決定コンポーネントを中核とし、収集、調整、オフラインコンポーネントをサポートするインテリジェントコンピューティングパワーシステムの基本構築を完了しました。この号では、単一アクションのローカル最適意思決定から複数アクションの組み合わせ最適意思決定への拡張という中核的なニーズに焦点を当てています。システム構築の面では、複数のアクションの組み合わせに対する最適な意思決定の基本能力の構築に加えて、インテリジェントコンピューティングシステムの安定性と汎用性にさらに重点を置き、テイクアウト広告の全業務ラインにおけるインテリジェントコンピューティングシステムの包括的な応用をサポートします。

3.2.1 意思決定コンポーネントエージェント

意思決定コンポーネントエージェントは、インテリジェントコンピューティングパワーシステムのクライアントとして、広告配信システムのさまざまなモジュールに組み込まれ、システムトラフィックコンピューティングパワーの配分決定を担当します。今回は主に、意思決定機能の軽量化と洗練された反復と、関連機能の標準化された構築を実施しました。

意思決定能力において

軽量なマルチアクションの組み合わせ意思決定機能の構築: 進化的アルゴリズムに基づく軽量なマルチアクションの組み合わせ意思決定機能を実装しました。進化的アルゴリズムについては前回の記事で紹介しましたが、ここでは主に軽量について紹介します。

軽量化が必要な理由: 広告配信システムでは、オンラインレイテンシ要件が非常に厳しく、複数のアクションの下で順次決定を行う必要があります。決定の数は、理論的には決定アクションの数に等しくなります。したがって、オンライン RT 要件を満たすには、インテリジェントなコンピューティングパワーの決定は、効果を低下させることなく (またはわずかに低下させることなく)、可能な限り軽量化する必要があります。
構築方法：（1）ネットワーク遅延を削減するためのモデルのローカリゼーション。これは、モデル決定サービスを構築するのではなく、意思決定機能をSDKにカプセル化する主な理由でもあります。（２）モデルを軽量化する。特徴エンジニアリングにより特徴の数を可能な限り減らし、オンライン特徴処理のパフォーマンス負荷を軽減することができる。（３）並列意思決定処理：意思決定アクションは、全体のリンク時間を短縮するために、可能な限り既存のオンラインプロセスと並列に処理されるべきである。
軽量効果: 単一アクション決定と比較して、マルチアクションの組み合わせ決定では、広告リンク時間の消費が TP99+1.8ms と TP999+2.6ms となり、オンライン RT 要件を満たします。

洗練されたシステムステータスフィードバック制御機能の構築: システムステータスのリアルタイム収集と PID フィードバック制御アルゴリズムに基づいて、コンピューティングパワーギアのパラメータを微調整し、動的なコンピューティングパワー割り当てプロセス中の広告配信システムの安定性を確保します。

改良が必要な理由：広告配信システムでは、安定性が非常に重要です。単一アクションの意思決定から複雑なマルチアクションの意思決定まで、インテリジェントなコンピューティング能力の意思決定のパラメータレベルの数が増加し、システムの安定性への影響も増加しています。粗粒度のシステム状態フィードバック制御では、システムの安定性を保証できなくなりました。エラスティックキューソリューションの最初のフェーズでは、異常な安定性制御状況もありました。粗いクラスタシステム全体の状態データのみに基づいて安定性制御を実行すると、単一マシンのパフォーマンス異常が時々発生し、クラスタ全体の状態に劇的な変化が生じ、コンピューティングパワー制御が不安定になります。
構築方法: 一方で、システムステータスデータが洗練され、データの粒度がクラスターからコンピュータールーム、単一のマシンにまで洗練されます。同時に、データインジケーターはきめ細かいカスタム拡張をサポートします。一方、システム制御の目的と戦略は洗練されています。制御の目的は、クラスター全体の安定性から、コンピュータルームや単一のマシンの安定性まで多岐にわたります。システムステータスのリアルタイムフィードバック制御の最小単位をコントローラーと定義します。各制御目的をサポートするには、1 つまたは複数のコントローラーが必要です。さらに、単一マシンの粒度でのフィードバック制御をより適切にサポートするために、システム状態フィードバック制御機能を制御コンポーネントから決定コンポーネントに移行して再利用しました。決定コンポーネントは、コンテナ情報の読み取りと傍受により、単一マシンの粒度でいくつかの状態インジケーターを直接収集し、制御結果を組み込みマシンに適用して閉ループ制御を形成できます。単一マシンの粒度でのフィードバック制御は、収集コンポーネントのリンクフィードバックに強く依存しなくなり、システム状態フィードバックの遅延も数秒から数ミリ秒に短縮され、フィードバック制御の精度と効率が大幅に向上しました。

標準化の構築において

マルチアクションの組み合わせによる意思決定では、オンライン意思決定に新たな要件が提示されています。一方では、普遍性を考慮し、基本的な機能を蓄積する必要があります。他方では、より多くのアクションとビジネスシナリオを可能にするために、上位ビジネスとの結合を減らす必要があります。同時に、テイクアウト広告エンジニアリングアーキテクチャは、段階的なプラットフォーム構築を完了しました[4]。標準化はプラットフォーム構築の基礎です。したがって、インテリジェントコンピューティングパワー意思決定コンポーネントは、機能、データ、およびプロセスの面で標準化されています。インテリジェントコンピューティングパワーの標準化された構築は、単一アクションの意思決定から複数アクションの組み合わせの意思決定、さらには主要なビジネスシナリオ（点→線→面）までのインテリジェントコンピューティングパワーの包括的な構築にとって大きな意義を持っています。

機能標準化

最小の分割不可能な機能単位をアクションとして抽象化します。インテリジェントコンピューティングパワー意思決定リンクの主なアクションには、実験、特徴抽出、特徴計算、辞書処理、パラメータ処理、DCAF 決定、ES-MACA 決定、システム状態フィードバック制御、ログ収集、監視などがあります。アクションの再利用と拡張により、新しいアクションシナリオやビジネスラインでのアクセス効率が向上します。

データの標準化

広告プロジェクトのプラットフォーム構築では、コンテキストは、入力依存性、構成依存性、環境パラメータ依存性など、アクション実行の環境依存性を記述するために使用されます。インテリジェントコンピューティングパワーのオンライン意思決定では、主に標準化された入力と出力、決定機能、決定パラメーター、決定戦略などを含むインテリジェントコンピューティングパワーの環境依存関係をカプセル化および維持するために、広告の基本コンテキストの下でインテリジェントコンピューティングパワーコンテキストを拡張し、コンテキストに基づくアクション間のデータ相互作用を実現します。

プロセス標準化

ビジネスの呼び出しプロセスは、統一されたプロセス設計モデルの組み合わせです。

3.2.2収集および制御コンポーネント

コレクションコンポーネントは、広告配信システムのステータスデータをリアルタイムで収集し、標準化された前処理を実行します。制御コンポーネントは、システム全体のステータスのリアルタイム認識を達成し、システムモジュールの粒度を担当します。 ATA管理。

システムステータスのリアルタイムフィードバック制御の最小ユニットをコントローラーとして定義します。これには、1つ以上のモジュールのコンピューティングパワーが含まれます。決定が単一行動の決定から複数のアクションに拡大すると、これらのコントローラーの数が増加します。ここでは、主に不均一データの標準化と制御プロセスの一般化を実行し、基本的に開発と解放を必要とせずに新しい制御シナリオへの構成可能なアクセスを実現しました。

不均一なデータ標準化コレクションコンポーネントには、Meituanの監視システムCATによって報告されたビジネスデータ、Falconが収集した機械インジケーターデータ、およびいくつかの意思決定コンポーネントによって報告されたデータなど、複数の不均一なデータソースがあります。データフォーマットとコンテンツを分析した後、データをデータ型（タイプ）に基づいて、データを独立しています。特定のインジケーター（メトリック）には、 QPS、TP99、故障、およびその他の拡張インジケーターが含まれます。

制御プロセスの一般化

不均一なデータの統一された式では、一般的なコントロールプロセスを設計できます。

一般的な制御プロセスは、構成された入力インジケーターと制御戦略を取得し、異なる制御戦略に基づいて異なる戦略パラメーターを選択し、対応する出力結果を取得するために制御戦略を実行します。さらに、コントローラーの制御効率と安定性を最適化しました。食品供給のバイモーダルトラフィックシナリオでは、PIDアルゴリズムの累積誤差は、非ピーク時に大きすぎる傾向があり、その結果、ピーク時には長い制御サイクルとシステムステータスのフィードバック調整が遅くなります。

これに基づいて、効率と精度を向上させるために、スライディングウィンドウ入場と出口メカニズムを採用しました。下の図に示すように、各コントローラーについては、システムインジケーターがPIDターゲット値Tをマイナスすると、コントローラーが正常に認められ、システムインジケーターが補助式Qを把握している場合に、エラーが蓄積されます。クリアされた。

3.2.3オフラインコンポーネント

オフラインコンポーネントは、オフラインモデルトレーニングとパラメーターソリューションを担当し、主にサンプル収集、モデルトレーニング、パラメーターソリューションの3つの部分が含まれます。

サンプルの収集：オンライントラフィックでは、少量のランダム探索トラフィックが予約されており、リコールチャネル、キューの長さ、および異なる推定モデルでランダムな決定が行われます。
モデルトレーニング：ランダムトラフィックログのオフライン処理、トレーニングサンプルの生成、および収益推定のためのDNNモデルのトレーニング。
パラメーターソリューション：CEMソリューションプロセスでは、特定の戦略に対して、オンラインインタラクティブ環境がシミュレートされ、トラフィックリクエスト情報が生成され、収益推定モデルが使用され、現在の広告キューの収益を推定し、CEM戦略評価を実現します。

4つの実験

4.1実験セットアップ

システムコンピューティング容量の選択

コンピューティングパワー容量インジケーターの選択は、第1フェーズの選択と同じです。一方では、オンラインシステムをリアルタイムトラフィックに応じて迅速に調整できるようにするために、最小制御ユニットとして選択されています。

ベースライン選択の選択

インテリジェントコンピューティングパワー（固定決定）のないトラフィックは、コントロールグループとして機能します。

オフラインシミュレーター - トラフィック値の推定

過去14日間の非実験グループデータがトレーニングセットとして使用され、2段階のトレーニングが実施されました（ 1つ目の段階は完全なトレーニングであり、第2段階はランダム探査トラフィックトレーニングでした）。

オフラインパラメーターソリューション

食品配達シナリオでは、前年比および月の交通の変化の傾向は基本的に同じです。

4.2オフライン実験

実験的説明：

ベースライン：コンピューティングパワーCの下での決定結果を修正しました
弾性チャネルのみ：弾性チャネルのみの実験では、キューの決定とモデルの決定がベースライン固定スキームを使用し、弾性キューのみと決定モデルのみの実験グループが類似しています。
各モジュールに最適：弾性チャネル、弾性キュー、および弾性モデルは、現在のモジュールを学習するときに、前のモジュールのパラメーターが学習された最適なパラメーターに固定され、次のモジュールはベースライン固定ソリューションを使用します。
ES-Maca（フルリンク最適化）：弾性チャネル +弾性キュー +弾性モデルは同時に学習されます。

オフライン実験の結果から、次の結論があります。

3つの単一アクションの最適な結果の全体的な利点の合計は、サブモジュールの最適な結果よりも大きく、ES-MACAよりも大きく、3つのモジュール戦略が互いに影響を与えることを示しています。
サブモジュールに対する最適なソリューションの効果は、ES-MACAソリューションの効果ほど良くありません（ES-MACAはサブモジュールの最適なソリューションよりも0.53％の改善があります）。

4.3オンライン実験

1週間のオンラインABTEST実験を通して、テイクアウト広告におけるこのソリューションの利点を次のように検証しました。

実験設計の説明：

ベースライン：コントロールグループ、インテリジェントなコンピューティングパワーの意思決定なし。
柔軟なコホートのみ：実験グループ1、意思決定の柔軟なコホートのみ（最初のフェーズ計画と一致）。
ES-Maca（フルリンク最適化）：実験グループ2。これは、弾性チャネル、弾性キュー、弾性モデルを同時に決定します。

5. まとめと展望

この記事では、主に、Meituanのテイクアウト広告の技術的進化を、リニアプログラミングアルゴリズムから進化的アルゴリズムまで、2つの側面から進化的アルゴリズムまで、フルリンク最適なコンピューティングパワーの意思決定とシステム構築を紹介し、進化的アルゴリズム（ ES-Maca ）に基づくマルチアクションコンピューティングパワーアロケーションソリューションを提案します。将来的には、アルゴリズム戦略の観点から、システムの構築に関して、システムの構築の観点から、システムのフルリンクの組み合わせの下でのコンピューティングパワーの最適な割り当ての問題をモデル化して解決するために、Meituanの内部インフラ部門からのオンライン/近距離のパワーを拡大するために、オンライン/近距離システムを拡大することを試みます。データとコンピューティングパワーの可能性を完全にタップします。

6リファレンス

[1] Shunhui、Jiahong、Songwei、Guoliang、Qianlong、Lebinなど、 Meituanのフード配信広告のインテリジェントコンピューティングパワーの探査と実践。
[2] Jiang、Zhang、P.、Chen、R.、Luo、X.、Yank、Y.、Gai、K。（2020）
[3] Yang、Y.、Chen、C.、Tan、Q.、Yu、J。、＆Zhu、X。（2021）。
[4] Le Bin、Guo Liang、Yu Long、Wu Liang、Lei Xing、Wang Kun、Liu Yan、Si Yuan、et al。、 Advertising Platformization |