著者 | 嘉宏、舜慧、郭良 他 ディープラーニングの時代では、コンピューティングパワーの需要と消費が増加しています。コンピューティングパワーのコストを削減し、コンピューティングパワーの効率を向上させる方法が、徐々に重要な新しいトピックになってきました。インテリジェントなコンピューティング パワーは、トラフィック コンピューティング パワーの割り当てを洗練およびパーソナライズし、システム コンピューティング パワーの制約下でビジネス上のメリットを最大化することを目的としています。 1 事業背景美団のフードデリバリー事業の急速な発展に伴い、フードデリバリー広告システムへの圧力はますます大きくなり、コンピューティングパワーが新たなボトルネックになり始めています。 2021年上半期、フードデリバリー広告のいくつかの事業ラインでコンピューティングリソースが不足し始め、コンピューティングパワーの割り当て効率を早急に改善する必要がありました。食品配達のシナリオでは、トラフィックは明確なバイモーダル構造を示します。広告システムはピーク時にパフォーマンスに対する大きなプレッシャーに直面し、非ピーク時には大量のコンピューティング パワーの冗長性があります。インテリジェントなコンピューティング パワーは、トラフィック コンピューティング パワーの割り当てを洗練およびパーソナライズし、システム コンピューティング パワーの制約下でビジネス上のメリットを最大化することを目的としています。 この記事は、広告インテリジェントコンピューティングパワーに関する一連の記事の2番目です。最初の記事「Meituanテイクアウト広告インテリジェントコンピューティングパワーの探求と実践」[1]では、テイクアウトシナリオ向けにAlibaba DCAF [2]線形計画法ソリューションを最適化し、弾性キュー向けのローカル最適コンピューティングパワー割り当てソリューションを実装しました(以下、「フェーズI」と呼びます)。上図に示すように、テイクアウトディスプレイ広告リンクでは、リコールチャネルとモデル意思決定の両方で固定戦略が使用されているため、コンピューティング能力が不十分な場合は、高品質のトラフィックによってもたらされるメリットの一部が失われます。 本稿では、進化的アルゴリズムに基づくマルチアクションコンピューティング割り当て法 ES-MACA (Evolutionary Strategies based Multi-Action Computation Allocation) を提案します。テイクアウト広告リンクでは、エラスティック チャネル、エラスティック キュー、エラスティック モデルの 3 つのアクションが同時に決定されます。事後アクション決定では、フロントエンドモジュールの決定によって引き起こされる状態変化を考慮し、マルチタスクモデルジョイントモデリングを使用してシステムシミュレーション(オフラインシミュレーション+利益推定、異なる決定アクション下での利益評価機能の実現)を実装し、リンク全体の最適なコンピューティングパワー割り当てを実現します。 ES-MACAは、第1号と比較し、テイクアウトディスプレイ広告事業ラインにおいて、CPM + 1.x%、収益 + 1.x%を達成しました。 2 全体的な考え方膨大なオンライン トラフィックの圧力と膨大な候補セットに対処するために、テイクアウト広告配信システムは、検索プロセス全体を、候補セットが減少する漏斗型のカスケード アーキテクチャに設計します。これには主に、リコール、粗いランキング、細かいランキング、メカニズムなどのモジュールが含まれます。最初のフェーズでは、コンピューティング能力の割り当て手段を弾性アクションとして定義し、テイクアウトシナリオと組み合わせて、弾性キュー、弾性モデル、弾性チャネル、弾性リンクの 4 つのアクションをまとめました。具体的なアクションは次のように定義されます。
2.1 計算能力割り当て問題の形式的記述M 個の計算能力決定モジュールを含むリンクでは、リンク全体に対する最適なインテリジェント計算能力の目標は、一般的に次のように説明できます。M 個のモジュールの計算能力レベルをインテリジェントに決定することにより、全体的な計算能力が制約を満たしながら、全体的なトラフィック収益を最大化できます。この問題の一般的な正式な説明は次のとおりです。上記は、複数のコンピューティング パワー決定モジュールのシナリオです。テイクアウト ディスプレイ広告では、コンピューティング パワーと収益に敏感な決定モジュールは、広告リコール戦略、正確なランキング キューの長さ、正確なランキング推定モデルであり、それぞれ弾性チャネル、弾性キュー、弾性モデルの 3 つのアクションに対応します。この号では、エラスティック チャネル、エラスティック キュー、エラスティック モデルという 3 つのモジュールの計算能力の共同意思決定について検討します。複数のモジュールが共同で決定を下す場合、同じリクエストに対する異なるモジュールのアクションは相互に影響を及ぼします。次の図に示すように、弾性チャネルの決定結果によって実際のリコール キュー (候補キューの長さや広告の種類などの情報を含む) が決定され、弾性キューの入力状態に直接影響します。同様に、弾性キューの決定結果は弾性モデルの入力状態に影響します。そのため、マルチアクションジョイントモデリングでは、決定アクションがシステムと対話し、システム状態プロセスにより適合できるように、要求「状態」機能を追加しました。 2.2 課題分析フードデリバリーインテリジェントコンピューティングパワーの第1フェーズでは、フードデリバリー広告シナリオ向けのDCAFソリューションに基づいて一連の調査と改善を実施し、初めて弾性モデル割り当てを試み、良好な収益を達成しました。近年、アリババのCRAS[3]方式は、事前スケジューリング、粗いスケジューリング、細かいスケジューリングの共同最適化のための共同最適計算能力割り当て線形計画方式を提案した。弾性アクションの分類から、ソリューションは 3 つの弾性キューの共同最適化問題をエレガントな方法で解決します。いくつかのデータ分析と合理的な仮定を通じて、CRAS は元の問題を 3 つの独立した類似のサブ問題に分解し、3 つのサブ問題を個別に解決します。 ただし、既存のソリューションは線形計画法に基づいており、1 つ以上の弾性キュー最適化問題にのみ焦点を当てています。弾性チャネルや弾性モデルなどの非弾性キュー アクションの組み合わせに直面した場合、ソリューションを直接移行することはできません。特に、制約や最適化の目的が変わると、線形計画法ソリューションでは特定のビジネス問題を再モデル化して解決する必要があり、多くの人材が必要になります。さらに、既存の線形計画法ソリューションの問題モデル化と解決プロセスには、ビジネス データに関連する強力な仮定が含まれていることがよくあります。これらの仮定は新しいビジネスでは満たすのが難しい場合があり、既存のソリューションを拡張して新しいビジネス問題に移行することがさらに難しくなります。 フードデリバリーシナリオの LBS 制限により、フードデリバリー広告の候補キューは、非 LBS 電子商取引シナリオよりも短くなり、複雑な事前分類、大まかな分類、細かい分類のプロセスが必要ありません。リンク全体では、リコール チャネル、精度ソート キューの長さ、精度ソート推定モデルなどのモジュールの計算能力の割り当てに注目しています。これらのモジュールは、実際には計算能力に敏感です。全体として、Meituan のフードデリバリー広告シナリオのチェーン全体に最適なコンピューティング能力を割り当てるという課題には、主に次の 2 つの側面が含まれます。一般化の問題
逐次決定問題
上記 2 つの問題を考慮して、テイクアウト広告チェーン全体の最適な計算能力割り当て問題を多段階決定問題 (各決定モジュールが決定段階に対応) としてモデル化し、リコール計画、切り捨てキュー、推定モデルを時系列順に決定します。各ステージで、エージェントは環境と対話して決定を下し、エージェントのパラメータは進化アルゴリズムまたは強化学習を使用して解決できます。 フルリンクのコンピューティング能力割り当てプロセスは、マルコフ決定プロセス (MDP) または部分的に観測可能なマルコフ決定プロセス (POMDP) としてモデル化できます。上図に示すように、状態遷移は隣接する 2 つのステージ間で発生します。各ステージには異なる候補アクション (リコール戦略、切り捨て長、推定モデル番号など) があります。最後のステージのアクションが実行された後、システム フィードバックを通じて報酬が得られます。 オンライン ログ データを収集し、オフライン強化学習 (オフライン RL) を使用してエージェントを解決できます。オンライン収益の損失を心配しない場合は、オンライン強化学習 (オンライン RL) を使用してエージェントを解決することもできます。しかし、ビジネスシナリオの複雑さにより、各段階での計算能力の制約を統一することは困難です。オフライン強化学習とオンライン強化学習はどちらも、多段階の強力な制約をモデル化して解決するのが難しいという問題に直面しています。 広く使用されている堅牢なグローバル最適化手法として、進化型アルゴリズムには次のような利点があります。
進化型アルゴリズムは、テイクアウト広告のシナリオにおける問題を効果的に解決できます。他のビジネス ラインに簡単に拡張でき、さまざまな意思決定の問題を非常に便利にモデル化できます。したがって、今回の課題では、テイクアウト シナリオのリンク全体に対する最適な計算能力の割り当ての問題を解決するために、進化的アルゴリズムを選択します。今後の作業では、強化学習ソリューションの使用を試みます。このセクションの反復パス(図)に示すように、フェーズ 1.5 では進化的アルゴリズムに基づくシングルアクションコンピューティングパワー決定方法 ES-SACA(進化的戦略に基づくシングルアクションコンピューティング割り当て)を試し、コンピューティングパワー割り当てシナリオにおける進化的アルゴリズムの有効性を検証しました。次に、本稿では、進化的アルゴリズムに基づくマルチアクションコンピューティングパワー意思決定手法 ES-MACA について主に紹介します。 3. ソリューション設計広告システムのリンク全体で最適な計算能力の割り当てを実現するために、次の意思決定計画を設計しました。 オフライン トレーニング: 決定エージェントのパラメータをランダムに選択し、履歴トラフィックをバッチで再生し、エージェントが広告配信シミュレーション システムと対話して状態転送プロセスを完了します。エージェント パラメータはシステムによって返された報酬に基づいて最適化され、オフラインの最適なエージェント パラメータが最終的に出力され、オンラインに同期されます。 オンライン意思決定: 単一のオンライン リクエストに対して、オフラインの最適なエージェントを使用してオンライン システムと対話し、意思決定を行います。 今回は、進化アルゴリズムを使用してエージェントパラメータを解決します。進化アルゴリズムのパラメータ最適化の核心は、組み合わせたアクションの価値の評価です。状態転送プロセスが関係するため、組み合わせたアクションの価値の評価は、単純な教師あり学習の問題ではなくなります。エージェントは、システムから利益を得る前に、システムと対話し、最終段階のアクションが完了するまで、順番に意思決定アクションを実行する必要があります。簡単な解決策としては、エージェントがオンラインで学習し、システムと対話しながら独自のパラメータを最適化できるようにすることですが、オンライン学習はビジネス上のメリットに影響を与えるため、当社としては受け入れられません。この問題を解決するために、オンライン広告システム環境をシミュレートする広告シミュレータを構築しました。シミュレータはエージェントと対話し、報酬に関するフィードバックを提供します。 3.1 チェーン全体に対する最適な計算能力の決定3.1.1 問題のモデリングフードデリバリー広告の配信シナリオに従って、進化アルゴリズムに基づいて問題全体を次のようにモデル化します。 (1)弾性チャネル:想起行動、1次元ベクトル 、 チャネルが呼び出されるかどうかを示します。 (2)エラスティックキュー:切り捨て長さ、整数値。 (3)弾性モデル:モデル番号、整数値。
3.1.2 オフラインパラメータソリューションオフライン パラメータ ソリューションは、主に進化アルゴリズム パラメータ最適化と報酬評価の 2 つのモジュールに分かれています。
3.1.2.1 パラメータの最適化 パラメータ最適化モジュールは、進化的アルゴリズムを使用してパラメータを解決します。この記事では、CEM を例に、パラメータ解決プロセスを詳しく説明します。
ヒント: このシナリオでは、NES ソリューションは CEM ソリューションほど効果的ではありません。その理由は、NES では制約付き問題 (特に複数の制約付き問題) に対する報酬設計の要件が高すぎるためです。実際のシナリオでは、制約を厳密に満たすパラメータを解決するのは困難です。 3.1.2.2 報酬評価オフライン報酬評価プロセス: オフライン トレーニング中に、選択されたエージェントと履歴トラフィックに対して行われます。
3.1.2.2.1 オフラインシミュレーション オンライン環境とのインタラクションのジレンマ(オフラインシミュレーションの必要性):理論的には、意思決定エージェントはオンライン環境とインタラクションすることで最も現実的な報酬フィードバックを得ることができますが、オンライントラフィック探索を直接使用すると、次の問題が発生します。
オフライン シミュレーションの最終的な目標は、オンライン インタラクション ロジックと収益フィードバックを再現することです。
オフラインシミュレーション + 収益予測ソリューション:
3.1.2.2.2 収益見積 目標と課題
モデル推定ソリューション
3.1.3 オンラインでの意思決定単一のオンライン リクエストの場合、オフラインの最適なエージェントを使用してオンライン システムと対話し、決定を下します。オフライン評価プロセスと一致して、意思決定プロセスは次の順序で実行されます。
3.2 システム構築インテリジェントコンピューティングパワーの第1フェーズでは、意思決定コンポーネントを中核とし、収集、調整、オフラインコンポーネントをサポートするインテリジェントコンピューティングパワーシステムの基本構築を完了しました。この号では、単一アクションのローカル最適意思決定から複数アクションの組み合わせ最適意思決定への拡張という中核的なニーズに焦点を当てています。システム構築の面では、複数のアクションの組み合わせに対する最適な意思決定の基本能力の構築に加えて、インテリジェントコンピューティングシステムの安定性と汎用性にさらに重点を置き、テイクアウト広告の全業務ラインにおけるインテリジェントコンピューティングシステムの包括的な応用をサポートします。 3.2.1 意思決定コンポーネントエージェント意思決定コンポーネント エージェントは、インテリジェント コンピューティング パワー システムのクライアントとして、広告配信システムのさまざまなモジュールに組み込まれ、システム トラフィック コンピューティング パワーの配分決定を担当します。今回は主に、意思決定機能の軽量化と洗練された反復と、関連機能の標準化された構築を実施しました。 意思決定能力において 軽量なマルチアクションの組み合わせ意思決定機能の構築: 進化的アルゴリズムに基づく軽量なマルチアクションの組み合わせ意思決定機能を実装しました。進化的アルゴリズムについては前回の記事で紹介しましたが、ここでは主に軽量について紹介します。
洗練されたシステム ステータス フィードバック制御機能の構築: システム ステータスのリアルタイム収集と PID フィードバック制御アルゴリズムに基づいて、コンピューティング パワー ギアのパラメータを微調整し、動的なコンピューティング パワー割り当てプロセス中の広告配信システムの安定性を確保します。
標準化の構築において マルチアクションの組み合わせによる意思決定では、オンライン意思決定に新たな要件が提示されています。一方では、普遍性を考慮し、基本的な機能を蓄積する必要があります。他方では、より多くのアクションとビジネスシナリオを可能にするために、上位ビジネスとの結合を減らす必要があります。同時に、テイクアウト広告エンジニアリングアーキテクチャは、段階的なプラットフォーム構築を完了しました[4]。標準化はプラットフォーム構築の基礎です。したがって、インテリジェントコンピューティングパワー意思決定コンポーネントは、機能、データ、およびプロセスの面で標準化されています。インテリジェントコンピューティングパワーの標準化された構築は、単一アクションの意思決定から複数アクションの組み合わせの意思決定、さらには主要なビジネスシナリオ(点→線→面)までのインテリジェントコンピューティングパワーの包括的な構築にとって大きな意義を持っています。
最小の分割不可能な機能単位をアクションとして抽象化します。インテリジェントコンピューティングパワー意思決定リンクの主なアクションには、実験、特徴抽出、特徴計算、辞書処理、パラメータ処理、DCAF 決定、ES-MACA 決定、システム状態フィードバック制御、ログ収集、監視などがあります。アクションの再利用と拡張により、新しいアクションシナリオやビジネスラインでのアクセス効率が向上します。
広告プロジェクトのプラットフォーム構築では、コンテキストは、入力依存性、構成依存性、環境パラメータ依存性など、アクション実行の環境依存性を記述するために使用されます。インテリジェントコンピューティングパワーのオンライン意思決定では、主に標準化された入力と出力、決定機能、決定パラメーター、決定戦略などを含むインテリジェントコンピューティングパワーの環境依存関係をカプセル化および維持するために、広告の基本コンテキストの下でインテリジェントコンピューティングパワーコンテキストを拡張し、コンテキストに基づくアクション間のデータ相互作用を実現します。
ビジネスの呼び出しプロセスは、統一されたプロセス設計モデルの組み合わせです。 3.2.2収集および制御コンポーネントコレクションコンポーネントは、広告配信システムのステータスデータをリアルタイムで収集し、標準化された前処理を実行します。制御コンポーネントは、システム全体のステータスのリアルタイム認識を達成し、システムモジュールの粒度を担当します。 ATA管理。 システムステータスのリアルタイムフィードバック制御の最小ユニットをコントローラーとして定義します。これには、1つ以上のモジュールのコンピューティングパワーが含まれます。決定が単一行動の決定から複数のアクションに拡大すると、これらのコントローラーの数が増加します。ここでは、主に不均一データの標準化と制御プロセスの一般化を実行し、基本的に開発と解放を必要とせずに新しい制御シナリオへの構成可能なアクセスを実現しました。 不均一なデータ標準化コレクションコンポーネントには、Meituanの監視システムCATによって報告されたビジネスデータ、Falconが収集した機械インジケーターデータ、およびいくつかの意思決定コンポーネントによって報告されたデータなど、複数の不均一なデータソースがあります。データフォーマットとコンテンツを分析した後、データをデータ型(タイプ)に基づいて、データを独立しています。特定のインジケーター(メトリック)には、 QPS、TP99、故障、およびその他の拡張インジケーターが含まれます。 制御プロセスの一般化 不均一なデータの統一された式では、一般的なコントロールプロセスを設計できます。 一般的な制御プロセスは、構成された入力インジケーターと制御戦略を取得し、異なる制御戦略に基づいて異なる戦略パラメーターを選択し、対応する出力結果を取得するために制御戦略を実行します。さらに、コントローラーの制御効率と安定性を最適化しました。食品供給のバイモーダルトラフィックシナリオでは、PIDアルゴリズムの累積誤差は、非ピーク時に大きすぎる傾向があり、その結果、ピーク時には長い制御サイクルとシステムステータスのフィードバック調整が遅くなります。 これに基づいて、効率と精度を向上させるために、スライディングウィンドウ入場と出口メカニズムを採用しました。下の図に示すように、各コントローラーについては、システムインジケーターがPIDターゲット値Tをマイナスすると、コントローラーが正常に認められ、システムインジケーターが補助式Qを把握している場合に、エラーが蓄積されます。クリアされた。 3.2.3オフラインコンポーネントオフラインコンポーネントは、オフラインモデルトレーニングとパラメーターソリューションを担当し、主にサンプル収集、モデルトレーニング、パラメーターソリューションの3つの部分が含まれます。
4つの実験4.1実験セットアップシステムコンピューティング容量の選択コンピューティングパワー容量インジケーターの選択は、第1フェーズの選択と同じです。一方では、オンラインシステムをリアルタイムトラフィックに応じて迅速に調整できるようにするために、最小制御ユニットとして選択されています。 ベースライン選択の選択インテリジェントコンピューティングパワー(固定決定)のないトラフィックは、コントロールグループとして機能します。 オフラインシミュレーター - トラフィック値の推定過去14日間の非実験グループデータがトレーニングセットとして使用され、2段階のトレーニングが実施されました( 1つ目の段階は完全なトレーニングであり、第2段階はランダム探査トラフィックトレーニングでした)。 オフラインパラメーターソリューション食品配達シナリオでは、前年比および月の交通の変化の傾向は基本的に同じです。 4.2オフライン実験実験的説明:
オフライン実験の結果から、次の結論があります。
4.3オンライン実験1週間のオンラインABTEST実験を通して、テイクアウト広告におけるこのソリューションの利点を次のように検証しました。 実験設計の説明:
5. まとめと展望この記事では、主に、Meituanのテイクアウト広告の技術的進化を、リニアプログラミングアルゴリズムから進化的アルゴリズムまで、2つの側面から進化的アルゴリズムまで、フルリンク最適なコンピューティングパワーの意思決定とシステム構築を紹介し、進化的アルゴリズム( ES-Maca )に基づくマルチアクションコンピューティングパワーアロケーションソリューションを提案します。将来的には、アルゴリズム戦略の観点から、システムの構築に関して、システムの構築の観点から、システムのフルリンクの組み合わせの下でのコンピューティングパワーの最適な割り当ての問題をモデル化して解決するために、Meituanの内部インフラ部門からのオンライン/近距離のパワーを拡大するために、オンライン/近距離システムを拡大することを試みます。データとコンピューティングパワーの可能性を完全にタップします。 6リファレンス
7著者Jiahong、Shunhui、Guoliang、Qianlong、Lebinなどは、すべてMeituan Takeawayの広告技術チームからのものです。 |
<<: GPT-4の予測の新たな波は、大きすぎず密度も高くないテキストのみのモデルに向けて到来している。
[[263745]]あらゆるテクノロジーは諸刃の剣であり、人工知能テクノロジーも例外ではありません。...
あなたのビジネスが本当に予測可能かどうか、そしてデータ担当者、モデル、アプリケーションが適切なデータ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
今日の急速に変化するデジタル世界では、組織はローコード/ノーコード (LC/NC) アプリケーション...
顔認識は、一般的に肖像認識または顔認識とも呼ばれ、顔の特徴に基づいて人物を識別する生体認証技術です。...
12月20日、国家深層学習技術応用工程研究室と百度が共催するWAVE SUMMIT+2020深層学習...
「左に曲がれ、左に曲がれ、左に曲がれと言っただろう!」「ステップ!ステップ!ブレーキを踏め!」「手で...
[[357414]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
ピクセルベースの RL アルゴリズムが復活しました。BAIR は対照学習と RL を組み合わせたアル...
近年、中国の「新車製造勢力」のインテリジェント運転分野における宣伝・マーケティング活動とビジネス成果...