メイン検索と店内検索の共同最適化の予備調査と試み

背景と概要

Taobao プラットフォームには、検索、推奨、広告など、多くのサブシナリオがあります。各サブシナリオには、多くの細分化があります。たとえば、検索にはデフォルトの並べ替え、店内検索、店舗検索などが含まれ、おすすめには、好みに合うもの、今日のおすすめ、日替わりのおすすめ店舗などが含まれます。データ駆動型の機械学習と最適化技術は現在、これらのシナリオで広く使用されており、良好な結果を達成しています。単一のシナリオ内での A/B テストでは、クリックスルー率、コンバージョン率、取引量、単価のすべてを大幅に改善できます。ただし、現在、各シナリオは完全に独立して最適化されており、いくつかの深刻な問題が発生しています。

a. Taobao で買い物をするとき、ユーザーはメイン検索から「Guess What You Like」へ、そして「Guess What You Like」からストアへといった複数のシナリオを切り替えることがよくあります。さまざまなシナリオでの製品の並べ替えでは、そのシナリオ自体のみが考慮されるため、ユーザーにとって一貫性のない、または類似したショッピングエクスペリエンスにつながります。たとえば、冷蔵庫の詳細ページからストアに入ると、携帯電話が表示されます。すべてのシーンが似ており、U2I（クリックまたは販売された製品）が多すぎます。

b. 複数のシナリオはゲーム（競争）関係にあり、各シナリオの改善が全体の改善につながることは保証できません。あるシナリオの改善が他のシナリオの低下につながる可能性は非常に高いです。さらに恐ろしいのは、あるシナリオによってもたらされる改善が、他のシナリオのより大きな低下よりもさらに小さいことです。これは不可能ではありません。この場合、単一シーンの A/B テストはあまり意味がないように思われ、単一シーンの最適化には明らかな問題があります。これは特に重要なので、以下に示すように、より単純で理解しやすい例を挙げてみましょう。

1000メートルのビーチにAとBの2つのドリンクスタンドがあります。ビーチには多くの観光客が均等に分散しており、飲み物を買うときは通常、より近いドリンクスタンドを探します。最初、AとBはそれぞれビーチから250メートルと750メートル離れています。このとき、ビーチの左側にいる人はAに買い物に行き、右側にいる人はBに買い物に行きます。次に、A は右に移動するとユーザーが増えることに気づき (A/B テストの結論)、A は右に移動し、B は左に移動します。 A と B が最適化を続けると、両者とも浜辺の真ん中に到達します。ゲーム理論の観点から見ると、両者は均衡点に到達しています。しかし、「最適化された」場所は最初の場所ほど良いものではなく、遠すぎるために多くの観光客が飲み物の購入を諦めてしまうからです。この場合、2 つの飲料スタンドを個別に最適化した結果は、最適化しなかった場合よりも実際には悪くなります。

マルチシナリオ問題は Taobao だけに存在するわけではありません。現在、大規模なプラットフォームやワイヤレスアプリには複数のシナリオがあります。 YahooやSinaのような総合的なウェブサイトでなくても、BaiduやGoogleのような比較的シンプルで機能が集中したアプリケーションでも、いくつかのシナリオ（ウェブページ、相談、地図など）が存在します。すると、これらのプラットフォームやアプリケーションは同様の問題に直面することになります。要約すると、大規模なオンラインプラットフォーム上で複数のサブシナリオの共同最適化を研究することは、Taobaoプラットフォームの応用と科学的研究の観点から非常に意義深いことです。

上記の問題を解決するために、本論文では、全体的な指標を改善するためのマルチシナリオ共同ランキングアルゴリズムを提案します。我々は、マルチシナリオソーティング問題を、完全に協力的で部分的に観測可能なマルチエージェントの順次意思決定問題とみなし、マルチエージェント強化学習法を使用して問題をモデル化しようとします。

このモデルは各シーンをエージェントとして使用し、各シーンの異なるソート戦略が同じ目標を共有できるようにします。同時に、あるシーンのソート結果には、他のシーンでのユーザーの行動とフィードバックが考慮されます。これにより、各シナリオの分類戦略が独立から協力および双方に有利なものに変わります。私たちは、すべてのシナリオでユーザーの行動を利用したいと考えており、DRQN の RNN ネットワークは履歴情報を記憶し、DPG を使用して連続状態と連続アクション空間を探索できるため、アルゴリズムを MA-RDPG (Multi-Agent Recurrent Deterministic Policy Gradient) と名付けました。

システム概要

従来の単一シーン最適化

現在、単一シナリオソート戦略の一般的な構造は次のとおりです。各製品は、一連の機能 (人気スコア、CTR スコアなど) によって表されます。ソート戦略は、一連の機能の重みを与えることでソート結果を決定します。製品のスコアは、各機能の加重合計です。メイン検索と店内検索にはそれぞれ独自のソート戦略があり、独立して最適化されており、相互に影響を与えません。

マルチシナリオジョイント最適化

具体的な方法とアプリケーションについてはここをクリックしてください

<<: 人工知能は2018年にこれら5つの業界に革命を起こすだろう

>>: 李偉博士がブロックチェーンについてわかりやすく語る：技術原理、実用的応用、AIとの統合