メイン検索と店内検索の共同最適化の予備調査と試み

メイン検索と店内検索の共同最適化の予備調査と試み

背景と概要

Taobao プラットフォームには、検索、推奨、広告など、多くのサブシナリオがあります。各サブシナリオには、多くの細分化があります。たとえば、検索にはデフォルトの並べ替え、店内検索、店舗検索などが含まれ、おすすめには、好みに合うもの、今日のおすすめ、日替わりのおすすめ店舗などが含まれます。データ駆動型の機械学習と最適化技術は現在、これらのシナリオで広く使用されており、良好な結果を達成しています。単一のシナリオ内での A/B テストでは、クリックスルー率、コンバージョン率、取引量、単価のすべてを大幅に改善できます。 ただし、現在、各シナリオは完全に独立して最適化されており、いくつかの深刻な問題が発生しています。

a. Taobao で買い物をするとき、ユーザーはメイン検索から「Guess What You Like」へ、そして「Guess What You Like」からストアへといった複数のシナリオを切り替えることがよくあります。さまざまなシナリオでの製品の並べ替えでは、そのシナリオ自体のみが考慮されるため、ユーザーにとって一貫性のない、または類似したショッピング エクスペリエンスにつながります。たとえば、冷蔵庫の詳細ページからストアに入ると、携帯電話が表示されます。すべてのシーンが似ており、U2I(クリックまたは販売された製品)が多すぎます。

b. 複数のシナリオはゲーム(競争)関係にあり、各シナリオの改善が全体の改善につながることは保証できません。あるシナリオの改善が他のシナリオの低下につながる可能性は非常に高いです。さらに恐ろしいのは、あるシナリオによってもたらされる改善が、他のシナリオのより大きな低下よりもさらに小さいことです。これは不可能ではありません。この場合、単一シーンの A/B テストはあまり意味がないように思われ、単一シーンの最適化には明らかな問題があります。これは特に重要なので、以下に示すように、より単純で理解しやすい例を挙げてみましょう。

1000メートルのビーチにAとBの2つのドリンクスタンドがあります。ビーチには多くの観光客が均等に分散しており、飲み物を買うときは通常、より近いドリンクスタンドを探します。最初、AとBはそれぞれビーチから250メートルと750メートル離れています。このとき、ビーチの左側にいる人はAに買い物に行き、右側にいる人はBに買い物に行きます。次に、A は右に移動するとユーザーが増えることに気づき (A/B テストの結論)、A は右に移動し、B は左に移動します。 A と B が最適化を続けると、両者とも浜辺の真ん中に到達します。ゲーム理論の観点から見ると、両者は均衡点に到達しています。しかし、「最適化された」場所は最初の場所ほど良いものではなく、遠すぎるために多くの観光客が飲み物の購入を諦めてしまうからです。この場合、2 つの飲料スタンドを個別に最適化した結果は、最適化しなかった場合よりも実際には悪くなります。

マルチシナリオ問題は Taobao だけに存在するわけではありません。現在、大規模なプラットフォームやワイヤレス アプリには複数のシナリオがあります。 YahooやSinaのような総合的なウェブサイトでなくても、BaiduやGoogleのような比較的シンプルで機能が集中したアプリケーションでも、いくつかのシナリオ(ウェブページ、相談、地図など)が存在します。すると、これらのプラットフォームやアプリケーションは同様の問題に直面することになります。 要約すると、大規模なオンラインプラットフォーム上で複数のサブシナリオの共同最適化を研究することは、Taobaoプラットフォームの応用と科学的研究の観点から非常に意義深いことです。

上記の問題を解決するために、本論文では、全体的な指標を改善するためのマルチシナリオ共同ランキングアルゴリズムを提案します。我々は、マルチシナリオソーティング問題を、完全に協力的で部分的に観測可能なマルチエージェントの順次意思決定問題とみなし、マルチエージェント強化学習法を使用して問題をモデル化しようとします。

このモデルは各シーンをエージェントとして使用し、各シーンの異なるソート戦略が同じ目標を共有できるようにします。同時に、あるシーンのソート結果には、他のシーンでのユーザーの行動とフィードバックが考慮されます。これにより、各シナリオの分類戦略が独立から協力および双方に有利なものに変わります。私たちは、すべてのシナリオでユーザーの行動を利用したいと考えており、DRQN の RNN ネットワークは履歴情報を記憶し、DPG を使用して連続状態と連続アクション空間を探索できるため、アルゴリズムを MA-RDPG (Multi-Agent Recurrent Deterministic Policy Gradient) と名付けました。

システム概要

従来の単一シーン最適化

現在、単一シナリオ ソート戦略の一般的な構造は次のとおりです。各製品は、一連の機能 (人気スコア、CTR スコアなど) によって表されます。ソート戦略は、一連の機能の重みを与えることでソート結果を決定します。製品のスコアは、各機能の加重合計です。メイン検索と店内検索にはそれぞれ独自のソート戦略があり、独立して最適化されており、相互に影響を与えません。

マルチシナリオジョイント最適化

現在、単一シナリオ ソート戦略の一般的な構造は次のとおりです。各製品は、一連の機能 (人気スコア、CTR スコアなど) によって表されます。ソート戦略は、一連の機能の重みを与えることでソート結果を決定します。製品のスコアは、各機能の加重合計です。メイン検索と店内検索にはそれぞれ独自のソート戦略があり、独立して最適化されており、相互に影響を与えません。

具体的な方法とアプリケーションについてはここをクリックしてください

<<:  人工知能は2018年にこれら5つの業界に革命を起こすだろう

>>:  李偉博士がブロックチェーンについてわかりやすく語る:技術原理、実用的応用、AIとの統合

ブログ    
ブログ    

推薦する

ニューラルネットワークの動作原理を1つの記事で理解する

この記事では、ディープ ニューラル ネットワークの一般的な概要を説明します。今日では、人工知能につい...

...

エンジニアの職が危機に:ボストン・ダイナミクスのロボット犬がフォードにエンジニアとして入社!

[[335339]]ボストン・ダイナミクスのロボット犬に新たなアイデンティティが誕生。フォードのエ...

自然言語処理のためのオープンソースツール12選

[[316192]]独自の NLP アプリケーションで使用できる 12 個のツールを見てみましょう。...

中国の人工知能は現在、世界の中でどの程度のレベルにあるのでしょうか?

総じて、人工知能は世界の新世代の技術革命と産業転換の原動力となっており、その発展は我が国の産業構造の...

ドローンと農業は互いに補完し合い、数千億ドルの価値がある広大なブルーオーシャンを共同で生み出す

かつて、農業と言えば、人々はいつも「真昼に畑を耕し、汗を地面に垂らす」という苦労を思い浮かべていまし...

強化学習のフレームワークは AI 開発に新たなアイデアを生み出すでしょうか?

[[256809]]アルゴリズムを理解しておらず、AI機能を備えたアプリを開発したいアプリ開発者の...

...

AI が Sogou 入力方式の新バージョンを強化: 音声認識は 9 つの言語をサポート

最近、Sogou 入力方式がバージョン 10.8 に更新されました。新バージョンでは、主に音声入力と...

Keras 対 PyTorch: どちらが「ナンバーワン」のディープラーニング フレームワークでしょうか?

「最初のディープラーニングフレームワークをどのように選択するか」は、初心者にとって常に頭痛の種でし...

...

仕事と生産を再開、「新しいインフラ」が人工知能の能力を加速させる

「この突然の流行は人類にとって大きな災害だが、人工知能産業の発展にとってはまたとない新たなチャンスで...

ディープラーニングベースの対話状態追跡のレビュー

[[408715]] 1. はじめに1.1 研究の背景インターネットと個人用スマート端末の普及と幅広...

...

...