背景検索技術が発展するにつれ、検索シナリオにおける教師あり学習アルゴリズムの限界が徐々に認識されるようになりました。
同時に、Atariゲームや囲碁ゲームに代表される強化学習のディープラーニングとその応用は、近年前例のない発展を遂げています。これにより、私たちはこの古くて流行の技術に注目し、重要な技術開発ルートとして活用し始めました。私たちは、複数のビジネスやシナリオで強化学習モデリングを順次実行し、いくつかの初期成果を達成しました。関連する作業はすでに整理され、公開されています。同時に、強化学習アルゴリズムの現在の理論上の上限と業界の大規模なノイズの多いデータの間には依然として大きなギャップがあり、それを埋めるにはさらなる知恵が必要であることも私たちはよく認識しています。
強化学習に基づくリアルタイム検索ランキング制御Taobao の検索エンジンは、数億点の商品に対してミリ秒レベルの処理と応答を行います。Taobao のユーザーは数が多いだけでなく、行動特性や商品に対する好みも豊富で多様です。 したがって、検索エンジンがさまざまな特性を持つユーザーをターゲットにしたランキングを作成し、それによって検索誘導による取引の増加を促進することは、非常に困難な問題です。従来の Learning to Rank (LTR) 方式は、主に製品の次元で学習し、製品のクリックとトランザクション データに基づいて学習サンプルを構築し、ランキングの重みを回帰します。 コンテキスト LTR 方式では、コンテキスト情報に基づいてユーザーごとに異なるランキング結果を提供できますが、ユーザーの製品検索が継続的なプロセスであることを考慮していません。この継続的なプロセスのさまざまな段階は孤立しているのではなく、密接に関連しています。つまり、ユーザーが製品を購入するか購入しないかという最終的な選択は、単一の並べ替えによって決まるのではなく、一連の検索並べ替えの結果によって決まります。 この記事の残りの部分では、Taobao の具体的なソリューションについて詳しく紹介します。 詳細はここをクリックしてください! 強化学習はなぜ役立つのでしょうか? ——検索ランキングシナリオにおける遅延報酬の役割の分析私たちは、商品の並べ替え戦略を動的に調整したり、パーソナライズされた表示の割合を制御したり、価格 T の変更を制御したりするなど、検索シナリオで強化学習 (RL) を使用して多くの試みを行ってきました。 これらのシナリオで強化学習を適用することは、順次的な意思決定の観点からは理にかなっています。しかし、次のようないくつかの基本的な疑問にはまだ答えていません。 検索シナリオで強化学習を使用することと多腕バンディットを使用することの本質的な違いは何ですか? 全体としての累積的な利益を最適化することと、各意思決定ステップの即時的な利益を個別に最適化することの違いは何ですか? 同僚からこのような質問をされると、私たちはいつも納得のいく答えを出すことができません。なぜなら、私たちはまだ重要な疑問について考えていないからです。つまり、検索シナリオの順次的な意思決定プロセスにおいて、任意の決定ポイントで行われた決定と、その後に得られる結果との間の相関関係はどの程度大きいのでしょうか。 強化学習の観点から見ると、これは、以前の決定に対する遅延インセンティブとして、後続の結果のどの程度をフィードバックするかを意味します。言い換えれば、検索シナリオにおける遅延フィードバックの役割を理解する必要があります。 この記事では、検索シナリオで製品の並べ替え戦略を調整する例を取り上げて、この問題について引き続き説明します。 この記事の残りの部分は次のように構成されています。
詳細はここをクリックしてください! 強化学習に基づく階層型交通制御現在、タオバオはかなりの規模の経済圏になっており、そのため、社会経済学で議論される問題は、例外なくほぼ常にここで生じています。初期の頃、Taobao は主に効率を優先して商品展示モデルを最適化していたため、消費者には「低価格で売れ筋の商品」という固定観念が植え付けられました。これは当時の歴史的な制約による結果でしたが、長期的には私たちが望むものではありません。 社会環境の変化に伴い、人々の消費意識も変化しており、時代の変化に対応できず、事前の準備さえできなければ、競合他社に追い抜かれ、チャンスを逃してしまう可能性があります。近年の当ブランドの運営の結果、「ドレス」などのワードで検索しても、9.9元で送料無料の商品を見つけるのは難しくなりましたが、3年前はまだこれが非常に一般的でした。 ブランドや顧客の注文などの要素は、前述の厚生経済学の第二定理における賦存分配と同様に、一連の計画された経済的手段を通じて介入されます。これらはグローバルな観察と思考に基づいており、ローカルなクローズドシステム(検索ランキングオプティマイザーなど)を通じて実現することは困難であり、不可能です。 そのため、ますます多くの運営と製品の同僚は、上記の考慮事項に照らして、多くの介入の階層化を提案しています。ここでの階層化とは、製品/販売業者のタイプの分割を指し、さまざまな次元から分類できます。たとえば、Tmallの販売業者は、プラットフォームに対する重要性に応じてA、B、C、Dの販売業者に分けることができます。製品は、ブランドの影響力に応じて注目度の高い製品と一般的な製品に分けることができます。製品は、価格などに応じてハイエンド、ミッドレンジ、ローエンドの製品に分けることができます。 アルゴリズムを初めて学ぶ学生は、これらのことに十分な注意を払わないかもしれません。 古典的なアプローチは単純な重み付けですが、通常は効率が失われるため、結果はほとんど決定的ではありません。しかし、この問題を注意深く見てみると、純粋な市場競争は現在の需要と供給の関係の下で徐々に最適化され、局所最適値に到達するため、損失は避けられないことが実際に予測できます。したがって、この局所最適値が大きな外乱によって破られると、破られた瞬間に効率損失が避けられませんが、その後、以前の安定点よりも良い点に到達する機会があります。 詳細はここをクリックしてください! バーチャルタオバオ(共同研究プロジェクト)強化学習がいくつかのシナリオ(囲碁の AlphaGo など)に適用されると、戦略探索のコストは非常に低くなります。電子商取引のシナリオでは、戦略の探索にかかるコストは比較的高額です。戦略の評価には 1 日かかることもあり、戦略が悪ければ経済的損失につながることも少なくありません。これはオンライン強化学習アプリケーションでよく見られる問題であり、実際のシナリオでの強化学習の適用を制限します。 この課題を解決するために、私たちは強化学習の著名な専門家である南京大学機械学習・データマイニング研究所の楊宇准教授と綿密な協力を行い、リバースモデリング環境を通じて、戦略探索にほとんどコストがかからず、戦略評価を迅速に行うことができる「タオバオシミュレーター」の構築を試みました。さらに、このようなシミュレータでは、さまざまな RL アルゴリズムをオフラインで試すことができるだけでなく、さまざまな生態学的シミュレーション実験を実行して戦略的な意思決定を支援することもできます。 参加者: Alibaba 検索部門 - AI テクノロジーとアプリケーション: Hu Yujing、Zhan Yusen、Pan Chunxiang、Da Qing、Zeng Anxiang バーチャルタオバオパートナー:南京大学:石静成、陳世勇、于洋(准教授) これら 4 つの記事は、Taobao の実践的な経験と組み合わせ、約 30,000 語を使用して、電子商取引環境における強化学習のいくつかのアプリケーションと研究を深く分析します。詳細はここをクリックしてください! |
<<: はっきり言って、Alipay の年間請求額はほんの始まりに過ぎません。AI があらゆる場所に存在する未来において、プライバシーはどこにあるのでしょうか?
>>: エンティティ認識と関係抽出におけるディープラーニングの応用に関する簡単な分析
新たな科学技術革命と産業革命の到来とともに、デジタル経済は第四次産業革命の重要な礎となり、新たな組織...
Apple Carはまた失敗するのでしょうか?最近、著名なアナリストのミンチー・クオ氏が自身のツイッ...
組織が高度な分析ソリューションを検討している場合、IT チームと管理チームはおそらく何らかの調査と分...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
[[381496]]ロボティック プロセス オートメーションにより、ワークフローが合理化され、レガシ...
1956年、人工知能元年。その夏、米国ニューハンプシャー州ハノーバーの小さな町にある美しいアイビーリ...
「新世代人工知能発展計画」の発表に伴い、国務院は我が国の人工知能発展計画を全体的に展開し始めました。...
2023年のコンピュータービジョンの分野では、「 Segment Anything Model」が大...