このアルゴリズムチームは 2020 年に何をしましたか?

このアルゴリズムチームは 2020 年に何をしましたか?

  [[383980]]

冒頭に書いた

私自身、毎年まとめを書く習慣があります。2020年は、私の職務が垂直広告アルゴリズムから水平アルゴリズム全体に変わったため、今回のまとめはアリババ国際ステーション(Alibaba.com、略してICBU)のアルゴリズムチームについてです。この記事には主に以下の部分が含まれます。

  • 最初の部分では、アルゴリズム、電子商取引アルゴリズム、および ICBU アルゴリズム チームの全体的な作業についての私の理解を共有します。
  • パート 2: 2020 年の ICBU アルゴリズム チームによるいくつかの重要な技術的進歩。
  • パート 3: 職場での未解決の質問についての考察。
  • 第4部:来年の展望。

1. ICBUアルゴリズムチームの紹介

私が広告アルゴリズムに取り組んでいたとき、「広告アルゴリズム エンジニアとは何か」という疑問について考えたことがありました。その時、私はこの疑問を、広告、広告アルゴリズム、広告アルゴリズム エンジニアという 3 つの側面から詳しく説明しました。今、責任が変わったことで、私が自分自身に問いかける質問は「アルゴリズム エンジニアとは何か?」になります。

1 アルゴリズム

アルゴリズムとは何でしょうか? 「アルゴリズム入門」という本について言及するとき、面接の候補者に「アルゴリズムに関する質問」をするとき、「ブロックチェーン アルゴリズム」について言及するとき、ここで言及しているアルゴリズムは、ソート アルゴリズム、再帰アルゴリズム、ランダム アルゴリズム、暗号化アルゴリズムなどを指している可能性があります。これらの「アルゴリズム」は、現在の「アルゴリズム エンジニア」の日常業務の主な内容ではないかもしれません。これらの「アルゴリズム」の一部は、すべてのプログラマーに必要な基本知識ですが、他の「アルゴリズム」はアルゴリズム エンジニア専用のようです。 「アルゴリズム」という概念は曖昧すぎて、明確な意味合いや拡張性がありません。

「アルゴリズム」という概念自体が明確でないとしたら、「アルゴリズムエンジニア」はどのように定義されているのでしょうか。シリコンバレーなどの海外では、「アルゴリズムエンジニア」という概念はありません。データサイエンティスト(Data Scientist)、応用科学者(Applied Scientist)、AIエンジニア(AI Engineer)、機械学習エンジニア(Machine Learning Engineer)はありますが、「アルゴリズムエンジニア」という職種はありません。

国内のインターネット企業では、「アルゴリズム エンジニア」には 2 つの最も一般的な定義があります。

  • ツールの観点:「機械学習(または最適化)」などの技術を日常業務の主なツールとして利用するエンジニアをアルゴリズムエンジニアと呼びます。手斧、のみ、斧、のこぎりを日常業務の主な道具として使用するエンジニアを「大工」と呼ぶのと同じです。この定義は、機械学習エンジニアの定義と似ています。
  • 目的観点:「ある定量化可能なビジネス指標を最適化すること」を日々の業務の主な目的とするエンジニアをアルゴリズムエンジニアと呼びます。毎日の主な仕事の目的が「木製家具を作る」ことであるエンジニアを「大工」と呼ぶのと同じように、この定義は「インジケーター最適化エンジニア」に似ています。

2 つの定義の観点に正解も不正解もありませんが、それらは異なるアルゴリズム エンジニアを形成することになります。 「ツールの観点」から見たアルゴリズム エンジニアは、「ツール」の使用には熟練しているかもしれませんが、ビジネスと目的の感覚が欠けており、フルスタック ベースで作業する能力と意欲が欠けている可能性があります。対照的に、「目的の観点」から見たアルゴリズム エンジニアは、ビジネスと目的の感覚が優れており、そのほとんどは優れたフルスタック能力と意欲を備えていますが、「ツール」の使用にはそれほど熟練していない可能性があります。

(追記:アルゴリズムエンジニアを「目的の観点」から定義すると、別の疑問が生じます。日々の仕事の主な目的が「ある定量化可能なビジネス指標を最適化すること」であるエンジニアがアルゴリズムエンジニアだとすると、アルゴリズム以外のポジションの開発エンジニアはビジネス指標の最適化を気にしない、またはできないのでしょうか?答えはもちろんノーであり、この記事ではこれについては詳しくは説明しません。)

2 電子商取引アルゴリズム

Alibaba のアルゴリズム エンジニアの多くは、電子商取引事業に携わっています。「電子商取引アルゴリズム」についての私の理解を共有したいと思います。

電子商取引アルゴリズムの主な仕事は「割り当て」という言葉を中心に展開していると私たちは考えています。それは、外部マーケティング予算、販売手数料、広告主のP4P予算と運営紅包の割り当て、販売、パートナー、運営のための時間とエネルギーの割り当て、バイヤーの注目度(ビジネスチャンス)の割り当てなど、「割り当て」そのもの、または、電子商取引のコア要素のデータ標準化、動画やライブ放送などのコンテンツのより深い理解、割り当てプロセスにおける不正行為の特定と取り締まりなど、より良い「割り当て」のために行われるインフラストラクチャまたは準備作業のいずれかです。

アルゴリズム チームに対するさまざまな要件は、リソースの「割り当て」プロセス自体の市場化の程度、割り当てプロセスにおける人間の主観的要因の重要性、割り当てられたリソースの規模、割り当てによって引き起こされるビジネスへの影響の即時性、およびリアルタイム割り当ての要件に基づいて進化してきました。

  • 市場経済が主体となり、アルゴリズムが中立的な立場で流通過程に参加する形態から、マクロ経済規制が主体となり、アルゴリズムが流通過程に積極的に介入する形態へ。
  • 組み合わせや最適化などのアルゴリズムの問​​題から機械学習などのアルゴリズムの問​​題まで。
  • モデル予測精度を目的とした教師あり学習タスクから、長期的かつ全体的な報酬の最大化を目的とした強化学習タスクまで。
  • 強力な解釈可能性要件に基づくツリー モデル アルゴリズムから、弱い解釈可能性に基づくディープ ニューラル ネットワーク モデル アルゴリズムまで。
  • オフラインのアルゴリズムモデリング作業から、オンラインのリアルタイムアルゴリズム製品サービスの提供まで。
  • 単一目的最適化のアルゴリズム問題から、多目的制約最適化のアルゴリズム問題へ。

豊富で多彩なアプリケーション シナリオにより、さまざまな問題定義が生まれました。問題定義が異なれば、アルゴリズム ソリューションも異なり、アルゴリズムを学ぶ学生の能力に対する要件も異なります。

効率と公平性は、「分配」が「良い分配」であるかどうかを測る重要な2つの次元です。一般的に言えば、配分効率がまだ非常に低い場合、アルゴリズムの焦点と最適化は効率の向上に重点が置かれ、「公平性」はあまり考慮されません。効率が天井に近いレベルまで向上すると、「公平性」の問題が表面化し始め、アルゴリズムからより多くの注意を引く必要があります。 「効率性と公平性(特に公平性)」をどのように定量化するかは、アルゴリズムの問​​題だけではなく、倫理、経済学、ゲーム理論、データサイエンスなどの学際的なテーマも絡んでおり、電子商取引アルゴリズムの分野で最も複雑かつ核心的な問題であると言え、人民日報[2]も注目している。

3 ICBUアルゴリズム

まずは、いわゆる「アルゴリズムの全体像」から始めましょう。

ICBU アルゴリズム チームは ICBU テクノロジー部門に所属し、ICBU ビジネスに貢献します。上記のアルゴリズム図の観点から見ると、全体的な作業は理解、成長、マッチングの 3 つの部分に分けられ、これらはマーケットプレイスの 3 つの部分、つまり商品、人、場所にも対応しています。

理解

コンピュータービジョン(CV)、自然言語処理(NLP)、ディープラーニング、データ標準化、ナレッジグラフなどの基本的なアルゴリズム機能に基づいて、ビジネス全体のデジタルインフラストラクチャシャーシを構築し、商品(商品)、コンテンツ(ショートビデオやライブブロードキャスト)、買い手と売り手、業界動向、市場の需給などに対する理解を深め、商品、コンテンツ、商人のデジタル化の程度を向上させ、これらの理解に基づいて成長とマッチングリンクを可能にし、コストを削減し、効率を高めることを指します。

成長

これは、固定リソースコストの制約下でアルゴリズムによるリソースの最適な割り当てを通じて、電子商取引ビジネスの中核要素である買い手と売り手の成長を最大化することを指します。割り当てられるリソースの違いに応じて、次の 3 つの側面に分けられます。

  • 最初の側面(狭義)はバイヤーの成長であり、これは主にポートフォリオ最適化、トレンド発見(予測)、最適化(最適化)、敵対的インテリジェンスなどの基本的なアルゴリズム機能に基づいており、固定予算内で外部市場予算の配分を最適化し、ビジネス価値(LTV/AB)を最大化します。
  • 第二に、販売者の成長は主に、データ駆動型、機械学習、統計モデリング、因果推論などの基本的なアルゴリズム機能に基づいており、限られた販売とパートナーの規模の中で、販売とパートナーの時間とエネルギーの配分を最適化し、新規および更新された会員費からの収益を最大化します。
  • 第三に、アルゴリズムのエンパワーメントに基づくインテリジェントな運用により、運用エネルギーの割り当て、買い手と売り手に対する運用上の利益、無料サービス料金などの運用権を最適化し、支払いを行う買い手の数、注文数、GMV、サプライチェーンの収益を最大化します。

マッチング

検索、推奨、広告などを含む大規模な市場における買い手と売り手の効率的なマッチングを指します。主に機械学習、最適化、E&Eなどの基本的なアルゴリズム機能に基づいています。市場の長期的かつグローバルなマッチング効率を最大化し、有効なビジネスチャンス(AB / Pay / GMV)の最大出力を追求しながら、自然製品と広告製品間のビジネスチャンスの合理的な配分(商品化問題)、初回ビジネスチャンスと往復ビジネスチャンス間のビジネスチャンスの合理的な配分(貪欲問題)、ヘッドマーチャントとテールマーチャント間のビジネスチャンスの合理的な配分(マシュー問題)、新製品と爆発的製品間のビジネスチャンスの合理的な配分(新製品成長問題)、RTS製品と問い合わせ製品間のビジネスチャンスの合理的な配分(デュアルトラック問題)、CGSマーチャントとGGSマーチャント間のビジネスチャンスの合理的な配分(GGS問題)、さまざまな業界間のビジネスチャンスの合理的な配分(業界問題)を実現します。アルゴリズムは、上記の7つの「合理的」をどのように定義および測定(Define&Measure)するか、それらの関係、およびそれらを最適化する方法を答える必要があります。

上図に示すように、理解、成長、マッチングは、理解->成長->マッチング->成長...というフライホイールを形成し、ICBU ビジネス全体のデジタル インテリジェンス プロセスを推進します。

2. 2020年のICBUアルゴリズム作業の概要

次に、「理解」「成長」「マッチング」の3つの領域における重要な技術的成果についてご紹介します(以下の内容は、ICBUアルゴリズムチームの関連記事より引用)。

1 理解

シーンベース素材採掘

Alibaba.comの国際サイトでは、シーンベースのショッピングガイドがホームページ上で非常に重要な位置を占めていますが、長期的には体系的なシーン生成ソリューションがなく、シーン構築は基本的に手動の経験に依存しています。さらに、B級調達の専門性、国境を越えた貿易の文化的多様性、国際環境の不確実性は、より効果的なショッピングガイドのシナリオに自然な障害をもたらしています。そのため、当社はクラス B 調達のニーズを満たすクラス B シナリオ生成ソリューションを構築しました。これには、次の 2 つの主要な機能が含まれています。

  1. CPV ベースの市場セグメント生成。
  2. ユーザーの組み合わせ購入をシミュレートするイベントシナリオ生成。

過去 1 年間、アルゴリズムは、Web サイトのアプリのホームページ、検索の推奨事項、クラウド テーマなどのシナリオでシーン コンテンツを充実および最適化し、AB の増加と有料購入者の数という点で Web サイトにビジネス価値をもたらしました。

スマートヘア製品

ICBU は、世界中のクラス B バイヤーが製品を調達するための重要な電子商取引プラットフォームの 1 つとして、国内サプライヤー (CGS) と海外サプライヤー (GGS) が高品質の製品情報を公開できるよう支援することに尽力しています。製品表現の豊かさと確実性は、常に購入者の問い合わせや取引のコンバージョンに影響を与える重要な要素です。多くの商人が操作能力に欠け、表現力が弱く、重要な属性を記入していないか記入しすぎており、合理的な商品タイトルの記入方法がわからないという問題を解決するために、アルゴリズムはタイトル属性の自動生成ツールを確立し、2つの大きな革新を提案しました。

  1. 事前トレーニング済みのテキスト生成モデル BART を微調整し、テキスト生成モデルを構築します。
  2. ICBU のトラフィック特性と組み合わせることで、生成されたコーパスはクラス B の電子商取引の検索と読み取りにより適したものになります。

プロジェクトのオンライン実験結果は次のとおりです。製品情報の全体的な豊富さは約6%増加し、アルゴリズムが推奨するタイトルコンテンツの採用率はCGSで約32%、GGSで約42%でした。実験比較では、インテリジェント出版を通じてリリースされた製品の露出効果が約40%増加したことがわかりました。

電子商取引シナリオにおけるきめ細かい画像分類

商品画像は商品情報表示の最も重要な構成要素の1つです。商品情報管理後、ウェブサイトの画像品質は大幅に向上しましたが、画像コンテンツを認識して理解する能力がまだ不足しています。同時に、カテゴリーB製品の標準化では、画像ラベル機能を組み合わせて製品情報を拡張・検証し、製品の構造化された表現を出力する必要があります。ウェブサイトのニーズに合わせて構築された当社の画像ラベリング サービスには、次の機能があります。

きめ細かい画像分類モデル。類似製品の区別能力を向上させるために、画像ラベルの精度と再現率を向上させるために、主題セグメンテーションとグラフ関係ネットワークに基づく画像ラベル認識法を提案する。

当社はクラス B の注目画像ラベリング システムを開発し、CPV カテゴリ システムに基づいて、顕著な外観を持つカテゴリと属性を抽象化して画像ラベル出力機能として実現しました。このラベリング システムは、上位 15 の取引業界と数千のカテゴリ ラベルをカバーしています。

このプロジェクトは、検索の関連性を向上させ、製品コンテンツを理解するために使用されます。その結果得られた技術革新「細粒度画像分類のためのグラフ相関によるオブジェクト分離」は、ICME2021 カンファレンスに提出されました。

ビデオ検出、分析、創造性

動画クリエイティブアウトソーシングプロジェクトでは、動画インテリジェント作成プロセスに関する理解に基づいて、高品質の動画に基づく一連の動画合成方法を設計し、動画インテリジェントクロッピングなどの革新的なポイントを提案しました。これにより、動画インテリジェントマルチサイズ、動画素材の最適化、動画クリエイティブの美化の問題を解決し、現在のWebサイトの動画素材の品質の不均一性や海外プラットフォームのローカライズの課題を克服しました。プロジェクト開始後、数多くの動画アイデアが生まれ、ICBUの事業におけるクリエイティブコストを一定程度削減することができました。事業価値を実現するとともに、プロジェクトの技術革新力も業界から認められ、現在では技術はオープンソースとして応用されています。

2. 成長

外部投資予算配分

Smart Budget Allocation 1.0 プロジェクトでは、サイト内外の有料トラフィック データに関する深い洞察に基づいて、階層的強化学習に基づくスマートな予算配分ソリューションを提案しました。これには、次の 3 つの主要な革新が含まれています。

  1. 推定ソルバー アーキテクチャは、全体的な予算配分問題を解決するように設計されています。
  2. オンサイトおよびオフサイトのチャネル/国などの機能を使用して、有料チャネルで回帰推定を実行し、モデル学習環境を構築します。
  3. 階層的強化学習に基づくアルゴリズム ソルバーは、予算配分問題を効率的に解決するように設計されています。

階層的強化学習などの革新的な設計により、予算配分や強化学習の分野におけるスパース報酬や遅延報酬の問題が効果的に克服され、ソリューションの精度と効率が向上します。プロジェクト開始後、有料PPCチャネルのcpabは10.3%減少しました。プロジェクトはまた、「自己注意メカニズムに基づく強化学習予算配分ソリューション」と「分散型ニューロ進化アルゴリズムに基づく多目的予算配分モデル最適化ソリューション」という中核的な革新的ソリューションを形成しました。

ホーラエ精子列

horae 1.0 プロジェクトでは、有料トラフィックの特性に関する深い洞察に基づいて、有料トラフィックのシナリオで完全なリコール + ランキング システムをゼロから構築し、3 つの主要なイノベーションを提案しました。

  1. オフサイト露出製品に基づくユーザー行動収集。
  2. オフサイトチャネル/国の特性を最大限に活用します。
  3. コア属性に基づくクロスフィーチャ構築。

有料トラフィックを個別にモデル化することで、有料トラフィックとサイト内トラフィックの分布に大きな違いがあるという難しい問題を解決します。同時に、有料トラフィックサンプルが少ないという問題を克服しました。コンテキスト機能は主にオフサイト機能を使用し、製品機能は主にサイト全体の統計機能を使用し、オンサイトデータを補助学習に最大限に活用します。プロジェクト開始後、ICBUディスプレイ広告事業では、アプリ側AB率が13.6%増加、Wap側AB率が3%増加しました。

需要と供給のマッチング工事

Prophet(レッドオーシャンとブルーオーシャン)プロジェクトでは、買い手と売り手のデータに対する深い洞察に基づいて、人と商品のマッチングと供給の選択を測定する定量的な指標を設計し、ブルーオーシャン度、競争力、豊かさの3次元指標を提案し、販売主導の供給から、業界の方向性と買い手のニーズに基づいたカスタマイズされた募集と育成の新しいエンジンへのアップグレードをもたらしました。プロジェクト開始後、平均注文締結サイクルは8%短縮され、MC15の発行は44%増加し、製品効果は市場全体の2倍になりました。このプロジェクトはビジネス価値を実現すると同時に、技術革新も実現しました。各インデックスはサイト内の数百の機能を統合し、時系列TRMFに基づいて予測される将来の傾向と周期的な傾向を組み合わせています。

購入者の注文確認

Stellarプロジェクトでは、確認すべきPO注文数が多いため売り手が時間内に注文を確認できず、OP変換に影響を与えるというビジネス上の問題点を踏まえ、買い手の品質、売り手の注文承認優先度、注文品質などのディメンションに基づいて、高品質のPO注文をリアルタイムで予測するツリーモデルを提案しました。また、データ品質の改善、サンプルの不均衡、ID特性、ロングテールカテゴリ特性などの技術的問題を解決し、OPリンクにおける売り手の確認率が低いというビジネス上の問題を軽減しました。プロジェクト開始後、PO受注確定率は7pt増加し、OP転換率は1.2%増加しました。

TAOマーチャントインテリジェントオペレーション

TAO 新規顧客獲得プロジェクトでは、サプライ チェーンの運用シナリオにおいて、パートナーの人員は限られているものの、顧客ベースは継続的に拡大していることがわかりました。人員が限られているパートナーの効率性をどのように向上させるか。私たちは、ビッグ データ学習とモデルの解釈可能性を使用して潜在的な顧客の階層化を予測し、各顧客にパーソナライズされた診断とアクションを提供し、パートナーに確実なアクション ガイダンスを提供することを提案しました。このプロジェクトでは、SHAP やサブモデルなどの解釈可能な技術ソリューションを使用し、アルゴリズムの解釈を実行可能なアクションに変換します。プロジェクト開始後、ICBU事業におけるTAO新規顧客転換率は+8.46%となり、GMV増加の事業価値に累積的に貢献しました。

物流コストの正確な予測

ネス湖ダブル12バイヤー物流50%オフプロジェクトでは、従来のマーケティングオペレーションは多岐にわたるアプローチであり、自然に転換した顧客層との重複が大きい​​ため、多くの予算の無駄が発生することがわかりました。そこで、まずは購入ニーズのある真剣なバイヤーの支払いポイントを分析して洞察を得た後、限られたマーケティング予算の条件下で、アルゴリズムを通じて物流コストに敏感な増分支払い人口を正確に予測するという革新的なポイントを提案しました。プロジェクトが開始された後、追加支払い購入者の平均月間数が増加し、ROI が向上したことで、ICBU にビジネス価値がもたらされました。

3 マッチング

動的ネットワーク表現学習

DyHAN (Dynamic Graph Vector Retrieval) プロジェクトでは、バイヤーが調達プロセス中に常により効果的なサプライヤーを見つけようとしているため、バイヤーとセラーによって形成される関係グラフが時間の経過とともに進化していることがわかりました。静的グラフに基づく従来のモデルでは、このような変化を捉えることができませんでした。そこで、電子商取引の表現モデリングの分野において、ノード情報の継続的な進化によって生じる問題を解決するために、動的グラフに基づく表現学習法を提案しました。プロジェクトがICBU製品詳細ページのクロスストア推奨で開始された後、コア問い合わせコンバージョン率は3.54%増加し、注文作成コンバージョン率は14.23%増加しました。ビジネス価値を実現すると同時に、プロジェクトが蓄積した技術革新も業界に認められました。論文「階層的注意を使用した動的異種グラフ埋め込み」と「時間的RNNによる階層的注意を使用したリンク予測のための動的異種ネットワークのモデリング」は、それぞれECIR2020とECML-PKDD2020カンファレンスに収録されました。

ディープマルチインタレストネットワーク

DMIN (Deep Multi-Interest Ranking Modeling) プロジェクトでは、ICBU 購入者の特性に基づいて、一部の小売業者と購入者は複数のカテゴリにまたがって商品を購入することが多く、複数のカテゴリにおける好みが時間の経過とともに変化することがわかりました。 DIN モデルに基づいて、マルチレベルのマルチ関心抽出ネットワーク モデルを提案し、購入者の複数の関心の動的モデリングの精度を向上させました。 ICBUプッシュ推奨シナリオでプロジェクトが開始された後、露出クリック率は10.4%増加し、購入者の注文転換率は13%増加しました。ビジネス価値を達成すると同時に、プロジェクトが蓄積した技術革新も業界に認められました。論文「クリックスルー率予測のためのディープマルチインタレストネットワーク」はCIKM'20カンファレンスに収録されました。

ベクトルリコール

越境B型検索のシナリオでは、ユーザーの検索用語がより多様化し、表現がより専門的になっています。従来のキーワードリコール技術に基づくゼロレス検索の問題は非常に深刻で、検索ロングテールトラフィックの割合は30%近くになります。 2018 年以来、ICBU Search は空間ベクトル距離を使用して類似性を推定し、意味レベルから最も関連性の高い (最も近い) 製品を呼び出すベクトル リコール テクノロジーの調査を開始しました。今年、ICBU検索は初めてBERTモデル構造の使用を試み、独自のFashionBERTを開発してよりきめ細かいマルチモーダルマッチングを実現し、ICBU検索のゼロレス問題を基本的に解決しました。

このプロジェクトでは、商品画像をリコール、つまりクエリと商品画像の対応を画像とテキストのマッチングに変換するために使用します。私たちは、画像を同じサイズのパッチに直接分割し、そのパッチを画像トークンとして使用してテキストを適合させる FashionBERT 画像テキスト マッチング モデルを提案しました。同時に、ワードピースを追加してアウトオブビューの問題を解決し、クエリグラフアテンション (GAT) を使用してロングテールクエリの一般化能力を高めます。電子商取引分野の FashionGen データセットで主流の画像とテキストのマッチング技術を比較したところ、FashionBERT は大幅な改善を達成しました。論文「FashionBERT: クロスモーダル検索のための適応損失によるテキストと画像のマッチング」が SIGIR2020 Industry Track に採択されました。

セマンティック検索

ICBU ユーザーの検索用語はより多様化し、表現もより専門的になっています。リコールとマッチングは、ICBU ウェブサイトにおける検索最適化の焦点であり続けています。 2020年上半期には、セマンティック検索1.0(ベクトルリコール3.0 + セマンティックマッチング1.0)のアップグレードを完了し、基本的に関連性がゼロまたは低い問題を解決し、キーワードリテラルマッチングの制限を緩和しました。しかし、手動コンプライアンスによる事例分析から、現在のリンクには、クエリの理解が不十分 - カテゴリ予測が不正確、コアワードの抽出が不正確、キー関連性とセマンティック関連性の融合が不十分という3つの問題があることがわかりました。これらの問題を解決するために、ICBU NER 1.0、カテゴリ予測2.0、関連性2.0(融合最適化+ NER調整)の3つのサブプロジェクトを統合しました。共同最適化により、関連性の高い商品の露出が 6% 増加し、検索関連性が 8% 減少し、クリック数が +0.65% 増加し、問い合わせが 1.44% 増加し、支払いコンバージョンが 6.30% 増加するなど、非常に良好なビジネス成果を達成しました。

カテゴリー予測

ICBU の場合、カテゴリ予測アルゴリズムの適用シナリオは非常に広範囲にわたります。検索システムでは、カテゴリ予測結果は製品の関連性を判断するための重要な基準であり、検索結果の再現率とランキングに直接影響します。検索広告の場合、カテゴリ予測は購入者のエクスペリエンスと広告主の有効性にも直接影響します。したがって、ICBU カテゴリ予測アルゴリズムの中核となる問題を最適化することに重点を置きました。

  • テキスト意味分類モデルが fasttext から BERT にアップグレードされました。
  • ICBU の NER テクノロジーの蓄積の助けを借りて、クエリ内の主要な NER 属性フレーズを通じて対応するカテゴリが呼び出されます。

カテゴリ予測アルゴリズムの最適化により、良好な結果が得られました。

  • オフライン評価指標:0レベルTOP1カテゴリ精度+5%、0レベル全体カテゴリ精度+2.4%、0レベルカテゴリリコール12.0%増加。
  • パッケージ化されたセマンティック検索プロジェクト全体が検索ビジネス指標に与える影響は、PC 側では LD +0.65%、L-AB +1.44%、LP +6.30%、APP 側では LD +0.69%、L-AB +1.93%、LP +1.96% です。
  • 広告ビジネス指標への影響: 予算バケット化により、pv2f は 2% 増加し、rpm は 1% 増加し、badcase は 3.4% 減少しました。

クロスリンガルベクトルリコール

新しいクロスランゲージベクトルリコール技術を使用して、クエリ翻訳の障壁を克服し、検索リコール結果を大幅に充実させ、変換効率の向上を促進します。この革新的な技術は、大規模な並列データに基づく言語間事前トレーニング モデル EcomLM を通じて、異なる言語を同じ意味空間にマッピングすることが難しいという問題を解決します。ビジネス表現とユーザー行動情報を組み合わせた間接インタラクション モデルは、従来のデュアルタワー モデルの情報分離の問題を克服します。実験結果によると、言語間ベクトルリコールにより、検索結果が 0 件以下の割合が 1% 未満に低下し、多言語バージョン V1.0 の全体的な L-AB は +1.34%、LP は +4.2% となりました。さらに、言語識別、クエリ翻訳、多言語意味関連性モデルなどのモジュールに特定の技術を蓄積し、完全なクロス言語検索ソリューションの作成を目指しています。

構造化された理解

国際B級越境貿易の戦場として、ICBUは現在のウェブサイトのキーワード関連性部分に、マッチング精度が不十分、中心語の抽出が不正確、カテゴリ予測精度が低いなどの問題を抱えています。中心語抽出モジュールを例にとると、中心語抽出エラーはキーワードマッチングエラーの40%を占めています。それだけでなく、中心語抽出には、ユーザーが商品を検索するときに指定した色や仕様など、クエリやタイトルの重要な属性を抽出する機能も欠けています。これらはすべて、中心語抽出モジュールに欠けています。そのため、国際サイト検索の観点から、現在のキーワードマッチング精度を向上させるためのNERツールが緊急に必要とされています。

まず、DAMO Academyの多言語NLP基礎チームとの協力を通じて、検索マッチングにNERを直接使用し、クエリと商品間の属性をNERでマッチングします。NERモデルに基づく属性マッチングは、中心語抽出モジュールの精度が低い問題を解決するだけでなく、クエリとオファー内の同じ属性をマッチングすることで、ユーザーにさらに正確な検索体験を提供することができます。一方、NERは、カテゴリ予測、新しい属性の発見、CPV属性の拡張など、ICBUの他のビジネスにも力を与えます。新四半期には、ディープセマンティックマッチングやパーソナライズされたリコールなど、NER検索アルゴリズムのさまざまな側面も統合します。

三つの考え

1 データとアルゴリズム

ビジネス テクノロジー チームにとって、データは 2 つの側面から理解できます。

  • データ サイエンス (ビジネス メトリックと因果推論) — 「アルゴリズムはどこに向かっているのか、そしてそれが実行していることが成功したかどうかをどのように判断するのか」という質問に答えるための定量化可能なメトリック。
  • データ資産 - 買い手と売り手の行動およびビジネス チェーン全体から蓄積されたすべてのデータ資産。

データ資産とアルゴリズムの関係は、次のように理解できます。データ資産は燃料、アルゴリズムはエンジン、そしてエンジンの出力は燃料の品質と量に依存します。言い換えれば、データ資産は基礎となる基盤であり、アルゴリズムは上位レベルのアプリケーションです。データ資産の栄養がなければ、アルゴリズムは水源のない水や根のない木のようなものです。

データサイエンスとアルゴリズムの関係は、次のように理解できます。データサイエンスとは、方向と目標を決定し、問題を定義し、ガイドの光と設定のターゲットとして機能することです。アルゴリズムが行うことは、方向と目標を決定し、ターゲットに効率的に到達し、目標を追求する方法を把握することです。

これらの2つの視点を組み合わせることで、アルゴリズムとデータは分離できません。一方、データアセットは、アルゴリズムが完全に調査し、データサイエンスによって指定された目標にアプローチし、データサイエンスによって提起された問題を効率的に解決する機会を完全に探求して提供するための燃料を提供します。

2つの目標の重要性

「データサイエンスは、アルゴリズムの問​​題とターゲットの方向を定義しています」と述べました。

上記の実話では、元の意図はokrを例としてとらえました。 KRの言葉は、「げっ歯類の制御の科学的方法を通じて、1,000万匹のネズミを排除し、1,000万匹のラット尾を収集しました。」

もちろん、ラットを殺す必要があります「ラットの尾」のこの定量的な指標については、人々は実行するときに迷います、そして、「ラットを育てる」などの奇妙なことが起こります。

ビジネスの成功または失敗に対する目標の重要性を強調しすぎることはできません。

3。将来のABの最適化

大規模な市場の分野におけるクロスボーダーの外国貿易の特徴は何ですか?オリズムモデリングは、アルゴリズムの最適化の目標も、この個別のパルス、単一点の短期変換挙動の数学的期待を最大化することです。

クラスBクロスボーダーのeコマースシナリオでは、クラスBのバイヤーの変換サイクルは非常に長くなります。 CタイプのEコマース検索推奨シナリオでは、C型購入者の変換動作サイクル全体が比較的短い場合、したがって、モデリングと最適化自体の目標も比較的短く、B型Eコマース検索の推奨モデル化と最適化の目標は、継続的かつ完全に上昇する必要があります。おそらく、これはクラスBクロスボーダートレードアルゴリズムで最適化およびモデル化する必要がある重要な機能であり、これは私たちの考慮に値します。

現在の最適化

簡単に言えば、現在の最適化アルゴリズムの目標は、各露出機会がABの動作に変換される確率を最大化することです。

現在の最適化に関する反射と分析

検索推奨アルゴリズムの現在の最適化に関する私たちの考察は、主に2つの側面からのものです。

(元の目標) (アルゴリズムの目標
粒度を最適化します ユーザーの粒度(AB) 動作の粒度(ABの動作)
最適化範囲 すべてのAB(First + Resisrocating) 最初のAB

私たちが本当に望んでいるもの(元の目標)を詳しく見て、それを詳細に分割しましょう。

4つの展望

次に、私たちの重要なポイントには、インテリジェントな運用と買い手と売り手の成長との間のより多くのリンク、コンテンツベースの大規模な検索およびプッシュ市場の最適化目標の新しい定義、E&Eマシューの問題、監督下での規制など。来年は、アルゴリズムチームがより多くのことをする(しかし、より多くの人を必要とする)、すべての成功を求めていますが、アルゴリスムチームのマスターフィーチャを提供するように努力します。

<<:  2025年までにロボットが8000万人の労働者に取って代わるのでしょうか?職を失った人はどうすればいいのでしょうか?

>>:  今からAIについて学ぶのは遅すぎますか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

危険な環境を恐れず、人工知能配信ネットワークライブ操作ロボットが重い責任を勇敢に引き受けます

現在、産業、農業、住民の電力消費は急速に増加しており、風力発電、水力発電などの電源が電力供給の主な手...

PyTorch エクスペリエンス ガイド: ヒントと落とし穴

PyTorch の開発者は、PyTorch の哲学は即時のタスクを解決すること、つまり計算グラフをそ...

マイクロソフトの自動運転戦略:自動車を製造するのではなく、企業に技術サポートとクラウドサービスを提供する

ゼネラル・モーターズ傘下の自動運転車開発会社クルーズは、マイクロソフト、ゼネラル・モーターズ、ホンダ...

...

...

人工知能について知っておくべき4つのこと!

1950 年代以来、コンピューター科学者は人間の知能を模倣するプログラムの開発に取り組んできました...

データセキュリティ:アルゴリズムの限界

[[416227]]ビッグデータの時代において、データは人類の生産、生活などに多大な利便性をもたらす...

...

ハーバード大学の科学者がシャコの「バネ仕掛けの拳」機構を模倣したマイクロロボットを開発

海外メディアの報道によると、シャコは世界で最も速い動物種の一つだが、シャコがどのようにしてこのような...

周洪義:汎用人工知能は詐欺であり、垂直分野と組み合わせる必要がある

3月23日、360テクノロジー株式会社と華泰聯合証券はIPO上場指導契約を締結した。これは360がI...

...

近い将来、人工知能は多くの人々の仕事を置き換えることになるだろう

清華大学金融学科教授の李道奥氏は、ハーバード大学で経済学の博士号を取得。スタンフォード大学フーバー研...

MD5 アルゴリズムを誤解している可能性があります。

[[404109]]この記事はWeChatの公開アカウント「Lean Coder」から転載したもの...

...

...