[51CTO.comより引用] Alimamaは、誰もが簡単にマーケティングを行えるようにすることを目的としたビッグデータプラットフォームです。Alibabaグループの中核ビジネスデータを保有しています。ここでは、毎日50億以上のプロモーショントラフィックが使用され、3億以上の商品が宣伝・展示され、ネットユーザーの最大98%をカバーし、デジタルメディア(PC + ワイヤレス + インターネットTV)へのワンストップアクセスを実現しています。 これらの鮮明なデータの背後では、どのようなコアアルゴリズムが機能しているのでしょうか?販売者の製品が最も効果的な方法で推奨されることをどのように保証するのでしょうか?この記事では、Alimama CTR 推定のコアアルゴリズムである MLR の研究開発背景と応用実践について詳しく説明します。 1. キーワードの知識 クリックスルー率(CTR )とは、オンライン広告(イメージ広告/テキスト広告/キーワード広告/ランキング広告/動画広告など)のクリック率、つまり広告の実際のクリック数を広告の表示回数で割った値を指します。 クリックスルー率予測は、主流のインターネット アプリケーション (広告、推奨、検索など) の中心的なアルゴリズムの問題です。 CTR の推定は、インターネット計算広告における重要な技術的リンクであり、推定の精度はマーチャントの広告収益に直接影響します。広告分野におけるCTR予測は、超高次元離散特徴空間におけるパターン発見、つまり一般化しながら既存データのルールをどのように適合させるかという課題に直面しています。 2. CTR予測方法 従来のCTR予測方法と非線形モデルの欠点 業界における従来の CTR 推定ソリューションは、一般化線形モデル LR (ロジスティック回帰) + 手動の特徴エンジニアリングです。 LR はロジット変換を使用して関数値を 0 ~ 1 の範囲にマッピングします。マッピングされた関数値は CTR の推定値です。 LR などの線形モデルは並列化が容易であり、数億のトレーニング サンプルの処理も問題になりません。 しかし、このソリューションの欠点は、線形モデルの学習能力が限られていることです。アルゴリズムの非線形学習能力を間接的に補完するために、手動で特徴と特徴間のクロス組み合わせを設計するには、大量のドメイン知識の導入が必要です。多くの人材とマシンリソースを消費し、転送に適していません。 さらに、業界では効果の高い非線形モデルがいくつか提案され、エンジニアリングの実践に導入されて良好な結果が得られていますが、これらのモデルはすべて、多かれ少なかれ欠点を抱えています。
そこで課題となるのは、大規模データから一般化可能な非線形パターンをマイニングするアルゴリズムをどのように設計するかということです。 Alimamaが独自に開発したMLRアルゴリズム 前述のアルゴリズムの欠点とマーチャントの実際のニーズに基づき、2011年から2012年にかけて、アリババマムの上級専門家であるガイ・クン(ニックネームはジンシ)が、主流の大規模線形モデルの考え方を打ち破り、MLR(混合ロジスティック回帰)アルゴリズムを提案し、広告分野のCTR予測アルゴリズムに新たなアップグレードをもたらしました。 MLR アルゴリズムは、データに基づいて一般化可能なパターンを自動的に検出し、元の空間内の特徴間の非線形関係を直接学習するため、手動学習に比べて効率と精度が向上します。 MLRはLRの自然な拡張とみなすことができます。分割統治の考え方を採用し、区分線形モードを使用して高次元空間の非線形分類面を適合させます。正式な表現は次のとおりです。 ここで、ハイパーパラメータ シャード番号 m は、モデルのフィッティング機能とプロモーション機能のバランスをより適切に取ることができます。 m=1 の場合、MLR は通常の LR に退化します。m が大きいほど、モデルの適合能力は強くなります。ただし、モデル パラメータのスケールは m とともに直線的に増加し、対応する必要なトレーニング サンプルもそれに応じて増加します。 したがって、実際のアプリケーションでは、実際の状況に応じて m を選択する必要があり、一般的に m は 12 に設定されます。下の図では、MLR モデルは 4 つのスライスを使用して、データ内のダイヤモンド形の分類面を完全に適合しています。 MLR アルゴリズムは、産業グレードの大規模なスパース データ シナリオの問題に適しており、その利点は次の 2 つの側面に反映されています。
MLRアルゴリズムの高度な機能 具体的な実用アプリケーションでは、Alimama の精密ターゲティング チームは、MLR アルゴリズムのさまざまな高度な機能をさらに開発しました。これには以下が含まれます。 構造事前確率。ドメイン知識の事前条件に基づいて、空間分割と線形フィッティングに使用されるさまざまな特徴構造が柔軟に設定されます。これにより、モデルはソリューション空間の探索範囲を狭め、より簡単に収束できるようになります。 たとえば、高精度ターゲット広告における効果的な事前条件は、ユーザーの特徴空間を分割し、広告の特徴に基づいて線形フィッティングすることです。これは人々の共通認識と一致しています。異なるグループの人々はクラスタリング特性を持ち、同じグループの人々は広告に対して同様の好みを持っています。たとえば、高額支出の人々は平均注文額が高い広告をクリックするのが好きです。 線形バイアス。この機能は、場所、リソースの場所など、CTR 推定問題におけるバイアス機能をより良い方法で解決する方法を提供します。実際のアプリケーションでは、エンジニアは位置バイアス情報をモデル化することで 4% の RPM 向上を達成しました。 モデルのカスケード。 MLR は、ワイド&ディープ ラーニングに似た LR モデルとのカスケード共同トレーニングをサポートします。カスケード モードでいくつかの強力な機能を構成すると、モデルの収束が向上します。 典型的な適用方法は、統計的フィードバック機能を使用して第 1 レベルのモデルを構築し、その出力 (下図の FBCtr など) を第 2 レベルの大規模スパース ID 機能システムにカスケードして、より良い改善効果を実現することです。 増分トレーニング。 MLR は事前トレーニングに構造事前確率を使用し、その後、フルスペース パラメータ最適化トレーニングを段階的に実行して、さらに改善された結果を実現します。同時に、増分トレーニング モードでは、モデルが収束するまでのステップ数が少なくなり、収束がより安定します。 Alimama の実際のアプリケーションでは、増分トレーニングによってもたらされた RPM の増加は 3% に達しました。 大規模分散実装 MLR アルゴリズムは、数十億の特徴や数百億のサンプルなどの産業レベルのデータ向けに設計されています。そのため、エンジニアはモデルの効率的な並列トレーニングをサポートするために分散アーキテクチャを設計しました。 次の図は、従来のパラメータ サーバーのアーキテクチャとは少し異なるアーキテクチャの概略図です。主な違いは、サーバーを分離して個別に展開するのではなく、ワーカー ロールとサーバー ロールの両方が各分散ノードに展開されることです。これは、各ノードの CPU とメモリを最大限に活用し、マシン リソースの使用率を最大限に高めるために行われます。 さらに、パーソナライズされた広告シナリオにおけるデータの構造化特性を考慮して、サンプルストレージを大幅に圧縮し、モデルのトレーニングを加速できる共通機能トリックを提案し、実装しました。 次の図に示すように、ディスプレイ広告では、ユーザーは 1 日のうちに複数の広告を目にしますが、このユーザーの静的特徴 (年齢、性別、昨日までの履歴行動など) の多くは 1 日のうちに同じです。共通特徴圧縮により、Alimama はこれらのサンプルに対してユーザーの静的特徴を 1 回だけ保存すればよく、残りのサンプルはインデックスを通じてそれらに関連付けられます。トレーニング プロセス中、これらの特徴は 1 回だけ計算する必要があります。実際には、共通の機能トリックを適用して、以前使用していたリソースの約 1/3 を使用して 12 倍の高速化を達成しました。 3. ビジネスアプリケーションの実践 2013年以来、MLRアルゴリズムは、AlimamaとAlibaba Groupの複数のBU(Alimamaの精密ターゲット広告、Taobao Affiliate、Shenma商業広告、Taobaoメイン検索など)の主要シナリオで広く使用され、特にAlimamaの精密ターゲット広告シナリオでテストされています。アルゴリズムモデルの革新はビジネスに大きな進歩をもたらし、主要シナリオでのCTRとRPMは20%以上向上しました。 代表的な用途は次のとおりです。 MLR に基づくターゲット広告 CTR 予測アルゴリズム Alimama のターゲット広告 CTR 推定は、MLR アルゴリズムの非線形学習能力に基づいて、大規模なオリジナル ID 機能 + MLR アルゴリズムのアーキテクチャを採用しています。具体的には、広告表示は、次の 3 つの独立した部分で構成される特徴ベクトルとして特徴付けられます。
これらの特徴の間には従来の交差結合はなく、次元は約 2 億です。次に、データを直接 MLR アルゴリズムに入力し、構造化事前確率、事前トレーニング + 増分トレーニング、線形バイアスなどの高度な手法を適用して、モデルがデータからパターンを自動的に要約して適合できるようにしました。従来の LR+ 機能エンジニアリング アプローチと比較して、このソリューションはより効率的で洗練されており、モデルの精度が高く、実際の運用でより反復可能です。 MLR に基づくターゲット広告のマッチング学習アルゴリズム マッチ アルゴリズムは、ターゲット広告の重要な部分です。その主な目的は、ユーザーの人口統計的属性や過去の行動などの情報に基づいて、ユーザーが興味を持つ可能性のある広告のセットを推測することです。従来の Match アルゴリズムでは、主にルール マッチングや協調フィルタリングなどの方法が使用されますが、これらはあまりスケーラブルではありません。 Alimama ターゲット広告システムでは、エンジニアが MLR に基づいたマッチング学習アルゴリズム フレームワークを開発しました。簡単に言えば、モデル方式は、ユーザーの行動履歴に基づいてユーザーのパーソナライズされた興味を学習し、それによって関連性の高い候補広告のセットを思い出すために使用されます。 同様に、MLR アルゴリズムの非線形機能に基づいて、機能の相互組み合わせにあまり注意を払って設計することなく、さまざまな機能ソースとラベル システムをフレームワークに簡単に統合できるため、フレームワークの柔軟性が大幅に向上します。 IV. まとめと課題 Alibaba Mamaアルゴリズム技術チームが独自に革新したMLRモデルとアルゴリズムは、ビジネスの大規模な推進と応用において比較的良好な成果を達成しました。また、ビッグデータインテリジェンスの面では、特徴エンジニアリングが省略されているため、データアクセスからアプリケーションまで完全に自動化された機能を備えています。 しかし、今後は次のような多くの課題が待ち受けています。
[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
>>: 第1回世界情報会議は6月29日〜30日に天津で開催される。
1. 大規模モデル開発におけるデータエンジニアリング1. 大規模モデル向けのデータエンジニアリングと...
ChatGPT Team は OpenAI の Enterprise Edition 製品の小型版で...
1. 大規模収集:あらゆる方向から情報を収集するデータ収集システムは、信号、センサー、アクチュエータ...
2050年には人類は「不死」になる!このトピックを見て驚きましたか?驚きましたか?不死は、すべての...
現在のテクノロジーのホットスポットとして、近年、多くの国内主流テクノロジー企業が人工知能、ナレッジグ...
今週、チップスタートアップのCerebrasは、100億を超えるパラメータを持つNLP(自然言語処理...
シナプスはニューラルネットワークの「橋」です。人間の脳には 860 億個のニューロンがあり、あるニュ...
この記事はWeChatの公開アカウント「Programmer Insider Things」から転載...
今日の建物、ましてや将来のスマート ビルにとって、技術インフラの重要性はいくら強調してもし過ぎること...
▲ テーブルの上にいるのはマンホールの蓋でしょうか、それともトンボでしょうか?(写真提供:ダン・ヘ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
IDCの最新予測によると、ロボットシステムとドローンへの総支出は2020年に1,287億ドルに達し、...