1. 技術的背景 CTR(Click-Through-Rate)とは、クリック率のことで、インターネット広告でよく使われる用語です。オンライン広告(画像広告/テキスト広告/キーワード広告/ランキング広告/動画広告など)のクリック率、つまり広告の実際のクリック数を広告の表示回数で割った値を指します。クリックスルー率の予測は、主流のインターネット アプリケーション (広告、推奨、検索など) の中心的なアルゴリズムの問題です。Google や Facebook などの業界大手は、この問題に継続的に投資し、研究しています。 CTR 推定はインターネット計算広告における重要な技術的リンクであり、推定の精度は企業の広告収入に直接影響します。広告分野における CTR 予測の問題は、超高次元の離散特徴空間におけるパターン発見、つまり一般化しながら既存のデータのルールに適合させるという課題に直面しています。 2. CTR予測アルゴリズムの現状と進歩 2.1 従来のクリック率予測方法とその欠点 業界における従来の CTR 推定ソリューションは、一般化線形モデル LR (ロジスティック回帰) + 手動の特徴エンジニアリングです。 LR はロジット変換を使用して関数値を 0 ~ 1 の範囲にマッピングします。マッピングされた関数値は CTR の推定値です。 LR などの線形モデルは並列化が容易であり、数億のトレーニング サンプルの処理も問題になりません。しかし、このソリューションの欠点は、線形モデルの学習能力が限られているため、アルゴリズムの非線形学習能力を間接的に補完するために、手動で特徴と特徴間のクロス組み合わせを設計するために大量のドメイン知識を導入する必要があることです。これは、多くの人材とマシンリソースを消費し、転送に適していません。 さらに、業界では効果の高い非線形モデルが絶えず提案されており、エンジニアリングの実践に取り入れられ、良好な結果を達成していますが、これらのモデルはすべて、多かれ少なかれ何らかの欠点を持っています。たとえば、カーネル法は複雑性が高いため実装が困難です。たとえば、ツリーベースの方法は、2014年にFacebookチームによって初めて提案されました。これはLRモデルの特徴の組み合わせ問題を効果的に解決しますが、その欠点は、過去の動作を記憶しており、一般化に欠けていることです。また、交差する特徴を手動で選択せずに、高次属性の重みを自動的に学習できるFM(因数分解機)モデルもあります。ただし、FMモデルは特定の非線形パターンにしか適合できません。たとえば、最も一般的に使用される2次FMは、特徴間の線形および二次関係にしか適合できません。ディープニューラルネットワークは強力な非線形フィッティング機能を備えていますが、広告などの大規模な産業グレードのスパースデータに直面した場合、業界では依然として、特にエンドツーエンドの大規模なオンライン展開を実現するために、データパターンに適しており、スケーラビリティを備えたネットワーク構造を模索しており、それに伴う技術的な課題は依然として大きいです。 そこで課題となるのは、大規模データから一般化可能な非線形パターンをマイニングするアルゴリズムをどのように設計するかということです。 2.2 Alimamaが独自にMLRアルゴリズムを開発 2011年から2012年にかけて、アリババママの上級専門家であるガイ・クン(ニックネームはジンシー)は、大規模線形モデルの主流の考え方を打ち破り、革新的なMLR(混合ロジスティック回帰)アルゴリズムを提案し、広告分野におけるCTR予測アルゴリズムの新たなアップグレードをもたらしました。 MLR アルゴリズムは、元の空間で直接学習された特徴間の非線形関係を革新的に提案および実装し、データに基づいて一般化可能なパターンを自動的に発見し、手動の方法と比較して効率と精度を大幅に向上させました。 MLR は LR の自然な拡張と見なすことができます。分割統治の考え方を採用し、区分線形モードを使用して高次元空間の非線形分類面を適合させます。正式な表現は次のとおりです。 ここでのハイパーパラメータ シャード番号 m は、モデルのフィッティング機能とプロモーション機能のバランスをより適切に取ることができます。 m=1 の場合、MLR は通常の LR に退化します。m が大きいほど、モデルの適合能力は強くなります。ただし、モデル パラメータのスケールは m とともに直線的に増加し、対応する必要なトレーニング サンプルもそれに応じて増加します。したがって、実際のアプリケーションでは、実際の状況に応じて m を選択する必要があります。たとえば、このシナリオでは、m は通常 12 に選択されます。下の図では、MLR モデルは 4 つのスライスを使用して、データ内のダイヤモンド形の分類面を完全に適合させることができます。 MLR アルゴリズムは、広告の CTR 推定など、産業レベルの大規模なスパース データ シナリオの問題に適しています。この背後にある利点は、次の 2 つの側面に反映されています。 1) エンドツーエンドの非線形学習: モデルはデータに隠された非線形パターンを自動的にマイニングし、多くの手動機能設計を排除します。これにより、MLR アルゴリズムはエンドツーエンドのトレーニングを完了でき、さまざまなシナリオへの移行と適用が非常に簡単になります。 2) スパース性: MLR はモデリング中に L1 および L2,1 ノルム正則化を導入し、これにより最終的なトレーニング済みモデルのスパース性が高まり、モデル学習とオンライン予測のパフォーマンスが向上します。もちろん、これはアルゴリズムの最適化ソリューションにも大きな課題をもたらします。詳細については、私たちの論文を参照してください(記事の最後を参照)。 2.3 MLRアルゴリズムの高度な機能 具体的な実用アプリケーションでは、Alimama の精密ターゲティング チームは、MLR アルゴリズムのさまざまな高度な機能をさらに開発しました。これには以下が含まれます。 1) 構造的事前条件。ドメイン知識の事前条件に基づいて、空間分割と線形フィッティングに使用されるさまざまな特徴構造が柔軟に設定されます。たとえば、精密ターゲット広告における効果的な事前条件は、ユーザーの特徴に基づいて空間を分割し、広告の特徴に基づいて線形フィッティングすることです。直感的に言えば、これは人々の認知と一致しています。異なるグループの人々はクラスタリング特性を持ち、同じグループの人々は広告に対して同様の好みを持っています。たとえば、高額支出の人々は平均注文額が高い広告をクリックするのが好きです。構造事前確率は、モデルがソリューション空間の探索範囲を狭め、収束を容易にするのに役立ちます。 2) 線形バイアス。この機能は、場所、リソースの場所など、CTR 推定問題におけるバイアス機能をより良い方法で解決する方法を提供します。実際のアプリケーションでは、位置バイアス情報をモデル化し、4% の RPM 向上を達成しました。 3) モデルのカスケーディング。 MLR は、ワイド&ディープ ラーニングに似た LR モデルとのカスケード共同トレーニングをサポートします。私たちの実際の経験では、カスケード モードでいくつかの強力な機能を構成すると、モデルの収束が改善されます。たとえば、典型的な応用方法としては、統計的フィードバック機能を備えた第 1 レベルのモデルを構築し、その出力 (下図の FBCtr) を第 2 レベルの大規模スパース ID 機能システムにカスケードすることで、より優れた改善効果を実現できます。 4) 段階的なトレーニング。実践では、構造事前確率を使用して事前トレーニングし、その後、フルスペースパラメータ最適化トレーニングを段階的に実行することで、MLR がさらに改善できることが示されています。同時に、増分トレーニング モードでは、モデルが収束するまでのステップ数が少なくなり、収束がより安定します。実際のアプリケーションでは、増分トレーニングによってもたらされた RPM の増加は 3% に達しました。 2.4 大規模分散実装 MLR アルゴリズムは、数十億の特徴、数百億のパラメーター、数千億のサンプルなどの産業レベルのデータ向けに設計されています。そのため、モデルの効率的な並列トレーニングをサポートするために分散アーキテクチャを設計しました。次の図は、従来のパラメータ サーバー アーキテクチャとは少し異なるアーキテクチャの概略図です。主な違いは、サーバーを分離して個別に展開するのではなく、各分散ノードにワーカー ロールとサーバー ロールの両方を展開することです。この背後にある考慮事項は、各ノードの CPU とメモリを最大限に活用し、それによってマシンのリソース使用率を最大限に高めることです。 さらに、パーソナライズされた広告シナリオにおけるデータの構造化された特性を考慮して、サンプルのストレージを大幅に圧縮し、モデルのトレーニングを加速できる共通機能トリックを提案し、実装しました。たとえば、下の図に示すように、ディスプレイ広告では、一般的に、ユーザーは 1 日に複数の広告を目にしますが、このユーザーの静的特徴 (年齢、性別、昨日までの履歴行動など) の多くは 1 日の中で同じです。共通特徴圧縮により、これらのサンプルに対してユーザーの静的特徴を 1 回保存するだけで済み、残りのサンプルはインデックスを通じてそれらに関連付けられます。トレーニング プロセス中、これらの特徴は 1 回だけ計算する必要があります。実際には、共通機能トリックを適用すると、リソース消費量を約 1/3 に抑えながら 12 倍の高速化を実現できます。 III. アリババママのビジネスにおけるMLR適用の現状 2013年以来、MLRアルゴリズムは、アリマママとアリババグループの複数のBU(アリマママの精密ターゲット広告、タオバオアフィリエイト、神馬商業広告、タオバオメイン検索など)の主要シナリオで広く使用され、試行されています。特に、アリマママの精密ターゲット広告シナリオでは、アルゴリズムモデルの革新がビジネスに大きな進歩をもたらし、主要シナリオでのCTRとRPMが20%以上向上しました。代表的な用途は次のとおりです。 3.1 MLRに基づくターゲット広告CTR予測アルゴリズム Alimama のターゲット広告 CTR 推定は、MLR アルゴリズムの非線形学習能力に基づいて、大規模なオリジナル ID 機能 + MLR アルゴリズムのアーキテクチャを採用しています。具体的には、広告表示を特徴ベクトルとして特徴付け、ユーザーの特徴(ユーザーID、プロフィール情報、タオバオプラットフォーム上のユーザーの履歴行動の特徴(閲覧/購入した商品/店舗/カテゴリ、IDと頻度など)、広告の特徴(広告に対応するadid、キャンペーンID、販売店ID、カテゴリIDなど)、シーンの特徴(時間、場所、リソースの位置など)の3つの独立した部分で構成します。これらの特徴の間には従来のクロス組み合わせはなく、次元は約2億です。次に、データを直接MLRアルゴリズムに送り、構造化事前確率、事前トレーニング+増分トレーニング、線形バイアスなどの高度な手法を適用して、モデルがデータからルールを自動的に要約して適合できるようにします。実践により、従来のLR +特徴エンジニアリングアプローチと比較して、このソリューションはより効率的でエレガントであり、実際の生産においてモデルの精度が高く、反復性が強いことが証明されています。 3.2 MLRに基づくターゲット広告のためのマッチングアルゴリズムの学習 マッチ アルゴリズムは、ターゲット広告の重要な部分です。その主な目的は、ユーザーの人口統計的属性や過去の行動などの情報に基づいて、ユーザーが興味を持つ可能性のある広告のセットを推測することです。従来のマッチ アルゴリズムでは、主にルール マッチングや協調フィルタリングなどの方法が使用されますが、これらはスケーラビリティが低いです。 Alimama ターゲット広告システムでは、MLR に基づいたマッチング学習アルゴリズム フレームワークを開発しました。簡単に言えば、モデル方式は、ユーザーの行動履歴に基づいてユーザーのパーソナライズされた興味を学習し、それによって関連性の高い候補広告のセットを思い出すために使用されます。同様に、MLR アルゴリズムの非線形機能に基づいて、特徴の相互組み合わせにあまり注意を払って設計することなく、さまざまな特徴ソースとラベル システムをフレームワークに簡単に統合できるため、フレームワークの柔軟性が大幅に向上します。 IV. まとめと課題 全体的に、Alimamaアルゴリズム技術チームが独自に革新したMLRモデルとアルゴリズムは、Alimamaの業務で広く推進され、適用されており、非常に良い結果をもたらしています。また、ビッグデータインテリジェンスの面では、特徴エンジニアリングが省略されているため、データアクセスからアプリケーションまで完全に自動化された機能を備えています。 これまで非常に良い結果が得られていますが、将来的にはまだ多くの課題があります。たとえば、初期値問題、非凸問題の局所極値では、MLR は LR よりも優れていますが、大域的最適値からどれだけ離れているかはわかっていません。2 番目に、初期値の事前トレーニングなどでモデル関数を改善し、最適化する必要があります。3 番目に、現在のスケーラビリティも、より高速な収束アルゴリズムを使用するなど、より多くの機能とデータを処理できる必要があります。最後に、MLR アルゴリズムの全体的な抽象化能力をさらに強化する必要があります。 [この記事は51CTOコラムニスト「アリババオフィシャルテクノロジー」によるオリジナル記事です。転載については原著者にお問い合わせください。] この著者の他の記事を読むにはここをクリックしてください |
<<: 機械学習におけるデータの不均衡の問題を解決するにはどうすればよいでしょうか?
>>: Hive でサポートされているファイル形式と圧縮アルゴリズム
「Xiaodu スマートスピーカーの価格についてお話ししましょうか?」 「売ることがそんなに失礼だな...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
MITの研究者らは新型コロナウイルスとの戦いに役立つ新しいロボットを開発した。この自律型機械は、微生...
Python 中国語コミュニティ (ID: python-china)人工ニューラル ネットワーク ...
[[192443]] AlphaGoの登場により、2016年は人工知能元年とも言えるでしょう。蘇州で...
翻訳者 | ブガッティレビュー | Chonglou最近、ChatGPT は、与えられたあらゆる入力...
ソフトウェアテストにおける人工知能の使用はますます一般的になりつつあり、それには十分な理由があります...
[[271164]]人類史上初のプログラム可能なメモリスタ コンピュータが誕生しました。音声コマン...