強化学習を使用して、顧客が注目する広告を選択する方法

[51CTO.com クイック翻訳] 現在、世界中のデジタル広告代理店は、ニュースサイト、検索エンジン、ソーシャルメディア、ビデオストリーミング、その他のメディアプラットフォームに毎日何億もの広告を掲載しています。彼ら全員が答えたいのは、自社の製品カタログのどの広告が特定のユーザーにとってより魅力的か、という 1 つの質問です。何百もの Web サイト、何万もの広告、そして何百万人もの訪問者を前にして、この質問に正しく答えられるかどうかは、会社の収益成長に大きな影響を与える可能性があります。

幸いなことに、広告代理店にとって、チェスやビデオゲームへの応用で最もよく知られている人工知能の分野である強化学習が解決策を提供します。強化学習モデルを採用すると、さらに大きな報酬が得られます。オンライン広告の場合、強化学習モデルは、ユーザーがクリックする可能性が高くなる広告を見つけることに取り組みます。

世界のデジタル広告業界は毎年数千億ドルの収益を生み出しており、強化学習の威力を示すケーススタディとなっています。

1. A/B/nテストを使用する

強化学習が広告プロモーションの最適化にどのように役立つかをよりよく理解するために、簡単なシナリオを考えてみましょう。たとえば、ニュース Web サイトが企業と契約を結び、その企業の広告をニュース Web サイトに掲載するとします。同社はこのサイトに 5 つの異なる広告を掲載しましたが、2 つ以上の選択肢を扱う場合、これは A/B/n テストと呼ばれます。

ウェブサイト運営者の主な目標は、最も多くのクリックを生み出す広告を見つけることです。広告の観点から言えば、クリックスルー率 (CTR) を最大化することが目的です。クリックスルー率とは、クリック数と広告の表示回数（インプレッションとも呼ばれます）の比率です。たとえば、広告が 1,000 回表示され、ウェブサイトへのクリックが 3 回発生した場合、CTR は 3/1000 = 0.003 または 0.3% になります。

強化学習の問題に取り組む前に、まず A/B テストについて説明しましょう。これは、異なる Web ページのレイアウト、製品の推奨、広告など、2 つの競合するソリューション (A と B) のパフォーマンスを比較するための標準的な手法です。 2 つ以上の選択肢を扱う場合、A/B/n テストと呼ばれます。

A/B/n テストでは、通常、被験者はランダムに異なるグループに分けられ、各グループに 1 つの可能な解決策が与えられます。ニュースサイトの広告の場合、サイト訪問者ごとに 5 つの広告のうち 1 つがランダムに表示され、インプレッションの結果が評価されることになります。

A/B/n テストで 100,000 インプレッションが実行されたと仮定すると、広告 1 つあたり約 20,000 インプレッションに相当します。 5 つの広告のクリック率は次のとおりです。

広告1: 80/20,000 = 0.40%

広告2: 70/20,000 = 0.35%

広告3: 90/0,000 = 0.45%

広告4: 62/20,000 = 0.31%

広告5: 50/20,000 = 0.25%

このサイトは 100,000 回の広告表示から 352 ドルの収益を上げ、平均クリック率は 0.35% でした。さらに重要なことは、ウェブサイト運営者は 3 番目の広告が他の広告よりもパフォーマンスが優れていることに気づき、他の訪問者を引き付けるために引き続きそれを使用することになります。最もパフォーマンスの悪い広告（5 番目の広告）を使用した場合、収益は 250 ドルになります。最もパフォーマンスの高い広告 (3 番目の広告) が使用された場合、収益は 450 ドルになります。したがって、A/B/n テストを使用すると、最小収益と最大収益の平均が得られ、クリックスルー率を示す以上の貴重な知識が得られます。

デジタル広告のコンバージョン率は実は非常に低いです。この例では、パフォーマンスが最も優れた広告と最も劣る広告の間にはわずか 0.2% の差しかありません。しかし、その違いは規模に応じて重大な影響を及ぼす可能性があります。 5 番目の広告と比較すると、1,000 回の表示回数のうち 3 番目の広告を表示すると、収益が 2 ドル多くなります。 100 万インプレッションの場合、この差額は 2,000 ドルになります。数十億の広告が配信される場合、わずか 0.2% の違いがサイトの収益に大きな影響を与える可能性があります。

したがって、これらの微妙な違いを見つけることは、広告の最適化にとって非常に重要です。 A/B/n テストの問題は、これらの違いを見つけることがあまり効果的ではないことです。通常、すべての広告インプレッションは平等に扱われ、数万の広告を実行することによってのみ、それらの違いを妥当な信頼度で検出できます。これにより、特に広告の掲載数が増えると、収益が失われる可能性があります。

従来の A/B/n テストのもう 1 つの問題は、静的であることです。最適な広告を見つけたら、それを使い続ける必要があります。新しい要因（季節、ニュースのトレンドなど）により環境が変化し、他の広告のクリックスルー率（CTR）が高くなる可能性がある場合、A/B/n テストを再実行しない限り、それを検出するのは困難です。

A/B/n テストをより効率的かつ動的に変更できたらどうなるでしょうか? ここで強化学習が重要な役割を果たします。広告代理店は収益を最大化する方法を見つけなければなりません。

この場合、強化学習エージェントの動作は、これら 5 つの広告を表示することです。ユーザーが広告をクリックするたびに、強化学習エージェントは報酬ポイントを受け取ります。したがって、広告のクリック数を最大化する方法を見つける必要があります。

2. 多腕強盗

[[385338]]

マルチアームバンディットは、試行錯誤を通じて複数の解決策の 1 つを見つける手法です。

一部の強化学習環境では、アクションは順番に評価されます。たとえば、ビデオゲームでは、レベルを完了したりゲームに勝ったりするときに報酬を獲得するには、一連のアクションを実行する必要があります。広告を実行すると、各広告インプレッションの結果が個別に評価される、シングルステップ環境になります。

広告最適化問題を解決するには、シングルステップ強化学習に適したアルゴリズムであるマルチアームバンディットアルゴリズムを使用できます。マルチアームバンディット (MAB) は、仮想のシナリオから生まれました。このシナリオでは、多くの人がスロットマシンをプレイしており、これらのスロットマシンの勝率が異なることは知っていますが、どのスロットマシンの勝率が最も高いかは知りません。

特定のスロットマシンでプレイすることにこだわる人は、勝率が最も高いスロットマシンを選択する機会を失う可能性があります。したがって、多くのチップを投資することなく、勝率が最も高いスロットマシンを見つけるための効果的な方法を見つける必要があります。

広告最適化のケースは、多腕バンディット原理を使用する典型的な例です。この場合、強化学習エージェントは、非効率的な広告に多くの時間とリソースを浪費することなく、クリックスルー率が最も高い広告を見つける方法を見つける必要があります。

3. 探査と開発

すべての強化学習モデルが直面する問題の 1 つは、「探索と活用」の課題です。活用とは、強化学習エージェントがこれまでに見つけた最善の解決策に固執することを意味し、探索とは、現在の最善の解決策よりも優れた解決策を見つけるために他の解決策を試すことを意味します。

[[385339]]

広告を選択するアプリケーションでは、強化学習エージェントは、表示する最適な広告を選択するか、他のオプションを検討するかを決定する必要があります。

利用または探索の問題を解決するための 1 つのアプローチは、「ε 貪欲」アルゴリズムを使用することです。この場合、強化学習モデルは通常、最適なソリューションを選択し、指定された割合（イプシロン係数）のケースでは、広告の 1 つをランダムに選択します。

すべての強化学習アルゴリズムは、最適なソリューションの探索と新しいオプションの探索の間で適切なバランスを見つける必要があります。これは実用的な方法です。 ε 係数を 0.2 に設定した ε 貪欲アルゴリズムを使用するマルチアームバンディット (MAB) エージェントを検討します。つまり、エージェントは 80% の確率でパフォーマンスが最も優れた広告を選択し、残りの 20% の確率で他の広告を選択できます。

強化学習モデルは、どの広告のパフォーマンスが優れているかがわからない状態で開始されたため、各広告には均等なインプレッション数が割り当てられました。すべての広告が同じ回数配信される場合、広告が配信されるたびにそのうちの 1 つがランダムに選択されます。

広告を 200 回 (5 つの広告それぞれを 40 回) 実行した後、誰かが 4 番目の広告を 1 回クリックしました。強化学習エージェントは、広告のクリックスルー率を次のように調整します。

広告1: 0/40=0.0%

広告2: 0/40=0.0%

広告3: 0/40=0.0%

広告4: 1/40 = 2.5%

広告5: 0/40=0.0%

現在、強化学習エージェントは、広告番号 4 が最もパフォーマンスの高い広告であると考えています。広告の表示ごとに、0 から 1 の間の乱数が選択されます。この数値が 0.2 (イプシロン係数) より大きい場合は、4 番目の広告が選択されます。数値が 0.2 未満の場合、別の広告がランダムに選択されます。

ここで、別のユーザーが広告をクリックする前に、強化学習エージェントにさらに 200 個の広告が表示され、今度は誰かが 3 番目の広告を 1 回クリックします。これらの 200 回の表示回数のうち、広告番号 4 が最適な広告であるため、広告表示回数の 80% (160 回) を獲得することに注意してください。残りは他の広告に均等に分配され、新しい CTR 値は次のようになります。

広告1: 0/50=0.0%

広告2: 0/50=0.0%

広告3: 1/50 = 2.0%

広告4: 1/200 = 0.5%

広告5: 0/50=0.0%

これで最も理想的な広告が 3 番目の広告になります。広告表示の 80% を獲得します。さらに 100 回の表示回数（3 番目の広告が 80 回、その他の広告がそれぞれ 4 回）を獲得した後、誰かが 2 番目の広告を 1 回クリックしたとします。新しい CTR 分布は次のとおりです。

広告1: 0/54=0.0%

広告2: 1/54 = 1.8%

広告3: 1/130 = 0.7%

広告4: 1/204=0.49%

広告5: 0/54=0.0%

さて、2番目の広告が最善の解決策です。配信される広告が増えるにつれて、CTR は各広告の実際の価値を反映するようになります。最もパフォーマンスの高い広告は最も多くのインプレッションを獲得しますが、強化学習エージェントは他のオプションを引き続き探索します。したがって、環境が変化し、ユーザーが特定の広告に対してより肯定的に反応し始めた場合、強化学習はそれを検出できます。

100,000 件の広告を配信した後の分布は次のようになります。

広告1: 123/30,600 = 0.40%

広告2: 67/18,900 = 0.35%

広告3: 187/41,400 = 0.45%

広告4: 35/11,300 = 0.31%

広告5: 15/5,800 = 0.26%

ε-greedy アルゴリズムを使用すると、100,000 回の広告表示からの収益は 352 ドルから 426 ドルに増加し、平均クリックスルー率は 0.42% になります。これは、従来の A/B/n テストモデルに比べて大幅に改善されています。

改良されたε-greedyアルゴリズム

ε-greedy 強化学習アルゴリズムの鍵は、ε 係数を調整することです。設定値が低すぎると、最もよく認識される広告が使用され、より良い解決策が見つからない可能性があります。たとえば、上で検討した例では、4 番目の広告がたまたま最初のクリックを獲得しましたが、長期的には CTR が最も高かったわけではありません。したがって、サンプル数が少ないと、必ずしも真の分布が反映されない可能性があります。

一方、ε 係数を高く設定しすぎると、強化学習エージェントは最適でないソリューションを探索するために多くのリソースを浪費することになります。

ε-greedy アルゴリズムを改善する 1 つの方法は、動的戦略を定義することです。マルチアームバンディット (MAB) モデルの実行を開始すると、より高いイプシロン係数で開始して、より多くの探索とより少ない搾取を可能にします。モデルがより多くの広告を認識し、各ソリューションの価値をより正確に推定できるようになると、しきい値に達するまでイプシロン係数を徐々に減らすことができます。

最適化広告問題のコンテキストでは、イプシロン係数を 0.5 に設定し、1,000 回の広告表示ごとに 0.01 ずつ減らしていき、最終的に 0.1 に達するまで減らすという方法が考えられます。

マルチアームバンディット (MAB) を改善するもう 1 つの方法は、新しい観測値に重点を置き、古い観測値の価値を徐々に減らすことです。これは、デジタル広告や製品の推奨など、ソリューションの価値が時間の経過とともに変化する動的な環境で特に役立ちます。

これは非常に簡単な方法です。広告が配信された後に CTR を更新する従来の方法は次のとおりです。

(結果 + 過去の結果)/インプレッション

ここで、 result は表示された広告の結果 (クリックされた場合は 1、クリックされなかった場合は 0)、 past_results はこれまでこの広告が受けたクリックの累計数、 impressions は広告が配信された合計回数です。

元の結果を徐々にフェードアウトするには、新しいアルファ係数 (0 ～ 1) を追加し、次の変更を加えます。

(結果 + 過去の結果 * アルファ)/インプレッション

この小さな変更により、新しい観察がより大きな影響を与えることができるようになります。したがって、競合する広告が 2 つあり、クリック数とインプレッション数が同じ場合、強化学習モデルでは、クリック数が最も多い広告が選択されます。さらに、広告のクリックスルー率が過去に非常に高かったものの、最近は反応がない場合、モデル内でその価値はより速く低下し、強化学習モデルはより早く他の選択肢に切り替え、非効率的な広告に使用するリソースを減らすことになります。

強化学習モデルへのシナリオの追加

コンテキストスロットマシンは、広告視聴者の個々の特性を考慮するために関数近似を使用する。

インターネット時代では、ウェブサイト、ソーシャルメディア、モバイルアプリには、ユーザーの地理的位置、デバイスの種類、広告を閲覧した正確な時間など、ユーザーに関する豊富な情報が保存されています。ソーシャルメディア企業は、年齢、性別、友人や家族、過去に共有したコンテンツの種類など、ユーザーに関する詳細な情報を持っています。「いいね！」やクリックされた投稿の種類など

この豊富な情報により、企業は視聴者ごとに広告をパーソナライズできるようになります。しかし、作成されたマルチアームバンディット (MAB) モデルでは、すべての人に同じ広告が表示され、各オーディエンスの特定の特性を考慮していませんでした。マルチアームバンディット (MAB) にコンテキストを追加したい場合はどうすればよいでしょうか?

1 つの解決策は、それぞれがユーザーの特定のサブドメインをターゲットとする複数のマルチアームバンディット (MAB) モデルを作成することです。たとえば、北米、ヨーロッパ、中東、アジア、アフリカなどのユーザー向けに個別の強化学習モデルを作成できます。性別も考慮したらどうなるでしょうか? その場合、北米の女性ユーザーには 1 つの強化学習モデルが提供され、北米の男性ユーザーには別の強化学習モデルが提供される、といった具合になります。これに、年齢やデバイスの種類などの要素を加えると、すぐに大きな問題となり、トレーニングや維持が困難なマルチアームバンディット (MAB) モデルが急増することがわかります。

代替の解決策としては、コンテキスト情報を考慮したマルチアームバンディット (MAB) のアップグレード版である「コンテキストバンディット」を使用することです。コンテキストバンディットは、機能の組み合わせごとに個別のマルチアームバンディット (MAB) を作成する代わりに、「関数近似」を使用して、一連の入力要素に基づいて各ソリューションのパフォーマンスをモデル化しようとします。

あまり詳しく説明せずに言えば、コンテキストスロットは、教師あり機械学習を使用して、場所、デバイスの種類、性別、年齢などに基づいて各広告のパフォーマンスを予測します。マルチアームバンディット (MAB) は、コンテキストバンディットの作成に必要なすべての機能の組み合わせではなく、広告ごとに 1 つの機械学習モデルを使用します。

これで、強化学習による広告の最適化に関する説明は終了です。強化学習技術は、コンテンツや製品の推奨、動的価格設定など、他の多くの問題を解決するために使用でき、ヘルスケア、投資、ネットワーク管理などの他の分野でも使用できます。

強化学習が広告をどのように選択するか、ベン・ディクソン著

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: Google Loon の AI が開発者を驚かせる理由

>>: AI医薬品製造はここにあります！新薬開発は「10年間の努力」に別れを告げるかもしれない

ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

ブログ

強化学習を使用して、顧客が注目する広告を選択する方法

ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

AI後の生活

機械学習において統計がなぜそれほど重要なのか？

人工知能とビッグデータは私たちの生活をこのように変えるだろう

機械学習の教訓: 5 つの企業が失敗を共有

9つの一般的な畳み込みニューラルネットワークの紹介

正規化により事前トレーニングが改善され、勾配の不一致が軽減され、Facebook のモデルが GPT-3 を上回る

推薦する

Linux サーバー管理のヒント: 効率とセキュリティを向上させる

チャットAIは、わからないことに遭遇するとオンラインで検索できます。ネットユーザー：グループチャット中にこっそり百度で検索するのと同じです

LIMEを使用してさまざまな機械学習モデルのコード例を説明する

Nvidia 3090が180億パラメータの大規模モデルに単独で挑む。今度は国内オープンソースプロジェクトが大暴れ

「人工知能+教育」は教育の矛盾を解決するために、より包括的な方向に向かっている

PS+AI RAW画像がワンステップで完成、効果は抜群です！ Adobe Firefly 2 メジャーアップデート: 包括的なモデルのアップグレード、ベクターグラフィックスの完全なサポート

ドローンの脅威と脆弱性評価に関する簡単な説明

顔認識技術の現状と今後の開発動向

人工知能は匿名のチェスプレイヤーの身元を確認でき、プライバシーの脅威となる

ソーシャルメディア向け AI ツールトップ 10

復旦大学のチームが中国の医療・健康パーソナルアシスタントをリリースし、47万件の高品質データセットをオープンソース化

AIの急速な発展によってもたらされるエネルギー需要をどう解決するか？

C# 再帰アルゴリズムの理解の例分析