Ant Marketingの推奨シナリオにおける因果修正法

1. 因果修正の背景

1. 逸脱の発生

推奨システムは、収集されたデータに基づいて推奨モデルをトレーニングし、ユーザーに適したアイテムを推奨します。ユーザーがアイテムを操作すると、データが再度収集され、モデルのトレーニングが継続され、閉ループが形成されます。ただし、この閉ループにはさまざまな影響要因があり、エラーが発生する可能性があります。エラーの主な原因は、モデルのトレーニングに使用されるデータのほとんどが、露出戦略やユーザーの選択などの要因によって影響を受ける理想的なトレーニングデータではなく、観察データであるためです。バイアスの本質は、経験的リスク推定値の期待値と真の理想的なリスク推定値の期待値との間の差です。

2. よくある逸脱

推奨マーケティングシステムでよく見られる逸脱には、主に 3 つの種類があります。

選択バイアス: ユーザーが自分の好みに基づいて、対話するアイテムを積極的に選択することによって発生します。
露出バイアス: 推奨アイテムは通常、アイテム候補プール全体のサブセットにすぎません。ユーザーが選択を行う際、システムによって推奨されたアイテムのみとやり取りできるため、観察されるデータにバイアスが生じます。
人気バイアス: トレーニングデータで人気のあるアイテムが大きな割合を占めるため、モデルはこの動作を学習し、より人気のあるアイテムを推奨するようになり、マシュー効果が発生します。

位置偏差、一貫性偏差などの他の偏差もあります。

3. 因果関係の修正

次の例は、バイアスがモデリングプロセスにどのように影響するかを示しています。ご存知のとおり、喫煙は肺がんの原因になりやすく、喫煙者は指が黄色くなりやすいです。喫煙が共通の原因であるため、黄色い指と肺がんには関連があると考えられます。しかし、黄色い指を持つことが肺がんを引き起こす原因になるとは言えません。両者の間には因果関係はありません。喫煙という共通の原因が存在すると、両者の間に誤った相関関係が生じます。この共通の原因は交絡因子とも呼ばれます。ここでの因果関係は「もし～だったら」という質問です。a を変更すると y が変わり、他の条件は変わらないと仮定すると、a と y の間に因果関係があることになります。

この問題を回避するにはどうすればよいでしょうか。一般的な方法は、偏りのないデータを導入し、偏りのないデータを使用してモデルが偏りのない表現を学習できるようにすることです。別の方法は、因果図の観点から後の段階で観測データを調整してバイアスを修正することです。因果修正とは、バイアスの影響を除去するために因果的な手段を通じてデータまたはモデルを処理することです。

4. 因果関係図

因果グラフは、シーン内のノード間の因果関係を表すために使用される有向非巡回グラフです。因果グラフは主に、チェーン構造、フォーク構造、衝突構造の 3 つの構造で構成されます。

連鎖構造: C が与えられれば、A と B は独立します。
フォーク構造: C が指定されている場合、A が変更されても、B はそれに応じて変更されません。
衝突構造: C が存在しない場合は、A と B が独立していることは観察できませんが、C を観察すると、A と B は独立していないことがわかります。

バックドアパスとバックドア基準は、上図の例「COVID-19 XとZの感染と死亡率Yの関係」を参考にすることができます。バックドアパスは、X を Y にリンクするパスですが、Z から始まり、最終的に Y を指します。先の例と同様に、COVID-19 の感染と死亡率の間には純粋な因果関係はありません。COVID-19 の感染は年齢の影響を受けます。高齢者は COVID-19 に感染する可能性が高く、死亡率も高くなります。しかし、X と Y の間のすべてのバックドアパスをブロックするのに十分なデータがある場合、つまり、Z、X、および Y が独立している場合は、真の因果関係をモデル化できます。

2. データ融合に基づく補正

1. データ融合補正モデルの紹介

以下は、SIGIR2023 の Industry Track で公開された、Ant チームによるデータ融合と修正の取り組みの紹介です。この研究の目的は、偏りのないデータを活用してデータを増強し、モデルの修正を導くことです。

偏りのないデータの全体的な分布は偏りのあるデータの分布とは異なります。偏りのあるデータはサンプル空間全体の特定の領域に集中し、欠損サンプルは偏りのあるデータが比較的少ない領域に集中します。したがって、拡張サンプルが偏りのない領域に近い場合、偏りのあるデータはより大きな役割を果たします。拡張サンプルが偏りのあるデータ領域に近い場合、偏りのあるデータはより大きな役割を果たします。この点に関して、本論文では、データ拡張のために偏りのないデータと偏りのあるデータをより有効に活用できる MDI モデルを設計します。

上図はアルゴリズムのフレームワークを示しています。MDI モデルは、メタ学習手法を使用して、偏りのないデータのサンプル重みと加重係数を調整します。まず、MDI モデルのトレーニングには 2 つの段階があります。

ステージ 1: 偏りのないデータを使用して、偏りのない教師モデルをトレーニングします。
フェーズ 2: 元の学習方法を使用して、図内の他の構造を更新します。

L(fd) の動作損失を最適化して融合デバイアスモデル fd をトレーニングすると、最終的な損失損失には主に 2 つの項目が含まれます。1 つは L-IPS、もう 1 つは L-IMP です。 L-IPS は、元のサンプルを最適化するために使用する IPS モジュールです。R-UI は、任意のモデルを使用して傾向スコアを導出します (サンプルが偏りのないサンプルであるか偏りのあるサンプルであるかの確率を決定します)。2 番目の項目 L-IMP は、プリセット拡張モジュールの重みであり、R-UI は、プリセット拡張モジュールによって生成されたテールタグです。P-UI と 1-P-UI は、現在のサンプルの偏りのない教師モデルと融合モデルの傾向スコアです。fp は、傾向スコアを学習するために使用される関数です。fp を学習することにより、偏りのないデータの教師モデルと現在の偏りのあるデータでトレーニングされたモデルを適応的に組み合わせて、拡張サンプルの疑似ラベルを共同で生成します。この方法は、より複雑なパターン情報を学習するために使用され、fp はメタ学習によって解決されます。

以下はアルゴリズムの完全なトレーニングプロセスです。

偏りのないデータで fu を事前トレーニングします。
fdのパラメータをfd(u,i)にコピーし、バイアス+拡張データのパラメータを更新します。
拡張されたデータに対して fp のパラメータを更新します。
バイアス+拡張データの更新された fp に基づいて fd を正式に更新します。
モデルが収束するまで手順 2 ～ 4 を繰り返します。

2. データ融合補正モデルの実験

私たちは、Yahoo R3 と Coat という 2 つの公開データセットでこの手法を評価しました。 Yahoo R3 は、15,000 人以上のユーザーから 1,000 曲の評価を収集し、 310,000 件以上の偏りのあるデータと 5,400 件の偏りのないデータを収集しました。コートデータセットは、290 人のユーザーが 300 着の衣服を評価して、6900 件以上の偏りのあるデータと 4600 件以上の偏りのないデータを収集します。 2 つのデータセットのユーザーによって付けられたスコアは 1 ～ 5 です。偏りのあるデータはプラットフォームのデータユーザーから取得され、偏りのないサンプルはユーザーをランダムに選択してスコア付けすることによって収集されます。

Ant は、2 つの公開データセットに加えて、実際の業界シナリオのデータセットも使用しました。偏りのないデータサンプルが非常に少ない状況をシミュレートするために、偏りのあるデータすべてと偏りのないデータの 10% をトレーニングに使用し、偏りのないデータの 10% を検証用に保持し、残りの 80% をテストセットとして使用しました。

私たちが使用するベースライン比較方法は主に次のとおりです。最初の方法は、それぞれ不偏データ、単一偏りデータ、直接データ融合でトレーニングされたモデルを使用することです。2 番目の方法は、少量の不偏データを使用して通常の表現を設計し、偏りデータと不偏データ表現の類似性を制限して修正操作を実行することです。3 番目の方法は、傾向スコアの逆確率である逆確率重み法です。ダブルロバストも一般的なバイアス補正方法です。傾向フリーダブルロバストはデータ拡張方法であり、最初に偏りのないサンプルを使用して拡張モデルを学習し、次に拡張サンプルを使用してモデル全体のバイアス補正を行います。自動デバイアスも、偏りのないデータを拡張に使用して、モデルのバイアス補正を行います。

パフォーマンスを評価するために、MSE と MAE という 2 つのメトリックを使用しました。図に示すように、私たちが提案した MDI 法は、Coat データセットと Product データセットの両方の指標において比較的良好なパフォーマンスを示しています。

Yahoo R3 データセットでは、提案手法は MAE で最高のパフォーマンス指標を示し、IPS を除く MSE でも最高のパフォーマンスを発揮します。 3 つのデータ拡張方法、PFDR、Auto Debias、および提案された MDI は、ほとんどの場合、パフォーマンスが向上します。ただし、PFDR は偏りのないデータを使用して拡張モデルを事前にトレーニングするため、偏りのないデータの品質に大きく依存します。そのため、Coat モデルには 464 個の偏りのないトレーニングデータサンプルしかありません。偏りのないサンプルが少ないと、拡張モジュールは比較的貧弱になり、データパフォーマンスも比較的低くなります。

異なるデータに対する AutoDebias のパフォーマンスは、PFDR のパフォーマンスと正反対です。 MDI は、偏りのないデータ拡張方法と偏りのあるデータ拡張方法の両方を使用するように設計されているため、より強力なデータ拡張モジュールを備えています。したがって、偏りのないデータが少ない場合と偏りのあるデータが多い場合の両方で、より良い結果を達成できます。

また、2 つの公開データセットで、異なる割合の偏りのないデータを使用してこれらのモデルのパフォーマンスを評価しました。トレーニングには、それぞれ偏りのないデータの 50% から 40% と偏りのあるデータすべてを使用しました。その他のロジックは、偏りのないデータの最初の 10% を使用して検証され、残りのデータはテストに使用されました。この設定は、前の実験と同じです。

上の図は、不偏データの割合が異なる場合のさまざまな手法の MAE パフォーマンスを示しています。横軸は不偏データの割合を表し、縦軸は各手法が不偏データに与える影響を表しています。不偏データの割合が増加しても、AutoDebias、IPS、DoubleRubus の MAE は大幅に低下しないことがわかります。ただし、デバイアスアプローチに従わず、元のデータフュージョンメソッドを直接使用して学習すると、大幅な低下が発生します。これは、バイアスのないデータサンプルの割合が高いほど、全体的なデータ品質が向上し、モデルがより良いパフォーマンスを学習できるためです。

Yahoo R3 データを 30% を超える偏りのないデータを使用してトレーニングすると、このアプローチは MDI を除く他のすべてのバイアス補正方法よりも優れたパフォーマンスを発揮します。ただし、MDI メソッドは比較的優れたパフォーマンスを達成できるため、MDI メソッドはさまざまなスケールの偏りのないデータに対して比較的堅牢な結果をもたらすことも証明されます。

同時に、拡張モジュールの各部分の設定の有効性を検証するために、3 つのデータセットでアブレーション実験も実施しました。

λ = 0 の設定は、拡張モジュールが直接削除されることを意味します。Pu,i = 1 は、バイアスのないデータのみが拡張データモジュールのモデル化に使用されることを意味します。Pu,i = 0 は、バイアスと拡張の融合データのみが拡張データモジュールのモデル化に使用されることを意味します。

上図はアブレーション実験の結果を示しています。MDI 方式は 3 つのデータセットすべてで比較的良好な結果を達成しており、拡張モジュールが必要であることがわかります。

公開データセットでも実際のビジネスシナリオのデータセットでも、私たちが提案した偏りのないデータと偏りのあるデータを融合する拡張方法は、従来のデータ融合スキームよりも優れた結果をもたらします。同時に、MDI の堅牢性は、パラメータ感度実験とアブレーション実験を通じても検証されています。

3. バックドア調整による修正

次に、チームのもう一つの作業である、バックドアに基づく調整と修正について紹介します。この研究はSIGIR2023のIndustry Trackでも発表されています。バックドア調整と修正が適用されるシナリオは、マーケティング推奨シナリオです。下図に示すように、ユーザーとクーポン、またはユーザーと広告や商品とのやり取りは、いかなる干渉も受けません。あらゆるやり取りの可能性は平等であり、各クーポンはあらゆるユーザーに露出される可能性も平等です。

しかし、実際のビジネスシナリオでは、一部の小規模な商店を保護したり支援したりしてトラフィックを増やし、世界中のユーザーの参加体験を確保するために、一連のポリシー制約が設定されることがよくあります。この状況により、一部のユーザーは特定のクーポンに多く触れるようになり、他のユーザーは別のクーポンに多く触れることになります。この介入は、前の記事で述べた交絡因子です。

この種の介入は、電子商取引のマーケティングシナリオでどのような問題を引き起こすでしょうか?上図に示すように、説明を簡単にするために、ユーザーを参加意向の高いユーザーと参加意向の低いユーザーという 2 つのカテゴリに単純に分け、クーポンを割引額が大きいユーザーと割引額が小さいユーザーという 2 つのカテゴリに単純に分けます。図の棒グラフの高さは、対応するサンプルの全体的な割合を表します。棒グラフが高くなるほど、トレーニングデータ全体における対応するサンプルの割合が大きくなります。図に示されている小額割引クーポンと参加意向の高いユーザーサンプルが大部分を占めているため、モデルは図に示されている分布を学習します。モデルは、参加意向の高いユーザーが小額割引クーポンを好むと認識します。しかし実際には、同じ使用しきい値に直面した場合、ユーザーはより多くのお金を節約できるように、割引率の高いクーポンを間違いなく好みます。図のモデルは、小割引クーポンの実際のコンバージョン確率は大割引クーポンよりも低いと予測しています。しかし、特定のサンプルに対するモデルの推定では、小割引クーポンの方が利用される確率が高いと判断されるため、モデルはこのスコアに対応するクーポンも推奨することになり、矛盾が生じます。

このパラドックスの原因を因果グラフの観点から分析し、現在のシナリオに偏りのない推奨モデルを適用します。因果グラフは上図のように構築され、U はユーザーの表現を表し、I はアイテムの表現を表します。 D と K は、それぞれユーザーの観点と公平性の観点から見た過去のやり取りです。T は、現在のビジネスによって設定されたいくつかのルールと制約を表します。T は直接定量化することはできませんが、D と K を通じて、ユーザーとアイテムへの影響を間接的に確認できます。 y はユーザーとアイテム間のインタラクションを表し、その結果はアイテムがクリックされるか、検証されるかなどになります。

因果図で表される条件付き確率式は、図の右上隅に示されています。式の導出はベイズの確率式に従います。 U と I が与えられた場合、最終導関数 P|Y ui は U と I にのみ関連しているわけではありません。U は du の影響を受けるためです。つまり、p に u が与えられた場合、p(du) の確率も存在します。同様に、I が与えられた場合、I も ki の影響を受けます。これは、D と K の存在がシーンにバックドアパスの存在につながるためです。つまり、U から開始されず、最終的に y を指すパス (UDTY または IKTY パス)。このバックドアパスは、U が T だけでなく D を通じても y に影響を与える可能性があるという誤った考えを表します。

調整方法は、D から U へのパスを人為的に遮断し、U が y に直接影響を与えることができるのは UTYとUY のみになるようにすることです。この方法により、誤った相関関係が除去され、真の因果関係がモデル化されます。バックドア調整とは、観測データに対して do 計算を実行し、do 演算子を使用してすべての D とすべての K のパフォーマンスを集計し、U と I が D と K の影響を受けないようにすることです。このようにして、真の因果関係がモデル化されます。この式の導出を下の図に示します。

4a は上記の 3b と同じですが、4b はサンプル空間の近似値を作成します。理論的には D と K のサンプル空間は無限であるため、収集されたデータによってのみ近似できます (サンプル空間の D と K は同じサイズです)。 4c と 4d はどちらも目的の近似値の導出であり、その場合、追加の不偏表現 T のみをモデル化する必要があります。 T は、すべてのケースでユーザーとアイテムの表現の確率分布を走査し、さらに偏りのない表現 T をモデル化して、モデルが最終的な偏りのないデータ推定値を取得できるようにすることで取得されます。

この実験では、Tianchi データセットと 84.51 (クーポン) データセットという 2 つのオープンソースデータセットを使用しました。このルール戦略がデータ全体に与える影響は、サンプリングによってシミュレートされます。同時に、実際の電子商取引マーケティング活動シナリオによって生成されたデータを使用して、アルゴリズムの品質を共同で評価しました。逆確率加重によってバイアスを補正する IPW、バイアス機能を削除することでバイアスの影響を軽減する Unawareness、誤差項制約表現を導入することで比較的偏りのない推定値を取得する FairCo、マルチタスクフレームワークを通じてユーザーの一貫性とアイテムの人気度を個別に推定し、予測段階で一貫性と人気度を減算することで偏りのない推定値を実現する MACR、因果介入によって損失項を調整することで人気度バイアスの影響を除去する PDA、バックドア調整の助けを借りて情報バイアスも除去するが、ユーザーの視点からのバイアスのみを補正する DecRS など、いくつかの主流のバイアス補正方法が比較されます。

実験の評価指標は AUC です。マーケティングプロモーションシナリオでは推奨クーポンまたは候補商品が 1 つしかないため、本質的にはバイナリ分類問題です。したがって、評価には AUC を使用する方が適切です。異なるアーキテクチャにおける DNN と MMOE のパフォーマンスを比較すると、私たちが提案した DMBR モデルは、元の非補正方法や他の補正方法よりも優れた結果を示していることがわかります。同時に、Ds_A と Ds_B は、実際のビジネスデータセットよりもシミュレートされたデータセットで高い改善効果を達成しました。これは、実際のビジネスデータセットのデータがより複雑であり、ルール戦略だけでなく他の要因の影響も受けるためです。

このモデルは、特定の電子商取引マーケティング活動シナリオで開始されました。上の図はオンライン効果を示しています。ベースラインモデルと比較して、DMBR モデルは償却率と償却量において一定の改善を達成しました。

4. Antでの応用

Ant は、主にルールやポリシーの制約があるシナリオで因果修正法を使用します。たとえば、広告シナリオでは、さまざまな広告の対象グループに制約が設定されることがあります。たとえば、ペットをターゲットにした広告は、ペットを飼っているユーザーに配信される可能性が高くなります。電子商取引のマーケティングシナリオでは、小規模な商人のトラフィックを確保し、すべてのトラフィックが大規模な商人によって消費されるのを防ぐための戦略がいくつか設定されます。そして、ユーザーのイベント参加体験を確保します。イベント全体の予算が限られているため、状況を利用する一部のユーザーはイベントに繰り返し参加し、多くのリソースを消費し、他のユーザーのイベント参加体験が悪くなります。このようなシナリオでは因果修正が使用されます。

<<:

>>: 人工知能における多様性と不確実性: 世界中の 2,778 人の AI 専門家を対象とした調査の解釈