グラフニューラルネットワークに基づくOPPOの検索推奨アルゴリズムと実践

1. グラフニューラルネットワーク入門

グラフニューラルネットワークについて説明する前に、まずグラフ表現学習について触れる必要があります。では、グラフ表現学習とは何でしょうか? CV と NLP の分野では、あらゆる画像、あらゆるトークン、音声内のすべての文をベクトルで表現できます。最も一般的なアプローチは、表現に高次元のスパースベクトルを使用することです。しかし、ディープラーニングは現在非常に人気があるため、高次元のスパース表現を低次元の密なベクトル空間に埋め込むことが好まれています。

グラフ表現についても同じことが言えます。グラフは、データを表示および整理するための手段にすぎません。従来の NLP や CV 分野の一部の画像やテキストと同様に、グラフネットワーク構造として見ることもできます。グラフはより一般化されており、エンティティに加えて、さまざまなものをグラフの形式で整理できます。いくつかの方法を使用してグラフ上のノードやエッジ、またはグラフ全体をベクトルの形式で表現することで、グラフ分類、ノード分類、リンク予測、コミュニティの発見、グラフ生成など、多数の下流タスクに適用できます。

グラフ表現の学習も、因数分解、ランダムウォーク、ディープモデルという 3 つの段階を経てきました。グラフニューラルネットワークは主に後者の 2 つの段階を対象としています。

グラフウォークモデルは、基本的にランダムウォークメソッドに基づいており、グラフ構造化データからサンプリングします。ノードをサンプリングすることで、グラフ構造学習タスクはシーケンスコンテキストモデリングタスクに変換されます。このアイデアは、NLP の Word2Vec メソッドから借用したものです。

グラフニューラルネットワークが登場する以前は、従来の因子分解法には、非線形フィッティング機能が不十分であったり、計算の複雑さが非常に高かったりするなどの問題がありました。グラフが大きい場合、多くの時間がかかります。

対照的に、DeepWalk や Node2Vec などのグラフウォーキング手法には、2 つの非常に優れた利点があります。1 つは強力な解釈可能性であり、もう 1 つは高次の類似性情報を学習する機能です。たとえば、6 つのノードを持つグラフの場合、一連のノードシーケンスはランダムサンプリングによってサンプリングできます。これには、グラフ構造に関するいくつかのトポロジ情報が暗黙的に含まれています。もちろん、サンプリングプロセスでは一部の情報が失われます。いくつかのスキップグラムメソッドを使用すると、隣接するノードの表現距離を短縮し、隣接していないノードの一部の表現を押しのけることと同等になります。最終的に、グラフ内のすべてのノードを同じ空間に埋め込むことができます。この方法は、因子分解法と比較して、計算の複雑さの点で非常に柔軟であり、埋め込み作業をより効率的に達成できます。

しかし、グラフウォーキング法にもいくつかの問題があります。たとえば、従来のグラフウォーキング法の中には、トポロジ構造の一部の情報のみを考慮し、ノード表現などの情報を使用しないものがあります。2つ目の問題は、ほとんどのグラフウォーキング法が静的表現であることです。たとえば、Word2vec法では、トークンは事前に生成されます。コンテキストが変わっても、表現は変わりません。このタイプの方法はエンドツーエンドで学習することはできず、事前に生成することしかできません。下流のタスクと同時にトレーニングすることは不可能です。3つ目の問題は、グラフウォーキング法には本質的にパラメータ共有メカニズムが欠けていることです。ノードごとに表現を生成するため、パラメータの数はノード数に比例して増加します。ノード数が多すぎると、パラメータの数も大きくなりすぎます。

グラフウォーク法の後、スペクトル領域に基づくグラフ畳み込み法が登場しました。その考え方は、グラフ構造の情報を最大限に活用し、グラフ信号処理と畳み込みの考え方を組み合わせることです。これまで、ほとんどの方法はフーリエ変換に基づいていました。これは、まず空間領域の表現をスペクトル領域に変換し、スペクトル領域でいくつかの操作を実行してから、それを空間領域にマッピングすることと同じです。この方法は行列分解を伴い、非常に複雑な方法でもあります。

ChebyNet と GCN は、複雑性の問題に関して多くの研究を行ってきた 2 つの非常に古典的なネットワークです。たとえば、ChebyNets はチェビシェフ多項式を使用してグラフフィルターを近似します。この方法では、行列分解演算が回避され、計算の複雑さが大幅に軽減されます。 GCN はチェビシェフの一次近似を採用します。これは本質的にはいくつかの近傍の集約操作に相当し、スペクトル領域のグラフ畳み込み全体を空間領域の畳み込みに移行します。その受容野はグラフ畳み込み層の数に比例します。グラフ畳み込み演算は隣接行列全体に依存する必要があるため、グラフが非常に大きい場合、計算の複雑度が高いという問題を回避する方法はまだありません。

業界で成功裏に実装され、さまざまな実際のビジネスシナリオで広く使用されているグラフ畳み込み手法のほとんどは、空間領域に基づいています。前述の近傍集約に基づくメッセージ伝播パラダイムの核心は、メッセージ伝送プロセスでノードサンプリング、レベルサンプリング、サブグラフサンプリングなどの近傍サンプリング方法を使用することです。これにより、計算の複雑さが大幅に軽減され、トランスダクティブ学習が帰納的学習に拡張されます。一部の新しいノードについては、その近傍がわかっていれば、新しいノードの表現を取得できます。これは非常に柔軟で、一般化が強く、複雑性が低いです。

グラフ表現学習とグラフニューラルネットワークの基本的な背景を紹介した後、グラフが推奨システムで独自の位置を占める理由を探ってみましょう。全体は 2 つの部分に分けられます。1 つは推奨システムにおけるグラフデータ構造自体の価値であり、もう 1 つは推奨システムにおけるグラフニューラルネットワークの利点です。

推奨システムにおけるグラフの価値は、次の 4 つの側面に要約できます。

まず、ユーザーの行動データは、自然にグラフの形で存在します。たとえば、ユーザーのクリックから購入までの行動は、グラフを使用して自然にリンクできます。

2 つ目は、グラフにさまざまな種類の動作を直接含めることができることです。

3 つ目は、グラフがさまざまなシナリオの情報を直接リンクすることです。さまざまなシナリオでのユーザーの一部の行動は、グラフ全体の形式を通じてリンクできます。ただし、非グラフ形式の場合、その多くは平坦化されており、シーン間の関係性は特徴などを通じて暗黙的に表現されるだけですが、グラフは上部のソーシャルネットワークグラフのように、エッジの形でこれらの情報を直接リンクできます。中央の図はナレッジグラフの形式です。オレンジ色のノードはアイテムを表し、右側の緑色のノードは属性を表し、一番下のノードはユーザーとアイテムのインタラクションを表すインタラクショングラフです。最終的に、3 つのグラフが 1 つの大きなグラフに収束します。このグラフには、ユーザー間のソーシャルインタラクションだけでなく、ユーザーとアイテム間のさまざまな動作、そしてもちろんアイテムの固有の属性間の関連性など、非常に豊富な情報が含まれています。

4 番目のポイントは、上記の豊富な情報に基づいて、推奨システムが直面する動作のスパース性とコールドスタートの問題を非常に効果的に改善できることです。

上の図は 2 つの部分に分かれており、上部が従来のモデル、下部がグラフニューラルネットワークモデルです。

デュアルタワーモデルなどの従来のモデルは、2 つのターゲットノード間の相互作用とノード自体の情報のみに依存し、ターゲットノードの隣接情報には直接依存しません。実際のアプリケーションでは、たとえば 30 日間に基づいてトレーニングセットを構築する場合、時間拡張操作が行われます。トレーニングセットは、今日、昨日、および 30 日前のデータに基づいて構築され、基本的に時系列図の形式に拡張できます。各時点のグラフは互いに独立しています。たとえば、tn 日前には、U1 と U2 という 2 人のユーザーがいて、U2 は I2 と対話していました。t-(n+1) 日には、U1、U2、U3 は I1 および I4 と何らかの行動上の対話を行いました。最終的に構築されたトレーニングセットは、異なる時点における対話行動の独立したデータサンプルです。たとえば、U2 と I2 は正のサンプルであり、U2 と I1 は負のサンプルです。

グラフニューラルネットワークのモデリング方法自体は、より豊富な情報を使用します。前述のとおり、ユーザー間の関連付けやアイテム間の関連付け情報のみが含まれています。静的な観点からは、全体像のメッセージを直接集約します。実際にモデリングする際には時間が拡張され、各時間でサンプルの一部を寄与することになります。

グラフは時間に応じて拡大することもできます。拡大後は右下のグラフになります。使用される情報は従来のモデルよりも豊富になります。単一の時点から比較すると、グラフに含まれる情報は従来のモデルよりも豊富になります。モデリング時には、ノード情報とインタラクション情報に加えて、その他のサイド情報も使用されます。

さらに、メッセージを集約する際に、グラフニューラルネットワークは以前の時点の近隣にも依存できます。たとえば、時刻 t のノードが隣接ノードを集約する場合、この時点での隣接ノードに関する情報を集約するだけでなく、時刻 t より前の一部の情報にも動的に依存することができます。これは、モデル全体を iid サンプル形式から非 iid 形式に変更することと同じです。

要約すると、グラフニューラルネットワークの全体的なモデリングで使用できる情報量は、従来のモデルと同等かそれ以上であり、これはグラフモデリングの自然な利点です。

2.推薦システムにおけるグラフの応用パラダイムと導入

ほとんどの推奨システムは、リコール、大まかなランキング、細かいランキング、再ランキングの 4 つのモジュールに分類できます。この記事では主にリコールとリファインメントの部分について説明します。推奨システムにおけるグラフの応用は、さまざまな観点から分類できます。この記事では、主にシナリオとグラフを補足として使用して主要なカテゴリに分類し、さらにアルゴリズムに応じて細分化します。

図 2 はリコールモジュールのアプリケーションを示しています。1 つのタイプは独立したリコールループとして使用され、もう 1 つは既存のメインリコールループと統合されます。独立したグラフリコールループの形で存在する場合は、グラフ戦略とグラフ表現に分けることができます。

グラフ戦略は、いくつかのルールの定義を通じて、グラフ全体の構造に基づいて、ユーザーまたはクエリに直接リコールリストを構築します。リコールリストをフィルター処理するには、シナリオビジネスに関連するルールに関する多くの知識が必要です。

グラフ表現は、エンドツーエンドと事前トレーニングの 2 つの方法に分けられます。両者の最大の違いは、エンドツーエンドではビジネスシナリオからの監視信号に大きく依存するのに対し、事前トレーニングではグラフ自体の固有の情報のマイニングに重点を置いていることです。エンドツーエンドは、ナレッジグラフ、ソーシャルネットワーク、行動ネットワークなどのいくつかのモデリング方法に分けられ、事前トレーニングは比較クラス、生成クラス、予測クラスに分けられます。

グラフリコールループに加えて、もう 1 つの応用方法はグラフフュージョンです。グラフとツインタワーモデルを組み合わせてリコールループを形成します。融合の方法も 2 つあります。1 つ目は、それを特徴として使用する方法です。たとえば、いくつかのグラフトポロジ構造の特徴をデュアルタワーモデルへの特徴入力として使用したり、いくつかの埋め込み型の特徴をいくつかの事前トレーニング方法を通じて特徴入力として取得したりします。もう 1 つの方法は、グラフモジュール自体がエンドツーエンドのトレーニングのためのデュアルタワーモデルに従うことです。グラフが配置される特定のタワーは、2 つのカテゴリに分けられます。ユーザータワーに配置されている場合は、ソーシャルネットワークである可能性があります。アイテムタワーに配置されている場合は、ナレッジグラフまたはインタラクティブネットワークである可能性があります。または、グラフサブネットワークを両側のタワーに配置して一緒に学習することもできます。

ファインランキングとリコールの最大の違いは、ファインランキングでは通常 1 つのメインモデルのみが関係するため、サブパスの概念がないことです。ファインランキングのメインモデルを使用したトレーニングに参加したり、ファインランキングに機能を提供したりするために、サブネットワークとしてグラフのみが関係します。グラフの最大の役割は、機能の提供であれ、洗練されたランキングのためのエンドツーエンドのトレーニングであれ、グラフ自体の利点をフルに発揮して、洗練されたランキングタスクが直面する特定の問題を解決することです。たとえば、機能の改良、スパースな機能、スパースな動作などの必要性から、機能間の相互作用をマイニングしたり、ユーザーの興味をマイニングしたり、グラフを通じてコールドスタートの問題を軽減したり、洗練されたランキングモデルの豊富な表現としてグラフに基づいて複数のドメインにおけるユーザーの複数の動作を統合したりすることができます。

グラフリコールでは、主にエンドツーエンド、事前トレーニング、サブネットワークの 3 種類の作業が導入されます。

エンドツーエンドのシステム全体は主にグラフモジュールに基づいており、推奨タスクが監視信号の主なソースとなります。

グラフの事前トレーニングもグラフモジュールに基づいていますが、自己教師ありタスクが監視信号の主なソースとなります。たとえば、事前トレーニング後、I2I リコールや U2I リコールを埋め込みモードで直接実行できます。また、初期化済みまたは事前トレーニング済みのサブネットワークとして使用して、微調整のための推奨タスクに参加することもできます。この方法とエンドツーエンドの最大の違いは、監視信号がトレーニングを支配するかどうかです。

グラフサブネットワークはグラフモジュールによって補完され、デュアルタワー構造などのメインモデル構造がメインになります。 CTR モデリングなどの下流のターゲットタスクも、監視信号全体の主なソースです。

上の図ではいくつかの古典的なアルゴリズムも紹介されています。興味のある学生は各方向の内容についてさらに詳しく学ぶことができます。

業界における正確なランキングの作業は、主にグラフ機能とグラフサブネットワークに焦点を当てています。

プレーンテキスト機能などのグラフ機能は、いくつかのトポロジ機能またはタスク関連機能で補完できます。事前トレーニング済みの埋め込み機能は、通常、特定の最適化方向に合わせて生成されます。たとえば、コールドスタート問題の場合、グラフネットワークを使用して、id クラスの特徴のより豊富な表現を生成し、新しい項目の表現機能を強化できます。

Twitter が使用する TwHIN も、複数のシナリオと複数の行動におけるユーザーの行動関係に基づいて、非常に大きなグラフを構築します。グラフに基づいてユーザーとツイートの表現を生成し、その表現を洗練されたランキングモデルに入力して、下流のトレーニングに参加させることができます。

機能の改良、機能の相互作用、意図のマイニングなどのグラフサブネットワークは、特定の改良タスクが直面する特定の問題を対象にすることで、改良モデルが特定の種類の問題に対する表現能力を向上させるように設計されています。

OPPOビジネスシナリオ実践

OPPOのグラフアーキテクチャは上図に示されており、データ層、プラットフォーム層、アルゴリズム層、アプリケーション層が含まれています。この記事では、OPPOの検索および推奨広告ビジネスで使用されているグラフ学習に基づく推奨ソリューションを主に紹介します。さらに、セキュリティ、リスク管理、マーケティング、成長、サプライチェーンの最適化など、多くのビジネス方向性も含まれています。

OPPO の典型的なアプリケーションシナリオの 1 つは、アプリストアです。携帯電話メーカーとして、アプリストアは非常に重要なシナリオです。ユーザーにアプリを推奨する場合にも、いくつか問題があります。

まず、推奨には高い関連性が求められ、ユーザーの入力意図と非常によく一致している必要があります。

さらに、クエリ分布には当然ロングテールの問題があります。ユーザーがアプリストアで検索する際、大量のクエリが先頭に集中しているにもかかわらず、各自の行動習慣があるため、クエリ全体の分布はロングテールになります。

3 つ目は、意味が不明瞭であることです。たとえば、上の画像の 2 つのシーンでは、最初の画像は連想です。ユーザーが単語を入力しているときに、アプリが推奨されます。 2 番目の画像は、ユーザーがクエリを入力し、「検索」をクリックして、アプリに戻るところを示しています。最初のシナリオでは、ユーザーは入力プロセス中に検索ボタンをクリックしていませんが、一時停止するとリクエストがトリガーされます。リクエストは、この単語を含む単語など、意味が非常に不明瞭な完全な単語の接頭辞のみを対象としています。

最後に、意味の不一致の問題があります。アプリで利用できる情報は文字通り非常に限られているため、その説明のほとんどは非常に一般的であるか非常に長いですが、クエリは短いテキストです。クエリのセマンティック情報とアプリのセマンティック空間の間にはギャップがある可能性があります。

上記の問題に対応して、モデルを構築する際には適切なアプローチを選択する必要があります。

まず、関連性の要件に応じて、グラフエンドツーエンドモデルは、モデルが高次の近傍に過度に依存していることに気付きます。たとえば、2 次および 3 次近傍集約を使用すると、類似しないユーザーノイズが発生します。非常に強い相関要件のため、相関は大幅に低下しました。

ツインタワーモデル自体は、モデルを構築するためにノード間のいくつかのインタラクティブな関係に基づいています。これは一般化を表していますが、関連性についてはより優れた保証があります。グラフネットワークは高レベルの関係によって補完されます。これをユーザータワーに直接追加すると、一部の高次の近隣情報が導入され、ユーザーの現在の意図が薄まるという問題もあります。この2つの点は、相関関係をモデル化する上で、デュアルタワーがグラフモデルよりもいくつかの利点を持っていることを示しています。

さらに、クエリはロングテール分布特性を持っているため、情報ベースのモデリングを直接使用すると情報が不十分になります。クエリは比較的短く、セマンティクスが十分に焦点化されていません。セマンティック情報を通じてクエリ表現を直接マイニングすると、十分な情報がマイニングされません。ユーザーの過去のクエリシーケンスが拡張されたとしても、一部の新しいユーザーをカバーすることは依然として困難です。さらに、ユーザーのアプリストアでの行動履歴は特に長くありません。ユーザーが頻繁に訪れる情報フローや電子商取引のシナリオとは異なり、アプリストアからのダウンロード頻度は比較的低くなります。

さらに、ユーザーの過去のクエリは依然としてヘッドクエリが中心です。クエリシーケンスが拡張されても、ロングテールクエリの情報量はまだ非常に少なく、モデリングにはまだ不十分です。これが従来のデュアルタワーモデリングの欠点です。

3 つ目のポイントは、アプリの意味情報とクエリの不一致です。アプリ内で使用される素材や情報は、e コマースシナリオの製品よりも限られています。素材の数がそれほど多くないからです。また、広告の観点から見ると、現代の広告素材の品質は比較的低く、画像とテキストが一致しない素材が多くあります。たとえば、画像はテキストとほとんど関係がなく、広告全体とほとんど関係がありません。それらはクリックを誘導する目的のためだけです。

グラフモデルは、ユーザーの過去の行動に基づいて情報を補足できるだけでなく、アプリの属性に基づくナレッジグラフを通じて類似の属性を持つアプリに関する情報をターゲットアプリに集約し、アプリの表現を強化できるため、ロングテールクエリとアプリのセマンティクスの不一致の問題を解決する上で自然な利点があります。

デュアルタワーモデルとグラフモデルにはそれぞれ長所と短所があります。最終的に、デュアルタワーの右側のアイテム側にグラフサブネットワークを追加することを選択しました。一方で、グラフの導入によって相関関係が低下する問題を回避し、他方では、グラフを通じてツインタワーの表現力をさらに向上させることを検討しています。

具体的な構造は非常にシンプルです。左側は非常に古典的な二重塔形式で、右側の塔にグラフネットワークモデルを追加しました。左のタワーは使用とクエリを表し、右のタワーはアプリを表します。実験を通じて、3 ホットサブグラフを使用するとアプリの表現が強化され、クエリとアプリ間の意味のギャップが縮小されることがわかりました。具体的には、一次相互作用グラフはクエリとアプリに基づいています。一次近傍はアプリが直接相互作用するクエリです。二次近傍は動作が類似するアプリです。三次近傍は相互作用がまばらなアプリと、相互作用がまばらだが比較的友好的なアプリです。グラフ上で一部を切り取るため、動作がまばらなアプリの場合、最初の 2 つのステージで使用されるインタラクションクラスのクエリ情報のみを使用すると、情報量はまだ非常に少なくなります。

具体的な使用法としては、NIA-GCN アプローチを参照し、各順序の隣接ノードに対して直接集約を実行します。これは、各隣接ノードが独自の情報を中央ノードに直接渡すことと同じです。最後に、3 次元表現は適応学習法によって融合されます。

グラフサブネットワークに関して注意すべき点が 2 つあります。

グラフネットワークエッジで使用される特徴は、アプリタワーの特徴と共有されません。これは主に、アプリ自体の特徴表現が、グラフネットワークが学習したい近隣関係や動作関係の表現を圧倒するのを防ぐためです。集約される際に近傍情報が存在するため、周囲の近傍は比較的類似しており、最終的に集約されるのは表現特徴自体の情報が多くなります。埋め込みを共有せずに 2 つの部分に分割したところ、効果がより優れていることがわかりました。
第二に、グラフサブネットワークとユーザータワーはクエリ関連の機能を共有します。その中心となるのは、アプリの表現を強化し、アプリにインタラクティブなクエリ表現を追加し、双方の表現を適切に調整し、調整プロセス中に埋め込みを共有して双方をより適切に調整することです。

最後の実験では、グラフサブネットワークを追加すると、クエリとアイテムの両方のパフォーマンス、特にアイテムのパフォーマンスが向上することがわかりました。これは、ユーザーがクリックしてダウンロードするアプリの一部が、グラフサブネットワークに参加した後にシーケンスの先頭に配置されることに相当します。

細かいランキングに関する作業の一部は、主にグラフネットワークを自動機能相互接続に使用する方法を検討しています。業界でのいくつかの作業を組み合わせて、まず機能グループをユーザーとアイテムごとに分割し、内部相互作用を使用して機能グループをモデル化し、機能グループ間の相互相互作用を通じてユーザー機能とアイテム機能間のインタラクティブな関係をキャプチャします。グラフ内の各ノードは機能です。たとえば、緑のノードはユーザー機能、青のノードはアプリ機能です。次に、各フィーチャグループ内で、ノード間のエッジはクロスフィーチャ間の関係を表します。モデルは、相互作用する機能間のエッジの重みを自動的に学習します。実験では、自動学習によって学習されたエッジの重みが非常に近く、情報が不十分であることがわかりました。そのため、L0 正規化法を使用してエッジのスパース性を確保し、一部のエッジの重みをゼロにします。つまり、一部の相互作用機能がマスクされます。これにより、より効果的な相互作用機能を自動的にマイニングし、過度のノイズの導入を回避できます。

図の左側は通常の DNN ネットワークです。グラフサブネットワークは比較的独立しているため、CTR モデル全体の構造は任意にできます。グラフネットワークブロックが自動特徴マイニングの役割を果たすだけです。

最後に、スタッキング 2 層アプローチを使用して、2 次相互作用などの低次相互作用と明示的な比較的高次相互作用をモデル化できる 2 層ネットワークを選択しました。最後に、融合中に元の特徴が同時に追加され、出力され、その後 DNN ネットワークと融合され、最終的に下流の損失関数に組み込まれます。グラフネットワークモデルを追加し、手動のクロス機能を削除すると、AUC と GAUC が確実に改善されます。

IV. 今後の展望

1 点目は、OPPO の社内ユーザー、アプリケーション、広告、その他のエンティティのさまざまなインタラクティブな動作を複数のシナリオでより有効に活用し、統一された事前トレーニング済みの表現またはモデルを取得したいと考えていることです。前回の記事で紹介した方法は、単一のシナリオまたは少数のシナリオのモデリングに重点を置いています。グラフの利点を最大限に活用して、より多くのシナリオを同時に関連付け、広告を適用するユーザーまたはエンティティの豊かで多様な行動の共通表現を取得したいと考えています。表現を取得した後は、さまざまな下流タスクの機能として直接使用したり、表現に基づいて直接明示的なリコールを実行するリコールモジュールとして使用したりできます。

2 番目のポイントは、ノイズフィルタリングの問題です。前述したように、従来のモデルと比較したグラフニューラルネットワークの最大の利点は、より多くの情報を使用できることですが、一般的に言えば、使用できる情報が増えるほど、ノイズも増えます。もたらされるノイズがもたらされる情報よりも大きい場合、グラフモデルを追加すると、以前よりも悪影響が出る可能性が高くなります。これは、推奨シナリオでも非常に重大な問題です。一部のユーザー行動は比較的暗黙的だからです。高レベルのインタラクションに基づく場合、暗黙的な行動によってコンテンツが急激に拡大します。この場合、グラフ構造内で有用な情報を保持し、ノイズを除去する方法も研究する価値のある問題です。

<<: より強力なLlama 2はオープンソースであり、商用目的で直接使用できます。一夜にして、ビッグモデルの風景は変わりました。

>>: 自動運転マップ構築モデルを1つの記事で理解する