「激怒」するビッグモデルがレコメンデーションシステムと衝突したとき

ChatGPTに代表される大規模モデル技術の急速な発展により、レコメンデーションシステムは革命的な変化を遂げています。従来の推奨システムは、主にユーザーとアイテムの過去の行動データに基づいて予測を行います。大規模モデル技術の登場により、推奨システムの一般化能力と効率性が向上し、ユーザーとアイテムの数の膨大な規模や、観測できない要因が推奨に与える影響など、従来の推奨システムのいくつかの困難な問題が解決されました。同時に、大規模モデル推奨技術は、モデルの解釈可能性やプライバシー保護などの新たな課題ももたらします。

1. 推薦とLLMの紹介

まず、レコメンデーションシステムと大規模モデル技術について全体的に紹介します。

1. 推奨方法の性質

推奨システムは、短編動画や電子商取引など、さまざまなインターネット製品で広く使用されています。推奨方法の本質は、過去のユーザー行動データに適合させ、将来のユーザー行動を予測することです。推奨システムは、過去 10 年間で最も成功した AI 実装の事例です。ただし、産業シナリオでは、従来の推奨システムには依然として多くの問題が残っています。

ユーザーレベル: ユーザー規模が大きく (数億人)、ユーザーの行動が多様 (誰もが独自の行動を持っている)、レコメンデーションシステムでは観測できない多くの外部要因の影響を受けるため、モデリングが非常に困難です。
マテリアルレベル (アイテム): アイテム間の関係の多くは非常にニッチであり、把握するのが困難です (共起頻度が低い)。このユーザーがなぜこれら 2 つのアイテムを同時に購入するのか、このユーザーがなぜこれら 2 つのビデオを同時に視聴するのかなどの質問は、非常にニッチな理由により関連している可能性があり、これもモデル化するのが困難です。
モデルレベル: 大きな一般化の問題があります。TikTok など、私たちがよく知っている多くのプラットフォームでは、ユーザーが毎日大量の動画をアップロードし、新しい低頻度の関連付けや新しいアイテムを大量に生成しています。モデルは新しいアイテムを推奨するのに効果的ではない可能性があります。一般化の問題は、主に ID 機能に依存する従来の推奨システムを長年悩ませてきた深刻な問題です。

2. ビッグモデルテクノロジー（NLPの新しいパラダイム）

ChatGPT のリリース以来、ビッグモデルはよく知られた用語になりました。ビッグモデルは、事前トレーニング済みモデル + 微調整 + プロンプトモードという新しいパラダイムを NLP にもたらしました。このモデルは非常に驚くべき結果を達成しました。

人々は、このような強力な一般化能力を持つモデルが可能であることを認識し、「創発」現象が発生しました。簡単に言えば、大規模なモデルは、タスクを学習した後、それを他の状況に適用できます。同時に、タスク計画機能があり、タスクを分割して簡素化できます。

大規模言語モデルは事前トレーニングに大量のコーパスを使用し、それが大量の知識をエンコードすることに相当するため、大規模言語モデルは単なる言語モデルではなく知識モデルでもあると考える人もいます。従来のナレッジグラフのように知識構造を明示的に表現することはできませんが、モデル内の特定のパラメータを通じて事前トレーニングコーパス内の知識を適切にエンコードできる可能性が非常に高くなります。もちろん、一部の知識はうまくエンコードされない可能性がありますが、現在わかっていることは、NLP の分野では、大規模なモデルがすでに絶対的な優位性を持っており、さまざまなタスクで驚くべきパフォーマンスを発揮しているということです。

3. 推奨システムは大規模なモデルに何を求めているのでしょうか?

推薦システムの観点から見ると、既存の推薦システムには、ユーザーやアイテムの理解が不十分であったり、モデルの一般化が不十分であったりするなどの問題があります。レコメンデーションシステムの実践者は、大規模な言語モデルからインスピレーションを得て、より優れたレコメンデーションモデルを構築したいと考えています。

強力なモデリング機能:一見すると、ビッグ言語モデルは強力ですが、これはおそらくビッグ予測モデルで使用される Transformer によるものです。このようなモデル構造自体に非常に強力なモデリング機能があります。これに触発されて、いくつかの推奨モデルを作成し、推奨モデルのモデリング機能を向上させることができます。
優れた学習パラダイム:モデル構造の強力なモデリング機能に加えて、大規模言語モデルの事前トレーニング + 微調整 + プロンプトの学習パラダイムにも大きな利点があり、優れたモデルのトレーニングに役立ちます。これを推奨分野に適用して、より強力な推奨モデルを学習することもできます。
Well-train のビッグモデル自体は、 ChatGPT のような API を介してアクセスされるクローズドソースモデルであれ、Llama のような完全なパラメータを持つオープンソースモデルであれ、非常に強力な機能を発揮しています。これらの十分に訓練された大規模モデルを推奨システムに導入できれば、優れた推奨結果を達成できる可能性があります。
モデルを適切なシナリオに直接適用します。たとえば、ChatGPT が最初にリリースされたとき、そのチャット機能は最初の驚くべきパブリックシステムとして認識されました。会話による推奨を行う人にとって、これは非常に魅力的な機能です。
大規模モデルを使用してアイテムを理解して表現する（脱ID） ：ChatGPTにせよ、その前後に登場した大規模言語モデルにせよ、それらはすべて強力なテキスト表現と理解の機能を持っています。この2つの機能をレコメンデーションシステムに導入できるでしょうか？もちろん可能です。商品のタイトルや各種テキストの説明など、レコメンドシナリオには多くの機能があります。さらに、前述のように、従来の推奨システムは主に ID に基づいているため、推奨システムにおける新しいアイテムの問題は非常に厄介です。つまり、新しいアイテムごとに ID が必要であり、この ID に基づいてアイテムの表現が学習され、最終的に学習した表現に基づいて推奨が行われます。しかし、言語を非常によく理解できる一般的なモデルがある場合、言語を直接使用してアイテムを説明し、IDを削除し、アイテムの説明のテキスト表現をアイテムの表現として直接取得することは可能でしょうか?

大規模な推奨モデルのパラダイムを確立する: NLP の分野では、2018 年に BERT が登場して以来、NLP がはるかに簡単になりました。微調整によって、さまざまなシナリオのタスクを解決できます。その後、Instruction GPT が登場しました。微調整する必要すらありませんでした。このような強力な基本モデルに基づいて、タスクを完了するためのプロンプトを記述するだけで済みました。レコメンデーションの分野では、まださまざまなシナリオのタスクに対してさまざまなモデルを構築し、最適化している段階です。NLP分野のタスクソリューションの生成速度と比較すると、まったく同じ規模ではありません。これは、工業文明と農業文明の大きな違いと言えます。それでは、レコメンデーションの分野でもこのような強力な基本モデルを構築し、将来レコメンデーションが産業化と標準化の時代を迎えることができるのでしょうか?この分野では過去 2 ～ 3 年にわたって多くの作業が行われてきましたが、要約すると次のようになります。

統一されたテキスト表現を使用してID 依存性の問題を解決することで、クロスドメインやコスターなどの問題を無視でき、多くのロングテールの問題もうまく解決できます。
プロンプトを使用してタスクを統合し、オープンエンドのタスクを達成できるようにし、トレーニングされた言語モデルを使用してクロスドメインを達成し、最終的にオープンエンドのタスクとドメインの基本モデルを取得します。

2. LLMは推薦システムを強化する

このセクションでは、表現、学習、一般化の分野における LLM エンパワーメントの推奨に関する、より高度で代表的な研究を紹介します。

1. 表現

まず最初に紹介したいのは、KDが2023年に発表した作品です。アリババのM6 RACとアイデアが重なる部分があります。あまり先進的ではありませんが、効果はとても良いです。

中心となるアイデアは、ID を削除し、すべてのアイテム表現をテキストに変換し、言語モデルの強力なテキスト理解機能を使用してアイテムを理解して表現することです。具体的には、アイテムシーケンスの場合、各アイテムには ID だけでなく、いくつかのカテゴリ機能も含まれます。これは、タイトル、ブランド、価格など、アイテムに関連するすべてのプロパティをつなぎ合わせてアイテム文を構築し、非常に長い文を形成します。

そのため、本来は個々の項目から構成されるシーケンスは、項目文から構成される超長文となり、長文や項目段落とも呼ばれ、ユーザーのインタラクション履歴を表現するために使用されます。このように、BERT のようなモデルなどの言語モデルを使用して、それを理解および表現することができます。入力が長文または項目段落の場合は、ユーザーの表現が取得され、入力が項目文の場合は、項目の表現が取得されます。もちろん、埋め込みレベルでのトークンの表現に加え、推薦システムの特性に基づいた位置埋め込みも追加されます。

モデルアーキテクチャでは、Bert のバリエーションである long former を使用します。予測では、アイテム埋め込みとシーケンス埋め込み（ユーザー埋め込み）を使用してコサイン類似度を計算し、このコサイン類似度を使用して並べ替えを行い、ランキングリストを取得します。

事前トレーニング段階も非常にシンプルです。主に 2 つのことを行います。1 つは言語モデルの事前トレーニングタスクで、主にマスクトークン予測を行います。簡単に言うと、入力シーケンス内の一部のトークンをマスクして予測します。もう 1 つは、推奨タスクのためのアイテムレベルの事前トレーニングタスクで、アイテムの表現を強化します。主に、対照学習を通じてアイテム間の区別を学習し、アイテムの表現を可能な限り正のサンプルに近づけ、負のサンプルから可能な限り遠ざけます。これら 2 つのタスクを組み合わせることで完全な事前トレーニングプロセスが形成され、非常に良好な結果が得られました。

この研究から得られた重要な結論は、多くのシナリオにおいて、ID 表現をテキスト表現に置き換えることが可能であるということです。

2. 迅速な学習

プロンプト学習の考え方は非常にシンプルで、プロンプトを使用して各タスクを説明するというものです。感情分析タスクを例にとると、過去には、入力テキストに対して分類タスクを実行し、その感情が肯定的か否定的かを予測するという、より判別的な方法でこの種のタスクを実行していました。ここで、入力があり、プロンプトを使用して感情分析タスクを記述し、モデルに結果をデコードして生成させ、この生成された結果を使用して感情の肯定的または否定的な傾向を判断します。要約すると、プロンプト学習の中心的な考え方は、タスクを説明するプロンプトを構築し、生成モデルを使用してタスクの結果を生成することです。

プロンプト学習の利点は、サンプルレベルの学習からタスクレベルの学習まで、ドメイン間の改善を実現できることです。これまでは、教師あり学習、教師なし学習、対照学習のいずれであっても、すべてサンプルレベルでの学習でした。プロンプト学習では、サンプルに加えて、モデリングに使用されるタスクを説明するプロンプトなどの追加入力があります。これにより、モデルの学習はタスクレベルの学習になり、サンプルレベルの学習よりも抽象度の高い学習になります。したがって、この学習パラダイムにはより多くの利点があります。

プロンプト学習は発売されるとすぐに、推奨分野の研究者の注目を集めました。2021年にNIPSで、推奨タスクをプロンプト形式で記述して、それが利点を持っているかどうかを研究するという研究がありました。以下は簡単に紹介します。

シーケンスモデリングに基づく推奨では、ユーザーが過去に訪問したアイテムシーケンス ID のリストを入力して、次に推奨されるアイテムを予測します。この研究の核となるアイデアは、アイテム ID のシーケンスを言葉で説明することです。入力はユーザーが過去に視聴した映画で、プロンプトはユーザーが今視聴したい映画です。次に、事前トレーニング済みのモデルを使用してそれをデコードし、生成される推奨映画を確認します。この記事では、アイテムをデコードして生成する方法については明確に説明されていませんが、この方向への取り組みを導いています。

次に紹介する研究は、楊紅霞教授がアリババ在籍時に行ったM6-Recです。この研究は、前述の2つの利点を組み合わせたもので、テキストを使用してアイテムとユーザーのインタラクションシーケンスの非ID化を表現し、プロンプト学習法も使用しています。

アーキテクチャはアリババの内部M6モデルアーキテクチャを採用しており、これは理解力と生成力の両方を備えたT5モデルに似たモデルアーキテクチャです。前部はBERTに似た双方向ニューラルネットワークで、理解力を高めることを目指しており、後部はGPTに似た自己回帰構造です。GPTとは異なり、トークンの生成を主に行うわけではありません。

プロンプトを使用して、多くの推奨タスクを記述します。たとえば、CTR タスクなどのスコアリングタスクは、プロンプトテンプレートに記述されます。このテンプレートは主に 2 つの部分に分かれています。最初の部分は機能の説明で、特別なトークンを使用して、ユーザーのポートレート機能やインタラクション履歴などの情報をラップします。2 番目の部分では、このユーザーに推奨する候補アイテムをいくつか説明します。

上記で構築されたプロンプトをモデルに入力すると、候補項目にスコアを付けることができます。スコアリングの考え方は非常にシンプルです。モデルは入力プロンプトに基づいて特別なトークンを生成し、このトークンの表現を取得します。この表現は、y = 1またはy = 0の確率を取得するためのデコードに使用されます。

もちろん、この研究では、生成タスクなど、他の多くの推奨タスクもさまざまなプロンプトに書き込まれており、この方向での代表的な初期研究となっています。

3. ChatGPT時代の仕事

紹介したこれまでの研究はChatGPTのこれまでの研究の一部であり、使用されているモデルは主にBert、GPT2、Long-Former、M6などのモデルです。これらの作業の利点と欠点は次のようにまとめられます。

利点：主に、大規模モデルの分野におけるいくつかの高度な学習パラダイムや効果的な表現方法を推奨システムに導入し、一定の成果を達成しています。

デメリット:まず、モデル規模が小さく、モデル能力が比較的弱く、ChatGPT 以降の一部のモデルに比べてはるかに劣っています。次に、これらのタスクに必要なトレーニングの量が非常に多く、タスクを推奨するためのモデル学習の効率が比較的低いです。最後に、基本的なモデル能力が比較的弱いため、モデルの知識が限られ、一般化が不十分で、生成能力が弱いです。

次に、ChatGPT のリリース後に強力な基本モデルが完成した後に行われた作業と、これらの十分にトレーニングされたモデル機能を推奨システムに組み込む方法について説明します。

ChatGPT のみに基づく推奨:最初のタイプの作業では、ChatGPT は多くのタスクを解決できる強力なモデルであるため、ChatGPT を直接使用して推奨タスクを解決できると考えています。たとえば、推奨タスクを指示として記述し、コンテキスト内のサンプルをいくつか追加して、ChatCPT が直接推奨を行えるようにすることができます。この種の作業の結論は比較的楽観的です。ChatGPT には確かに優れた推奨を行う能力がありますが、上記の方法を使用して優れた推奨を行うように教えるだけでは不十分かもしれません。

ChatGPT は自然な推奨ではありません:

バイアスが存在する:コンテンツ内学習方式を直接使用して推奨を行う場合、顕著な問題は、GPT がセキュリティに対して高度に最適化されているため、ユーザーを拒否することが難しい、つまり「ノー」と言うことが難しいことです。ポイントごとのアプローチを使用して、リストと履歴を与え、これらをこのユーザーにプッシュするかどうかを尋ねると、「ノー」と言うことが難しく、多くのユーザーに直接「イエス」と言う可能性が高くなります。つまり、すべてが正しく推奨されます。
微調整が難しい：もちろん、チューニングによって上記の問題を軽減することはできますが、LLM はパラメータ数が多く、モデルの深さも深いため、チューニングは難しい作業です。
高い導入コスト: LoRa などの方法を使用してチューニングの問題を解決したとしても、大規模なモデルの推論は依然として困難であり、従来の推奨モデルと比較して推論コストが非常に高くなります。私たちの計算によると、TikTok の毎日のアクティブユーザーベースでは、各ユーザーが大規模な言語モデルに 100 個の候補項目のスコアを計算するように依頼した場合、計算を完了するには 100,000 個の A100-80G グラフィックカードが 1 日 24 時間稼働する必要があります。このコストは許容できません。
生成能力の制限:推奨シナリオ用に大規模な言語モデルを微調整すると、モデルの生成空間が圧縮され、生成能力が大幅に制限されます。

GPT と従来の推奨技術の融合:ここで、Tang Ruiming 教授のチームが参加した研究を紹介したいと思います。その核となるアイデアは、ChatGPT またはコンテキスト内学習を使用して、ChatGPT がオープンワールドの知識とクロスドメイン機能を十分に発揮できるようにし、ChatGPT の出力を下流の従来の推奨モデルに接続することです。このように、2 つのシステムは連携して、それぞれの利点を最大限に発揮します。推奨システムは推奨タスクを完了する役割を担い、ChatGPT は知識、クロスドメイン、および少数ショット機能を提供する役割を担います。

この研究は非常に成功しています。要約すると、その核心は、ChatGPT によるコンテキスト内学習を使用して、ユーザーのインタラクション履歴とアイテムを推奨の観点から要約し、それを CTR モデルに追加機能として取り込むことです。

推奨シナリオに最適化された大規模モデルの構築:推奨分野における LLM の直接適用に関する多くの問題を解決するために、生成検索に似た 2 段階のフレームワークを提案しました。その中心となる考え方は、言語と推奨という 2 つの異なる観点から理解し、それぞれの利点を最大限に活用することです。推奨チェーン全体は、次の 3 つのスペースに分かれています。

1 つ目は言語空間です。ユーザーの過去のインタラクションシーケンスを入力するための適切なプロンプトを構築し、大規模言語モデルがコンテンツを自由に出力できるようにすることで、大規模言語モデルの生成能力を十分に発揮し、意味レベルから理解できるようにします。
次に、推奨空間があります。言語空間とは異なり、入力ユーザーインタラクションシーケンスの場合、推奨空間は、シーケンスに含まれる情報を意味レベルで理解するのではなく、推奨の観点からシーケンス内のどの情報が推奨に関連しているかを調べ、推奨に関連するテキストを説明します。
最後に、アイテム空間があります。これを統計的な観点から理解し、協調フィルタリングなどの統計情報を統合し、推奨する特定のアイテムに焦点を当て、スコアリングとソートを行い、最終的な推奨を完成させます。

要約すると、言語空間と推奨空間は理解と想起の第一段階として使用され、アイテム空間は高速スコアリングとソートの第二段階として使用されます。これは実際には従来の想起とソートと同じです。実験結果から判断すると、この方法は非常に効果的であり、ショット数が少ないシナリオでは従来のモデルに比べて大きな利点があります。具体的な実験データを以下に示します。

3. 大規模モデルの推奨の見通し

1. パーソナライズされたヒントの最適化

NLP タスクレベルのプロンプトとは異なり、推奨フィールドのプロンプトはユーザーレベルです。たとえば、高齢者と若者向けに異なるプロンプトを構築して、パーソナライズされた推奨を実現できます。では、このようなプロンプトはどのように構築するのでしょうか?手作業による構築は間違いなく非常に面倒で困難な作業であるため、パーソナライズされたプロンプトを最適化する方法が今後の研究の方向性の 1 つになります。

2. 堅牢なプロンプト最適化

推奨フィールドは、アイテムとユーザーレベルの両方が時間の経過とともに急速に変化する、分布ドリフトの典型的なシナリオです。 APO や APE などのプロンプト最適化方法を使用して、ラベル付けされたサンプルに対してプロンプトを自動的に生成すると、手動で作成されたプロンプトよりも効果が高くなる可能性があります。しかし、分布ドリフトが発生すると、プロンプトの最適化に使用されるトレーニングサンプルの分布と実際のサンプルの分布に大きな差が生じ、プロンプトのパフォーマンスが低下する可能性があります。推奨フィールドの分布ドリフトによって引き起こされるプロンプトのパフォーマンスの低下を解決し、プロンプトの堅牢性を向上させる方法も、検討する価値のある方向性です。

3. 新しい推奨パラダイム

推奨の有効性に影響を与える主な要因は、コンテンツの供給とマッチングの効率の 2 つです。実際の産業シナリオでは、供給の問題が効率の問題よりも大きなボトルネックになることがよくあります。多くの場合、既存の固定リストからユーザーの興味に応えるものを見つけるのは難しいです。たとえば、ある映画の面白い解説にユーザーの興味を引いたが、ビデオプールにそのようなビデオがなく、ユーザーの情報ニーズを満たすことができない場合、このとき、大規模なモデルの生成機能を使用して、そのようなコンテンツを迅速に生成し、ユーザーのニーズをタイムリーに満たすことができれば、ユーザーに非常に良いエクスペリエンスの向上をもたらす可能性があります。したがって、チャットに似た方法を使用してユーザーのニーズを完全に理解し、ユーザーのニーズにタイムリーに応えるコンテンツを生成する方法を研究することは非常に価値があります。

4. 大規模なモデルの偏りを避ける

ビッグモデルは、事前トレーニングの段階でインターネット上の大量のコーパスを使用します。これらのコーパスは不均一に分布しており、当然ながら人々の社会的バイアスが含まれています。ビッグ予測モデルを推奨に直接使用すると、推奨結果が既存の社会的バイアスを継承する可能性があります。たとえば、コーパスが主に白人によって投稿された英語コンテンツで構成されている場合、推奨結果は白人の好みに傾きますが、ユーザーは黒人や黄色人種である可能性があります。推奨を行う際に大きなモデルの偏りを回避する方法も、ユーザーエクスペリエンス、法的倫理などの側面を含め、研究する価値があります。

IV. 結論

ID に大きく依存する従来の推奨モデルには、不十分な理解や一般化の低さなどの問題があり、満足のいく推奨が得られません。推奨システムにおける既存の問題に対応するために、ビッグモデル技術を推奨分野に導入し、その強力な理解能力を活用することは、推奨データの理解に大いに役立つでしょう。また、将来的には、オープンエンドのドメインやタスクに対して統一されたパラダイムを持つ大規模な推奨モデルが登場する可能性も高いです。さまざまな推奨タスクを 1 つのモデルで統一できるというのは、非常にエキサイティングです。

最後に、推奨分野での大規模モデルの使用に関する参考提案をいくつか示します。

Bert のようなモデルではなく、GPT4 のような強力なモデルなど、可能な限り最大のベースモデルを使用します。
微調整プロセス中は、モデルの生成機能を維持するようにしてください。
言葉で説明するのが難しい統計情報を統合する必要があります。

最後に、中国科学院ビッグデータ宇宙研究所についてご紹介したいと思います。同研究所は省政府が設立した新しいタイプの研究開発機関および公的機関として、サイバー空間のデータ再構築を中核概念とし、ビッグデータ、人工知能、サイバー空間のセキュリティに重点を置いています。より多くの科学技術の才能ある人材が当社に加わり、最先端技術の研究と応用に協力してくれることを期待しています。

<<: 変革の成功を推進する 4 つの AI コア原則

>>: