1. 問題の背景: コールドスタートモデリングの必要性と重要性コンテンツプラットフォームとして、QQ Musicは毎日大量の新コンテンツを公開しています。QQ Musicプラットフォームの新コンテンツの数は、ショートビデオなどの他のプラットフォームと比較すると比較的少ないですが、実際の数は皆の想像をはるかに超えるかもしれません。同時に、音楽コンテンツは、短い動画、ニュース、商品のおすすめとは大きく異なります。音楽のライフサイクルは非常に長く、通常は数年単位で測定されます。数ヶ月または数年沈黙した後に爆発的に人気が出る曲もあれば、クラシック曲は10年以上経っても依然として強い生命力を持っている場合があります。そのため、音楽プラットフォームの推奨システムでは、他のカテゴリーの推奨よりも、人気のないロングテールの高品質なコンテンツを発見し、適切なユーザーに推奨することが重要になります。 ユーザーインタラクションデータが不足しているため、主に行動データに依存する推奨システムでは、人気のないロングテールアイテム(曲)を正確に配信することは非常に困難です。理想的な状況は、トラフィックのごく一部を探索的な配信に使用し、探索中にデータを蓄積することです。しかし、オンライン トラフィックは非常に貴重であり、探索によってユーザー エクスペリエンスが簡単に損なわれることがよくあります。ビジネス指標を直接管理する役割として、推奨では、これらのロングテール項目について不確実な探索をあまり行えません。したがって、アイテムの潜在的なターゲット ユーザーを最初から、つまりインタラクション レコードがゼロのアイテムのコールド スタートからより正確に見つける必要があります。 2. 技術的ソリューション: 特徴選択とモデル構築次に、Cloud Music が採用している技術的ソリューションを紹介します。 中心的な問題は、コールド スタート アイテムの潜在的なターゲット ユーザーをどのように見つけるかということです。この問題を 2 つの部分に分けます。 ユーザーがコールド スタート アイテムの再生をクリックしない場合は、配布に役立つ機能として他にどのような有効な情報を使用できますか?ここでは音楽のマルチモーダル機能を使います。 これらの機能を使用してコールド スタート分布をモデル化するにはどうすればよいですか?この目的のために、2 つの主要なモデリング ソリューションを共有します。
曲自体は一種のマルチモーダル情報です。言語やスタイルなどのラベル情報に加えて、曲の音声とテキスト(曲名や歌詞を含む)には多くの情報が含まれています。これらの情報を理解し、それらとユーザーの行動との相関関係を発見することが、良いコールドスタートの鍵となります。現在、クラウド ミュージック プラットフォームでは、マルチモーダルな機能表現を実現するために CLIP フレームワークを使用しています。オーディオ機能については、まずいくつかのオーディオ信号処理方法を使用してビデオフィールドに変換し、次にTransformerモデルなどのシーケンスモデルを使用して機能抽出とモデリングを行い、最後にオーディオベクトルを取得します。テキスト機能の場合、機能抽出には BERT モデルが使用されます。最後に、これらの特徴は、CLIP 自己教師あり事前トレーニング フレームワークを使用してシリアル化され、曲のマルチモーダル表現が得られます。 業界にはマルチモーダル モデリングに対する 2 つのアプローチがあります。 1 つの方法は、エンドツーエンドの 1 段階トレーニングのために、ビジネス推奨モデルにマルチモーダル機能を組み込むことですが、この方法はコストがかかります。したがって、2段階モデリングを選択しました。まず、事前トレーニングモデリングを実行し、これらの特徴を下流ビジネスのリコールモデルまたは洗練されたランキングモデルに入力して使用します。 ユーザーの操作なしで曲をユーザーに配信するにはどうすればよいでしょうか?私たちは間接的なモデリングソリューションを使用します。つまり、曲からユーザー (I2U) の問題を曲に類似した曲からユーザー (I2I2U) の問題に変換します。つまり、最初にこのコールドスタート曲に類似した曲を見つけ、次にこれらの類似曲にコレクションなどの強いシグナルなど、ユーザーとの過去のインタラクション記録があるかどうかを調べて、対象ユーザーのグループを見つけます。このコールドスタートソングは、これらの対象ユーザーに配信されます。 具体的なアプローチは次のとおりです。最初のステップは、教師あり学習のタスクです。曲の特徴に関しては、先ほど述べたマルチモーダル情報に加えて、言語、スタイルなどの曲のラベル情報も含まれており、パーソナライズされたモデリングを実行するのに役立ちます。すべての特徴を集約し、エンコーダーに入力して、最終的に歌のベクトルを出力します。各歌のベクトルの類似性は、ベクトルの内積で表すことができます。学習目標は、行動に基づく I2I 類似度、つまり協調フィルタリングの類似度を計算することです。協調フィルタリング データに基づく事後検証のレイヤーを追加します。つまり、I2I 推奨後のユーザー フィードバックが良好なアイテム ペアを学習の正のサンプルとして使用し、学習目標の精度を確保します。ネガティブサンプルは、グローバルランダムサンプリングを使用して構築されます。損失関数は BPR 損失を使用します。これは、推奨システムにおける非常に標準的な CB2CF アプローチであり、曲の内容とタグ情報に基づいて、ユーザーの行動特性における曲の類似性を学習します。 2 回目の反復では、上記のアプローチに基づいて対照学習法が導入されました。対照学習を導入する理由は、この一連のプロセスが依然として CF データを学習し、ユーザーのインタラクティブな動作に基づいて学習する必要があるためです。これにより、「人気のあるアイテムについて多く学習し、人気のないアイテムについてはあまり学習しない」という問題が発生し、偏差が生じます。私たちの目標は、歌のマルチモーダルな内容から歌の行動の類似性までを学習することですが、実際のトレーニングでは人気のある歌と人気のない歌の間に依然として偏りがあることがわかりました。 そこで、人気のないアイテムの学習能力を高めるために、対照学習アルゴリズムのセットを導入しました。まず、以前のマルチモーダル エンコーダーによって学習されたアイテム表現が必要です。次に、この表現に対して 2 つのランダム変換が実行されます。これは CV では一般的な手法であり、ランダム マスクを作成したり、機能にノイズを追加したりします。同じアイテムによって生成された 2 つのランダムに変更された表現は類似しているとみなされ、異なるアイテムによって生成された 2 つの表現は類似していないとみなされます。この対照学習メカニズムはコールド スタート学習のデータ拡張であり、このようにして対照学習知識ベース サンプル ペアが生成されます。 機能強化に基づいて、関連付けグループ化メカニズムも導入しました。 関連付けグループ化メカニズム: まず、各アイテム機能のペア間の相関を計算します。つまり、相関マトリックスを維持し、モデルがトレーニングされるにつれてマトリックスが更新されます。次に、特徴間の相関関係に応じて、アイテムの特徴を 2 つのグループに分けます。具体的には、特徴をランダムに選択し、その特徴と最も相関関係にある特徴の半分を 1 つのグループに、残りをもう 1 つのグループに分けます。最後に、各特徴セットはランダムに変換され、対照学習用のサンプルペアが形成されます。この方法では、バッチ内の N 個のアイテムから 2N 個のビューが生成されます。同じアイテムからのビューのペアは、対照学習の正のサンプルとして使用され、異なるアイテムからのビューのペアは、対照学習の負のサンプルとして使用されます。対照学習の損失は、infoNCE を採用し、最終損失として前回の教師あり学習部分の BPR 損失と重ね合わせます。 オンライン展開および推論プロセス: オフライン トレーニングが完了すると、既存のすべての曲のベクトルのベクトル インデックスが構築されます。新しいコールド スタート アイテムの場合、モデル推論によってそのベクトルが取得され、次にそれに最も類似したいくつかのアイテムがベクトル インデックスから取得されます。これらのアイテムは過去に存在していたアイテムであるため、それらと過去にやり取りしたことがあるユーザー グループが存在します (プレイ、収集など)。コールド スタートが必要なアイテムは、このユーザー グループに配布され、アイテムのコールド スタートが完了します。 オフラインとオンラインの指標の評価を含め、コールド スタート アルゴリズムを評価し、非常に良好な結果を達成しました。上図に示すように、コールド スタート モデルによって計算された曲の表現は、さまざまなスタイルの曲に対して優れたクラスタリング効果を実現できます。結果の一部は公開論文(Bootstrapping Contrastive Learning Enhanced Music Cold-Start Matching)に掲載されています。オンラインでは、コールド スタート アルゴリズムにより、潜在的なターゲット ユーザーが増えた (+38%) だけでなく、コールド スタート アイテムの収集率 (+1.95%) や完了率 (+1.42%) などのビジネス指標も向上しました。 これを基に、私たちはさらに次のことを検討しました。
U2I コールド スタート スキームは、マルチモーダル DSSM モデリング アプローチを採用しています。モデルは ItemTower と UserTower で構成されます。これまでの曲のマルチモーダル機能をItemTowerに継承し、ユーザータワーは通常のユーザータワーを作成します。ユーザーシーケンスに対してマルチモーダル学習モデリングを実行しました。モデルのトレーニングはアイテム空間全体に基づいています。人気のない曲と人気のある曲の両方が、モデルのトレーニング用のサンプルとして使用されます。推論の際には、選択された新曲または人気のない曲プールのみが推論されます。このアプローチは、以前のデュアルタワー ソリューションに似ています。人気のあるアイテム用に 1 つのタワーを構築し、新しいアイテムや人気のないアイテム用に、それらを処理するための別のタワーを構築します。ただし、通常のアイテムとコールド スタート アイテムはより独立して扱いました。一般的な商品には従来のリコール モデルを使用し、人気のない商品には特別に構築された DSSM モデルを使用します。 コールド スタート DSSM モデルは人気のない曲や新しい曲について推論するためにのみ使用されるため、すべてのユーザーが人気のない曲や新しいアイテムを好むとは保証できないため、ユーザーの BIAS をモデル化することが非常に重要であることがわかります。候補セット自体は非常に大きなプールであり、一部のユーザーは人気のあるアイテムを好む可能性があり、推奨プールにはユーザーが好むアイテムが不足している可能性があるため、ユーザーアイテムをモデル化する必要があります。そこで、従来の方法に基づいて、「興味境界」と呼ばれるタワーを構築し、ユーザーの好みをモデル化します。興味境界は、肯定的なサンプルと否定的なサンプルを分けるために使用されます。トレーニング中、興味境界スコアは各ユーザーの肯定的なサンプルと否定的なサンプルを分けるために使用されます。推論中、アイテムスコアとユーザーの興味境界スコアを比較して、アイテムを推奨するかどうかを決定します。トレーニング中は、興味境界ベクトルとユーザー興味ベクトルを使用して内積計算を実行し、境界表現ベクトルを取得します。上図の損失に基づいて、従来のバイナリ分類クロスエントロピーを使用してモデリングします。ネガティブ サンプルはユーザーの関心の境界を上げ、ポジティブなサンプルはユーザーの関心の境界を下げます。最終的には、トレーニング後に均衡状態に達し、ユーザーの関心の境界によってポジティブなサンプルとネガティブなサンプルが分離されます。オンラインで適用する場合、ユーザーの興味の境界に基づいて、人気のないアイテムやロングテールのアイテムをユーザーに推奨するかどうかを決定します。 結論最後にまとめをしておきましょう。クラウド音楽推奨のためのマルチモーダル コールド スタート モデリングの主なタスクは次のとおりです。
今後の最適化には主に 2 つの方向性があります。1 つはコンテンツと動作特徴のマルチモーダル融合モデリングを使用すること、もう 1 つはリコールとソートのフルリンク最適化です。 4. 質疑応答Q1: 音楽コールドスタートの中心的な指標は何ですか?A1: 多くの指標に注目しますが、その中でも重要なのはコレクション率と完了率です。コレクション率 = コレクション PV / プレイ PV、完了率 = 完了プレイ PV / プレイ PV。 Q2: マルチモーダル機能はエンドツーエンドでトレーニングされていますか、それとも事前トレーニングされていますか? 2 番目のステップで比較ビューが生成されるとき、入力 x の具体的な特徴は何でしょうか?A2: 現在のソリューションは、CLIP フレームワークに基づいて事前トレーニングを実行し、事前トレーニングを通じて得られたマルチモーダル機能を使用して、下流のリコールおよびソート サービスをサポートすることです。これは、エンドツーエンドのトレーニングではなく、2 段階の事前トレーニング プロセスです。エンドツーエンドのトレーニングは理論的には優れているかもしれませんが、機械にとっては要求が厳しく、コストもかかります。したがって、コストを考慮して事前トレーニングを選択します。 x は、曲のオーディオ、テキストのマルチモーダル機能、言語やスタイルなどのラベル機能など、曲のオリジナル機能を表します。これらの特徴はグループ化され、2 つの異なるランダム変換 F'a と F''a に適用されて x' と x'' が得られます。 f はエンコーダーであり、モデルのバックボーン構造です。g はエンコーダー出力の後に追加されるヘッドであり、対照学習部分でのみ使用されます。 Q3: 2 セットの強化タワーの埋め込みレイヤーと DNN は、対照学習トレーニング中に共有されますか?対照学習がコールド スタート コンテンツに効果的なのはなぜですか? コールド スタート以外のコンテンツに対して特にネガティブ サンプリングを実行しますか?A3: モデルには常にエンコーダーが 1 つ、つまりタワーが 1 つだけあるため、パラメータが共有されるかどうかは問題になりません。 なぜ人気のないアイテムに役立つのかについて、私は次のように理解しています。人気のないアイテムに対して追加のネガティブサンプリングを行わないからです。実際、教師あり学習に基づいて曲の埋め込み表現を単純に学習すると、CF データから学習しているため、偏差が生じる可能性があり、より人気のある曲を学習するという問題が依然として残り、最終的な埋め込みベクトルも偏ります。対照学習メカニズムを導入することで、対照学習損失が最終損失に導入され、CF データを学習するための修正プロセスになります。そのため、対照学習法では、人気のないアイテムに対して追加の処理を行わずに、ベクトル自体の空間分布を改善します。 Q4: 関心の境界で多目的モデリングが行われていますか?似ているようには見えません。2 つの量 ⍺ と p を導入できますか?A4: マルチモーダル DSSM モデリングには、ItemTower と UserTower が含まれます。UserTower に基づいて、興味境界タワーと呼ばれるユーザー機能のタワーも追加でモデル化します。これら 3 つのタワーはそれぞれベクトルを出力します。トレーニング中は、アイテム ベクトルとユーザー ベクトルの内積を実行してアイテム スコアを取得し、次にユーザー ベクトルとユーザーの興味境界ベクトルの内積を実行してユーザーの興味境界スコアを表します。パラメータ⍺は、損失に対する正のサンプルと負のサンプルの寄与をバランスさせるために使用される従来のサンプル重み付けパラメータです。 p はアイテムの最終スコアであり、次のように計算されます。アイテムベクトルとユーザーベクトルの内積スコアから、ユーザーベクトルとユーザー興味境界ベクトルの内積スコアを減算し、シグモイド関数によって最終スコアを計算します。計算プロセス中、正のサンプルはアイテムとユーザー間の内積のスコアを増加させ、ユーザーとユーザー関心境界間の内積のスコアを減少させますが、負のサンプルはその逆を行います。理想的には、ユーザーの内積スコアとユーザーの興味の境界によって、肯定的なサンプルと否定的なサンプルを分離できます。オンライン推奨段階では、興味境界を基準値として使用し、スコアの高いアイテムをユーザーに推奨し、スコアの低いアイテムは推奨しません。ユーザーが人気のあるアイテムにのみ興味がある場合、理想的には、ユーザーの境界スコア、つまりユーザー ベクトルと興味境界ベクトルの内積は非常に高くなり、すべてのコールド スタート アイテム スコアよりも高くなるため、一部のコールド スタート アイテムはユーザーに推奨されません。 Q5: ユーザータワーと関心境界タワーの構造上の違いは何ですか?入力は同じのようですが?A5: 2 つの入力は確かに同じで、構造も似ていますが、パラメータは共有されていません。最大の違いは損失の計算にのみ反映されます。ユーザータワーの出力はアイテムタワーの出力との内積を計算するために使用され、その結果がアイテムスコアになります。関心境界タワーの出力とユーザー タワーの出力を内積して境界スコアを取得します。トレーニング中は、この 2 つを減算してバイナリ分類損失を計算するために使用されます。推論中は、この 2 つを比較して、アイテムをユーザーにプッシュするかどうかを決定します。 |
<<: IGN は拡散モデルに終止符を打ち、ワンステップでリアルな画像を生成します。カリフォルニア大学バークレー校のGoogleがLLMを革新、アメリカのテレビシリーズがインスピレーションの源に
>>: YOLO-NAS: 最も効率的なターゲット検出アルゴリズムの1つ
[[258822]] [51CTO.com クイック翻訳] 音声アシスト技術は非常に人気があり、すで...
ロボット工学は、SF の世界の概念から、あらゆる分野を変え、人間の生活を向上させる現実のものへと進化...
[51CTO.com オリジナル記事] 今、業界で人気のテクノロジーは何ですか?それは間違いなく人工...
5月29日、全国科学技術労働者の日が近づく中、アリババDAMOアカデミーのAIによって識別されラベル...
フランス料理の秘訣はバター、バター、そしてさらにバターだと言われています。同様に、DevOps の場...
今日は友人が経営する人工知能体験センターを訪問する機会に恵まれました。この施設では主に子供たちが学習...
[[359197]]次に、js データ構造のツリーを調べてみましょう。ここでのツリーは、幹と枝を持つ...
少し前に、機械知能 AI テクノロジー年次会議がオンラインで開催されました。デューク大学電気・コンピ...
COVID-19パンデミック以前は、経営幹部は、ビジネス運営の最適化、収益性の向上、イノベーションの...
日常生活では、情報を提示する次の 2 つの方法によく遭遇します。表示される情報量はどちらも同じですが...
AIペイントの王者ミッドジャーニーがハードウェア分野に進出開始!同社は、スーパーバイザーとして、Vi...