魔法のレコメンデーションシステム:6億人のユーザーの音楽シーンを考えるAI

魔法のレコメンデーションシステム:6億人のユーザーの音楽シーンを考えるAI

[51CTO.comより] NetEase Cloud Musicは音楽愛好家が集まる場所です。Cloud Musicの推奨システムは、AIアルゴリズムの実装に注力しており、ユーザーごとにパーソナライズされた推奨を実現し、ユーザーに異なるリスニング体験をもたらします。

[[274065]]

画像はpexelsより

2019年6月21日から22日まで、51CTO主催のWOTグローバル人工知能技術サミットが北京JWマリオットホテルで盛大に開催されました。

機械学習実践セッションでは、NetEase Cloud Musicの音楽推奨アルゴリズム責任者であるXiao Qiang氏が「音楽推奨におけるAIアルゴリズムの実践」を紹介しました。

この共有セッションでは、音楽推奨における AI アルゴリズムの実際の応用と、アルゴリズムの実装で遭遇する課題と解決策に焦点を当てます。

以下の2つの部分から拡張されます。

  • 音楽推薦におけるAIアルゴリズムの応用
  • 音楽シナリオにおけるAIの思考

網易雲音楽プラットフォームは、2013年4月に正式リリースされて以来、音楽スクリーンコミュニティ、UGC(ユーザー生成コンテンツ)プレイリスト、正確なレコメンデーションなどのサービスを提供し続けており、ミュージシャンプラン、LOOKライブ放送、アンカープラットフォームなどのセクションを育成してきました。

現在、QQミュージックは6億人の登録ユーザーを擁し、音楽アプリランキングで常に1位を維持しています。

音楽推薦におけるAIアルゴリズムの応用

音楽推薦の実際の応用シナリオでは、AI 技術を使用して曲やプレイリストを配信します。代表的なアプリケーションには、毎日の曲や、パーソナライズされたシナリオに基づいて関連する曲を推奨できるプライベート FM などがあります。

上の図は、さまざまなログ ストリーム、ETL、機能、リコール、ソート、最終的な推奨を含む、音楽推奨システム全体の論理図です。

このレコメンデーションシステムにとって最も重要なのは、フロントエンドデータを統合して、ユーザーのポートレート、つまりユーザーがどのような音楽を好むかを理解するということです。

上の図に示すように:

  • データ層では、主に Hive、Hadoop、Flink、SparkSQL、Mammut を使用しました。
  • 機械学習層では、SparkML、Tensorflow、Parameter Server、Caffe を使用しました。

上記はデータシステム構築の比較表であり、アルゴリズムシステム構築には、クラウドミュージックAIアルゴリズムの適用環境であるユーザーシステムの構築が含まれます。

私たちのチームは主に以下のように分かれています。

  • データエクスペリエンスチーム
  • 人工知能アルゴリズムチーム
  • ミドルオフィスチーム
  • ビジネス関連メンバー

人工知能を使ったレコメンデーションにおいて、音楽のレコメンデーションは他の製品とは異なります。例えば:

  • 私たちは非常に短時間で自分の好みを特定できるため、10 秒で 12 着のドレスを閲覧できます。

しかし、音楽を体験するには時間がかかります。多くの場合、音楽を 10 秒以上聴いてから、それが自分の好みではないことに気づきます。

そのため、音楽はただ観るだけでは理解できません。推奨製品を作る過程では、ユーザー体験に導かれ、音楽そのものを真に理解する必要があります。

  • ドレスは単位時間あたり 1 回しか消費されないことが多いですが、音楽はプレイリストや単一曲のループをループすることで、単位時間あたり繰り返し楽しむことができます。したがって、これは繰り返し可能な消費行動であり、推奨を行う際にはこのルールを把握する必要があります。
  • 音楽の消費コストは比較的高いため、ユーザーエクスペリエンスと、ユーザーの消費プロセスに存在する強い時間相関にさらに注意を払う必要があります。
  • 同時に、ユーザーに曲を聴く時間が 10 秒、30 秒、または 60 秒与えられるかどうかは、ユーザーにとってまったく異なる意味を持ちます。
  • したがって、私たちが提供する必要があるのは、これらの関連性が効果的な行動の意味を反映できるように、真に意味のある消費です。
  • 音楽推奨システムの品質は、どのように測定するのでしょうか。ユーザーがプラットフォームをどのくらい長く使用しているかで測定するのでしょうか。それとも、お気に入りに収集した音楽トラックの数で測定するのでしょうか。もちろん、赤いハートをクリックして曲をまったく収集しないユーザーもいることがわかっています。

その後のやり取りで、彼は実は気に入らない曲をブロックしていただけだったことが分かりました。音楽推奨システムの有効性を測定するために単一の目的を使用するのは難しいことがわかります。

Cloud Music プラットフォームがさまざまな AI テクノロジーをどのように適用しているかを見てみましょう。

①音楽の複雑さ

上で述べた音楽の複雑さを考えると、私たちはどのように音楽を理解すればよいのでしょうか? 当社のプラットフォームには、さまざまな音楽に対する豊富な UGC とさまざまな高品質のユーザー レビューがあります。

したがって、プレイリストに関するこれらのコメントと認識を使用し、双方向のバイイズムを採用して、音楽の説明文を生成することができます。

その後、新しい音楽が入力されると、それに関連付けられた少量の言語に基づいて新しい解釈の説明を作成できます。

上の画像のように、例えば「Against the Current of the River」という曲があり、その下には関連するプレイリストのタイトルや説明情報が多数表示されています。

新しいキーワードを追加することでさまざまなマーカーワードを復元し、ミュージシャンの関連する特徴の説明を生成することができます。

これを基に、手動でフィルタリングされた語彙リストに従って、「インターネット上の中国の女性の声」、「香港の民謡」などのフレーズを自動的に生成します。

そこで、このNLP(自然言語処理)システムによって、ようやく歌のフレーズを視覚化できるようになりました。

その結果、コミュニティのユーザーは曲をクリックしなくても、曲のジャンルを大まかに理解できるようになります。

第二に、比較的単純な「ビデオ + 画像 + 畳み込み」技術を使用して音楽を理解することができます。

たとえば、いくつかの人気曲の場合、生成された表現と既存の関連付けを使用して関連するオーディオを取得し、曲の音量、リズム、スタイル、音楽間の類似点を識別し、音楽を「描写」します。

②音楽の繰り返し消費の価値

ここで主に反映されるのは、音楽推薦におけるCFです。上の図に示すように、追跡により、ユーザーは曲 A を 10 回、曲 B を 9 回、曲 C を 1 回だけ聴いたことがわかりました。

すると、A、B、C 間の類似性と相関関係が次のようにわかります。ユーザーはカテゴリ A と B の曲をより好み、A と B 間の相関関係も大きくなります。

そのため、ユーザーの繰り返し消費の頻度に基づいて、X、Y、Z座標軸の関係を設定することで、空間的な位置や方向の違いを表現することができます。

明らかに、このような類似度の計算により、さまざまな種類の音楽を推奨する際の効率が大幅に向上します。

③ 消費コストが高く、音楽と過去や現在との間に高い相関関係があるため、ユーザーのニーズを表現するには適切なモデルが必要です。

上の図に示すように、初期の線形モデルからツリー モデル、大規模 FTRL、ディープ ニューラル ネットワーク、そして最終的にディープ タイム シリーズ ネットワークへと、音楽推奨の反復プロセスを経てきました。

まず、LR モデルから始めます。 LR モデルは説明力が強いため、選択しやすくなります。しかし、解釈可能性が高く、反復速度が速いにもかかわらず、表現力は非常に限られています。

その後、ツリーモデルに移行しました。このモデルの RF モデルと LGB モデルには、非線形の解釈可能な問題を解決できるという利点があります。もちろん、その欠点は、フィッティング能力を強化する必要があることです。

次に、表現に適した大規模なFTRLを立ち上げました。その利点は、以前の学習と時系列トレーニングに基づくメモリベースの特徴を通じて、すべての特徴と関連性を表現および特徴付けることができることです。

欠点は、特徴の幅が比較的広いことです。つまり、異なる企業の異なるニーズに対しては、必要なサンプル サイズが大きくなり、計算量がより複雑になります。

その後の表現能力を高めるために、DNN、DeepFM、Wide&Deep モデルなどのディープ ニューラル ネットワークを採用しました。

非常に理論的であるという利点がありますが、ニューラル ネットワーク自体の複雑さのために、解釈可能性が比較的低く、さまざまな暗黙の時間的関係を学習できないという欠点があります。

最後に、ディープ テンポラル ネットワークを使用しました。これに対応するモデルには、LSTM、GRU Transformer、DIN、DEIN などがあります。これらの利点は、さまざまな時間的特徴を学習できるため、特徴付けと一般化ができることです。

もちろん、ネットワークが比較的複雑で、解釈可能性が比較的低いという、前述のディープ ニューラル ネットワークの欠点もあります。

LR モデルとツリー モデルを見てみましょう。前述したように、線形モデルとツリーモデルの特徴は、統計/一般化機能が豊富ですが、一般化能力が低いことです。

歌の応用シナリオでは、歌に関連し、ユーザーの行動によって生成された豊富なデータをモデルに直接提供できます。

アルゴリズムを通じて、さまざまな音楽指標をラベルに抽象化する必要があります。しかし、音楽リソースと動作サンプルは十分にあるものの、動作シーケンスは線形ではないことが多いため、過剰適合や特徴タイムトラベル(つまり、特徴メモリ)の問題が発生してしまいます。

オフライン機能とオンライン機能の一貫性を通じてデータを効果的に活用し、さまざまな行動のコンテキスト相関関係を学習して、モデルの適合機能を向上させることが急務となっています。

そこで、フィッティング能力を向上させるために、まずはDNNモデルを試してみました。構造的には、DNN は ReLU を使用して低次の特徴の組み合わせと高次の特徴の組み合わせ間の完全な接続性を確保しますが、これにより特徴の数も全体的に増加します。

そこで、低次特徴と高次特徴の組み合わせを同時にモデル化し、各次数の特徴間の組み合わせ関係を学習できるDeepFMに改良しました。上図に示すように、後期には DCN も導入しました。

DCN は、高レベル機能の相互作用を明示的に学習できます。これを使用すると、高度に非線形なクロスフィーチャを効果的にキャプチャできます。

DeepFM モデルは維持されているため、ベクトルの拡張を効果的に制御でき、パラメータ空間を削減できます。

前回の記事では、時間的な関連性を表現する問題についても触れました。この目的のために、クリックスルー率には DIN (Deep Interest Network) を使用しました。

DIN は、ユーザーの多様な興味の中で、現在の推奨事項に影響を与える過去の行動に焦点を当てています。しかし、DIN では、音楽に対するユーザーの興味のタイプの動的な変化を捉えることはできません。

たとえば、あるユーザーは以前はエレクトロニック ミュージックが好きでしたが、後にフォーク ミュージックを好むようになりました。この種の「進化」は、まさに DIN では捉えられないものです。

これを基に、Deep Interest Evolution Network (DIEN) モデルに切り替えました。このモデルの主な特徴は、システムにおけるユーザーの興味の進化に注目して、興味抽出層と進化層が設計されていることです。

新しいネットワーク結果とモデリング形式を使用して、ユーザーの興味の動的な変化と時間的進化のプロセスをより正確に表現します。

ユーザーの興味の変化をより詳細に把握するために、DSIN モデルも使用しました。 DSIN は主に 2 つの部分で構成されます。1 つはスパース機能、もう 1 つはユーザー行動シーケンスの処理です。

このモデルは、ユーザーが同じセッションで閲覧した製品の類似点だけでなく、異なるセッションで閲覧した製品の相違点も検出し、ユーザーの時間的な興味を抽出できます。

④ 音楽消費においては、ユーザーのニーズが複雑であることを考えると、単一の目標を使用して音楽推奨システムの長所と短所を測定することは困難です。

推奨システムは典型的な統計アプリケーションですが、統計は問題の 95% しか解決できず、残りの 5% は個人の好みに関するものです。

実際のアプリケーションでは、CTR (クリックスルー率) と消費時間の関係が同期して増加せず、一方が増加するともう一方が減少する傾向を示すなど、さまざまな問題に遭遇することがよくあります。では、複数の目的の問題をどのように解決するのでしょうか?

多目的問題には多くの解決策があります。上図に示すように、サンプルの重み付け、重み損失、部分的なネットワーク共有があります。そのため、実装が簡単な多目的共同トレーニングを採用します。

上の図では、まず各層の出力を確保し、浅い共有表現を実装します。そのため、学習結果に関しては、対象者によって一定の差はあるものの、学習用の差分ネットワークを導入したことで、収集率や消費時間が大幅に改善されました。

共同トレーニングの利点は次のとおりです。

  • 複数のターゲット タスク間で浅いレベルの表現を共有することにより、タスク間でノイズの多いデータを組み込みます。これにより、ネットワークの過剰適合が軽減されるだけでなく、一般化効果も向上します。
  • 多目的タスクの学習では、異なるタスクの局所的最小値を異なる場所に配置し、相互に作用できるようにすることで、局所的最小値からの脱出を支援します。
  • 多目的タスクの共同トレーニングを通じて、モデルは複数のタスクに共通する最適なソリューションを見つけるために最善を尽くすことができます。
  • 「盗聴」に似た手法でユーザーの音楽コレクションやその他の操作を追跡し、それに応じた判断を下します。

音楽の推奨と上記の他のタイプの推奨との違いを振り返って、次のポイントツーポイントソリューションを実装しました。

  • 違い: 音楽自体の複雑さを考えると、音楽リソースをどのように理解すればよいでしょうか? 解決策: NLP、ビデオ、画像テクノロジーを使用して、音楽をより深く理解します。
  • 差異: 繰り返し可能な消費と繰り返し不可能な消費の差異。解決策: 音楽の消費特性を活用して、さまざまな曲間の相関関係をインテリジェントに分析します。
  • 違い: さまざまな種類の音楽は、消費コストが高いだけでなく、その前後で明らかな相関関係があります。さらに、効果的な行動の意味はより豊かになることが多いです。解決策: 複雑な AI モデルを使用して、ユーザーが曲を聴く順序的な相関関係を調査します。
  • 違い: 単一の目的を使用して音楽推奨システムの有効性を測定することは困難です。ソリューション: MTL テクノロジーを使用して、ユーザーの多様なニーズを解決します。

音楽シナリオにおけるAIの思考

では、なぜ音楽シーンに AI が必要なのでしょうか? 明らかに、CD やレコードを購入して音楽を聴くというエンドツーエンドの時代はもう終わりました。

当社の音楽推奨プラットフォームには何億人ものユーザーがいます。彼らはさまざまな気分の中で、10万人以上のミュージシャンによって制作された数千万曲以上の音楽作品に直面しており、良い気分を得るためには美しい音楽が必要です。

「ヘッドフォンはインターネット時代の酸素供給管であり、音楽は酸素である」と言っても過言ではありません。

したがって、4 次元空間での複雑なマッチング問題を解決する必要があります。ここで人工知能が登場します。

AIベースの推奨システムを通じて、強力なロングテール発見機能と正確なマッチング機能を継続的に提供し、ユーザーエクスペリエンスを継続的に向上させるとともに、NetEase Cloud Musicプラットフォーム上でより多くの楽曲リソースの自発的な共有と発見を促進します。

上記の目的を達成するために、上図のようなアーキテクチャを構築しました。具体的には、以下の側面が含まれます。

  • ユーザーのメンタルモデルシステム。含まれるもの:行動、認知、態度など。
  • ユーザーリサーチシステム。調査アンケート等を含む。
  • 事例分析システム。含まれるもの: ユーザーおよびユーザー グループの使用状況の分析。
  • 評価指標システム。収集率、曲切り替え率、使用時間などが含まれます。
  • データフィードバックシステム。含まれるもの: 収集、曲の切り替え、離脱などの肯定的および否定的なフィードバック。

これらの定性的および定量的なユーザー エクスペリエンス評価システムを通じて、ナレッジ グラフ、統計学習、強化学習を組み合わせて、次の 3 層モデル システムを構築します。

  • 仕分けシステム。含まれるもの: ソートモデル、ee モデル、人気トレンド モデル。
  • マッチングシステム。含まれるもの: 行動推奨モデルと新しいコンテンツ検出モデル。
  • データシステム。含まれるもの: 行動データ、ユーザー ポートレート、コンテンツ ポートレート。

上記を通じて、ユーザー関連のデータ知識、さらには専門知識を継続的に習得し、プラットフォームの適切性とユーザーの受け入れ性をさらに向上させます。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  AIトレーニングの裏話を公開:専門家だけでなく、世界中の無数のオフィスワーカーもAIの進化に貢献している

>>:  DeepMind の巨額損失の背後で、今日の AI は正しい方向を選んだのでしょうか?

ブログ    

推薦する

10年前、古典的なword2vec論文が今日のNeurIPSタイムテスト賞を受賞しました

NeurIPS は世界で最も権威のある AI 学術会議の 1 つです。正式名称は Neural In...

人工知能が詩を書きました。この詩の知的財産権は誰が所有しているのでしょうか?

以下は、テンセント研究所法律研究センター副所長兼主任研究員である蔡雄山氏の講演の記録です。多くの場合...

...

...

2020年にAIに適した5つのプログラミング言語

AI システムの開発にはコンピュータ コードが必要であり、コンピュータ プログラムを開発する際にはさ...

「新世代人工知能倫理規定」が発表:人工知能のライフサイクル全体に統合し、データプライバシーのセキュリティとアルゴリズムの倫理に重点を置く

9月26日、国家新世代人工知能ガバナンス専門委員会は「新世代人工知能倫理規範」(以下、「規範」という...

...

AIモデリングはもはや困難ではない:Jiuzhang Yunji DataCanvasが2つのオープンソース成果をリリース

[51CTO.comより] 「ソフトウェアインフラは大幅なアップグレードを受け、AIの実装はソフトウ...

...

...

指先で操作できる人工知能(基礎編)

人工知能の概念知能は知識と知性の総和です。知識はすべての知的行動の基礎であり、知能は知識を獲得し、そ...

Python コードを書くことができる人工知能 Kite が Linux のサポートを発表。プログラマーは職を失うことになるのでしょうか?

[[264788]]プログラマーが Python コードを書くという反復的な作業を軽減するのに役立...

...

合成データ生成器はAIのバイアス問題を解決できるかもしれない

AI の偏見は、個人にさまざまな影響を及ぼす可能性がある深刻な問題です。人工知能が進歩するにつれて、...