魔法のレコメンデーションシステム：6億人のユーザーの音楽シーンを考えるAI

[51CTO.comより] NetEase Cloud Musicは音楽愛好家が集まる場所です。Cloud Musicの推奨システムは、AIアルゴリズムの実装に注力しており、ユーザーごとにパーソナライズされた推奨を実現し、ユーザーに異なるリスニング体験をもたらします。

[[274065]]

画像はpexelsより

2019年6月21日から22日まで、51CTO主催のWOTグローバル人工知能技術サミットが北京JWマリオットホテルで盛大に開催されました。

機械学習実践セッションでは、NetEase Cloud Musicの音楽推奨アルゴリズム責任者であるXiao Qiang氏が「音楽推奨におけるAIアルゴリズムの実践」を紹介しました。

この共有セッションでは、音楽推奨における AI アルゴリズムの実際の応用と、アルゴリズムの実装で遭遇する課題と解決策に焦点を当てます。

以下の2つの部分から拡張されます。

音楽推薦におけるAIアルゴリズムの応用
音楽シナリオにおけるAIの思考

網易雲音楽プラットフォームは、2013年4月に正式リリースされて以来、音楽スクリーンコミュニティ、UGC（ユーザー生成コンテンツ）プレイリスト、正確なレコメンデーションなどのサービスを提供し続けており、ミュージシャンプラン、LOOKライブ放送、アンカープラットフォームなどのセクションを育成してきました。

現在、QQミュージックは6億人の登録ユーザーを擁し、音楽アプリランキングで常に1位を維持しています。

音楽推薦におけるAIアルゴリズムの応用

音楽推薦の実際の応用シナリオでは、AI 技術を使用して曲やプレイリストを配信します。代表的なアプリケーションには、毎日の曲や、パーソナライズされたシナリオに基づいて関連する曲を推奨できるプライベート FM などがあります。

上の図は、さまざまなログストリーム、ETL、機能、リコール、ソート、最終的な推奨を含む、音楽推奨システム全体の論理図です。

このレコメンデーションシステムにとって最も重要なのは、フロントエンドデータを統合して、ユーザーのポートレート、つまりユーザーがどのような音楽を好むかを理解するということです。

上の図に示すように:

データ層では、主に Hive、Hadoop、Flink、SparkSQL、Mammut を使用しました。
機械学習層では、SparkML、Tensorflow、Parameter Server、Caffe を使用しました。

上記はデータシステム構築の比較表であり、アルゴリズムシステム構築には、クラウドミュージックAIアルゴリズムの適用環境であるユーザーシステムの構築が含まれます。

私たちのチームは主に以下のように分かれています。

データエクスペリエンスチーム
人工知能アルゴリズムチーム
ミドルオフィスチーム
ビジネス関連メンバー

人工知能を使ったレコメンデーションにおいて、音楽のレコメンデーションは他の製品とは異なります。例えば：

私たちは非常に短時間で自分の好みを特定できるため、10 秒で 12 着のドレスを閲覧できます。

しかし、音楽を体験するには時間がかかります。多くの場合、音楽を 10 秒以上聴いてから、それが自分の好みではないことに気づきます。

そのため、音楽はただ観るだけでは理解できません。推奨製品を作る過程では、ユーザー体験に導かれ、音楽そのものを真に理解する必要があります。

ドレスは単位時間あたり 1 回しか消費されないことが多いですが、音楽はプレイリストや単一曲のループをループすることで、単位時間あたり繰り返し楽しむことができます。したがって、これは繰り返し可能な消費行動であり、推奨を行う際にはこのルールを把握する必要があります。
音楽の消費コストは比較的高いため、ユーザーエクスペリエンスと、ユーザーの消費プロセスに存在する強い時間相関にさらに注意を払う必要があります。
同時に、ユーザーに曲を聴く時間が 10 秒、30 秒、または 60 秒与えられるかどうかは、ユーザーにとってまったく異なる意味を持ちます。
したがって、私たちが提供する必要があるのは、これらの関連性が効果的な行動の意味を反映できるように、真に意味のある消費です。
音楽推奨システムの品質は、どのように測定するのでしょうか。ユーザーがプラットフォームをどのくらい長く使用しているかで測定するのでしょうか。それとも、お気に入りに収集した音楽トラックの数で測定するのでしょうか。もちろん、赤いハートをクリックして曲をまったく収集しないユーザーもいることがわかっています。

その後のやり取りで、彼は実は気に入らない曲をブロックしていただけだったことが分かりました。音楽推奨システムの有効性を測定するために単一の目的を使用するのは難しいことがわかります。

Cloud Music プラットフォームがさまざまな AI テクノロジーをどのように適用しているかを見てみましょう。

①音楽の複雑さ

上で述べた音楽の複雑さを考えると、私たちはどのように音楽を理解すればよいのでしょうか? 当社のプラットフォームには、さまざまな音楽に対する豊富な UGC とさまざまな高品質のユーザーレビューがあります。

したがって、プレイリストに関するこれらのコメントと認識を使用し、双方向のバイイズムを採用して、音楽の説明文を生成することができます。

その後、新しい音楽が入力されると、それに関連付けられた少量の言語に基づいて新しい解釈の説明を作成できます。

上の画像のように、例えば「Against the Current of the River」という曲があり、その下には関連するプレイリストのタイトルや説明情報が多数表示されています。

新しいキーワードを追加することでさまざまなマーカーワードを復元し、ミュージシャンの関連する特徴の説明を生成することができます。

これを基に、手動でフィルタリングされた語彙リストに従って、「インターネット上の中国の女性の声」、「香港の民謡」などのフレーズを自動的に生成します。

そこで、このNLP（自然言語処理）システムによって、ようやく歌のフレーズを視覚化できるようになりました。

その結果、コミュニティのユーザーは曲をクリックしなくても、曲のジャンルを大まかに理解できるようになります。

第二に、比較的単純な「ビデオ + 画像 + 畳み込み」技術を使用して音楽を理解することができます。

たとえば、いくつかの人気曲の場合、生成された表現と既存の関連付けを使用して関連するオーディオを取得し、曲の音量、リズム、スタイル、音楽間の類似点を識別し、音楽を「描写」します。

②音楽の繰り返し消費の価値

ここで主に反映されるのは、音楽推薦におけるCFです。上の図に示すように、追跡により、ユーザーは曲 A を 10 回、曲 B を 9 回、曲 C を 1 回だけ聴いたことがわかりました。

すると、A、B、C 間の類似性と相関関係が次のようにわかります。ユーザーはカテゴリ A と B の曲をより好み、A と B 間の相関関係も大きくなります。

そのため、ユーザーの繰り返し消費の頻度に基づいて、X、Y、Z座標軸の関係を設定することで、空間的な位置や方向の違いを表現することができます。

明らかに、このような類似度の計算により、さまざまな種類の音楽を推奨する際の効率が大幅に向上します。

③ 消費コストが高く、音楽と過去や現在との間に高い相関関係があるため、ユーザーのニーズを表現するには適切なモデルが必要です。

上の図に示すように、初期の線形モデルからツリーモデル、大規模 FTRL、ディープニューラルネットワーク、そして最終的にディープタイムシリーズネットワークへと、音楽推奨の反復プロセスを経てきました。

まず、LR モデルから始めます。 LR モデルは説明力が強いため、選択しやすくなります。しかし、解釈可能性が高く、反復速度が速いにもかかわらず、表現力は非常に限られています。

その後、ツリーモデルに移行しました。このモデルの RF モデルと LGB モデルには、非線形の解釈可能な問題を解決できるという利点があります。もちろん、その欠点は、フィッティング能力を強化する必要があることです。

次に、表現に適した大規模なFTRLを立ち上げました。その利点は、以前の学習と時系列トレーニングに基づくメモリベースの特徴を通じて、すべての特徴と関連性を表現および特徴付けることができることです。

欠点は、特徴の幅が比較的広いことです。つまり、異なる企業の異なるニーズに対しては、必要なサンプルサイズが大きくなり、計算量がより複雑になります。

その後の表現能力を高めるために、DNN、DeepFM、Wide&Deep モデルなどのディープニューラルネットワークを採用しました。

非常に理論的であるという利点がありますが、ニューラルネットワーク自体の複雑さのために、解釈可能性が比較的低く、さまざまな暗黙の時間的関係を学習できないという欠点があります。

最後に、ディープテンポラルネットワークを使用しました。これに対応するモデルには、LSTM、GRU Transformer、DIN、DEIN などがあります。これらの利点は、さまざまな時間的特徴を学習できるため、特徴付けと一般化ができることです。

もちろん、ネットワークが比較的複雑で、解釈可能性が比較的低いという、前述のディープニューラルネットワークの欠点もあります。

LR モデルとツリーモデルを見てみましょう。前述したように、線形モデルとツリーモデルの特徴は、統計/一般化機能が豊富ですが、一般化能力が低いことです。

歌の応用シナリオでは、歌に関連し、ユーザーの行動によって生成された豊富なデータをモデルに直接提供できます。

アルゴリズムを通じて、さまざまな音楽指標をラベルに抽象化する必要があります。しかし、音楽リソースと動作サンプルは十分にあるものの、動作シーケンスは線形ではないことが多いため、過剰適合や特徴タイムトラベル（つまり、特徴メモリ）の問題が発生してしまいます。

オフライン機能とオンライン機能の一貫性を通じてデータを効果的に活用し、さまざまな行動のコンテキスト相関関係を学習して、モデルの適合機能を向上させることが急務となっています。

そこで、フィッティング能力を向上させるために、まずはDNNモデルを試してみました。構造的には、DNN は ReLU を使用して低次の特徴の組み合わせと高次の特徴の組み合わせ間の完全な接続性を確保しますが、これにより特徴の数も全体的に増加します。

そこで、低次特徴と高次特徴の組み合わせを同時にモデル化し、各次数の特徴間の組み合わせ関係を学習できるDeepFMに改良しました。上図に示すように、後期には DCN も導入しました。

DCN は、高レベル機能の相互作用を明示的に学習できます。これを使用すると、高度に非線形なクロスフィーチャを効果的にキャプチャできます。

DeepFM モデルは維持されているため、ベクトルの拡張を効果的に制御でき、パラメータ空間を削減できます。

前回の記事では、時間的な関連性を表現する問題についても触れました。この目的のために、クリックスルー率には DIN (Deep Interest Network) を使用しました。

DIN は、ユーザーの多様な興味の中で、現在の推奨事項に影響を与える過去の行動に焦点を当てています。しかし、DIN では、音楽に対するユーザーの興味のタイプの動的な変化を捉えることはできません。

たとえば、あるユーザーは以前はエレクトロニックミュージックが好きでしたが、後にフォークミュージックを好むようになりました。この種の「進化」は、まさに DIN では捉えられないものです。

これを基に、Deep Interest Evolution Network (DIEN) モデルに切り替えました。このモデルの主な特徴は、システムにおけるユーザーの興味の進化に注目して、興味抽出層と進化層が設計されていることです。

新しいネットワーク結果とモデリング形式を使用して、ユーザーの興味の動的な変化と時間的進化のプロセスをより正確に表現します。

ユーザーの興味の変化をより詳細に把握するために、DSIN モデルも使用しました。 DSIN は主に 2 つの部分で構成されます。1 つはスパース機能、もう 1 つはユーザー行動シーケンスの処理です。

このモデルは、ユーザーが同じセッションで閲覧した製品の類似点だけでなく、異なるセッションで閲覧した製品の相違点も検出し、ユーザーの時間的な興味を抽出できます。

④ 音楽消費においては、ユーザーのニーズが複雑であることを考えると、単一の目標を使用して音楽推奨システムの長所と短所を測定することは困難です。

推奨システムは典型的な統計アプリケーションですが、統計は問題の 95% しか解決できず、残りの 5% は個人の好みに関するものです。

実際のアプリケーションでは、CTR (クリックスルー率) と消費時間の関係が同期して増加せず、一方が増加するともう一方が減少する傾向を示すなど、さまざまな問題に遭遇することがよくあります。では、複数の目的の問題をどのように解決するのでしょうか?

多目的問題には多くの解決策があります。上図に示すように、サンプルの重み付け、重み損失、部分的なネットワーク共有があります。そのため、実装が簡単な多目的共同トレーニングを採用します。

上の図では、まず各層の出力を確保し、浅い共有表現を実装します。そのため、学習結果に関しては、対象者によって一定の差はあるものの、学習用の差分ネットワークを導入したことで、収集率や消費時間が大幅に改善されました。

共同トレーニングの利点は次のとおりです。

複数のターゲットタスク間で浅いレベルの表現を共有することにより、タスク間でノイズの多いデータを組み込みます。これにより、ネットワークの過剰適合が軽減されるだけでなく、一般化効果も向上します。
多目的タスクの学習では、異なるタスクの局所的最小値を異なる場所に配置し、相互に作用できるようにすることで、局所的最小値からの脱出を支援します。
多目的タスクの共同トレーニングを通じて、モデルは複数のタスクに共通する最適なソリューションを見つけるために最善を尽くすことができます。
「盗聴」に似た手法でユーザーの音楽コレクションやその他の操作を追跡し、それに応じた判断を下します。

音楽の推奨と上記の他のタイプの推奨との違いを振り返って、次のポイントツーポイントソリューションを実装しました。

違い: 音楽自体の複雑さを考えると、音楽リソースをどのように理解すればよいでしょうか? 解決策: NLP、ビデオ、画像テクノロジーを使用して、音楽をより深く理解します。
差異: 繰り返し可能な消費と繰り返し不可能な消費の差異。解決策: 音楽の消費特性を活用して、さまざまな曲間の相関関係をインテリジェントに分析します。
違い: さまざまな種類の音楽は、消費コストが高いだけでなく、その前後で明らかな相関関係があります。さらに、効果的な行動の意味はより豊かになることが多いです。解決策: 複雑な AI モデルを使用して、ユーザーが曲を聴く順序的な相関関係を調査します。
違い: 単一の目的を使用して音楽推奨システムの有効性を測定することは困難です。ソリューション: MTL テクノロジーを使用して、ユーザーの多様なニーズを解決します。

音楽シナリオにおけるAIの思考

では、なぜ音楽シーンに AI が必要なのでしょうか? 明らかに、CD やレコードを購入して音楽を聴くというエンドツーエンドの時代はもう終わりました。

当社の音楽推奨プラットフォームには何億人ものユーザーがいます。彼らはさまざまな気分の中で、10万人以上のミュージシャンによって制作された数千万曲以上の音楽作品に直面しており、良い気分を得るためには美しい音楽が必要です。

「ヘッドフォンはインターネット時代の酸素供給管であり、音楽は酸素である」と言っても過言ではありません。

したがって、4 次元空間での複雑なマッチング問題を解決する必要があります。ここで人工知能が登場します。

AIベースの推奨システムを通じて、強力なロングテール発見機能と正確なマッチング機能を継続的に提供し、ユーザーエクスペリエンスを継続的に向上させるとともに、NetEase Cloud Musicプラットフォーム上でより多くの楽曲リソースの自発的な共有と発見を促進します。

上記の目的を達成するために、上図のようなアーキテクチャを構築しました。具体的には、以下の側面が含まれます。