推薦システムの主なアルゴリズムの概要とYoutubeのディープラーニング推薦アルゴリズムの例

推薦システムの主なアルゴリズムの概要とYoutubeのディープラーニング推薦アルゴリズムの例

協調フィルタリング

協調フィルタリング (CF) とそのバリエーションは、最も一般的に使用される推奨アルゴリズムの 1 つです。データサイエンスの初心者でも、履歴書プロジェクトなど、自分専用の映画推奨システムを構築するために使用できます。

ユーザーに何かを推奨したい場合、最も論理的な方法は、そのユーザーと同じ趣味を持つユーザーを見つけ、その行動を分析して、同じものを推奨することです。あるいは、ユーザーが以前購入した商品に似たものに焦点を当て、類似の商品を推奨することもできます。

協調フィルタリング (CF) には、ユーザーベースの協調フィルタリング技術とアイテムベースの協調フィルタリング技術という 2 つの基本的な方法があります。

推奨アルゴリズムは、上記の各シナリオで 2 つのステップで構成されます。

1. データベース内のユーザー/アイテムのうち、対象のユーザー/アイテムに類似するものがいくつあるかを調べます。

2. 製品のユーザー/アイテムに類似するユーザー/アイテムの合計重みを考慮して、他のユーザー/アイテムを評価し、関連製品のユーザーに与える評価を予測します。

このアルゴリズムにおける「最も類似」とはどういう意味ですか?

ここで得られるのは、各ユーザーの嗜好ベクトル (行列 R の列) と、各製品に対するユーザー評価のベクトル (行列 R の行) です。

まず、両方のベクトルで値がわかっている要素のみを保持します。

たとえば、ビルとジェーンを比較したい場合、ビルはタイタニックを見たことがなく、ジェーンはバットマンを見たことがないとわかっている場合、彼らの類似性はスターウォーズによってのみ測定できます。スターウォーズを観ない人がいるでしょうか? (笑顔)

類似性を測定する最も一般的な方法は、ユーザー/アイテム ベクトルのコサイン類似度または相関を測定することです。最後のステップは、類似度に基づいて加重算術平均法を使用して、表内の空のセルを埋めることです。

推奨のための行列分解

もう一つの興味深いアプローチは、行列分解を使用することです。これはエレガントな推奨アルゴリズムです。通常、行列を因数分解するときに、結果の行列の行と列のどの項目が保持されるかについてはあまり考慮しないためです。しかし、推奨ツールを使用すると、u は i 番目のユーザーの興味に関するベクトルであり、v は j 番目の映画のパラメータに関するベクトルであることが明確にわかります。

次に、u と v のドット積を取ることで、x (i 番目のユーザーが j 番目の映画に付けた評価) を推定できます。既知の評価を使用してこれらのベクトルを構築し、それを使用して未知の評価を予測します。

たとえば、行列分解後、Ted のベクトル (1.4; .9) と映画 A のベクトル (1.4; .8) が得られます。これで、(1.4; .9) と (1.4; .8) のドット積を計算するだけで、映画 A-Ted の評価を復元でき、評価結果は 2.68 になります。

クラスタリング

以前の推奨アルゴリズムは比較的単純で、小規模なシステムに適していました。そして現在に至るまで、私たちは推奨問題を教師あり機械学習タスクとして捉えてきました。今こそ、このような問題に教師なしの方法で取り組むべき時です。

協調フィルタリングと行列分解に長い時間を要する大規模な推奨システムを構築していると想像してください。最初のアイデアはクラスタリングです。

ビジネスの初期段階では、事前のユーザー分類が不足していることが多く、クラスタリングが最適な方法です。

しかし、クラスタリングを単独で使用した場合、実際にはユーザーのグループを識別し、このグループ内のすべてのユーザーに同じものを推奨することになるため、クラスタリングは少し弱くなります。十分なデータがある場合は、最初のステップとしてクラスタリング手法を使用する方がよいでしょう。これにより、協調フィルタリング アルゴリズムで関連する近傍の選択を減らすことができます。複雑な推奨システムのパフォーマンスも向上します。

各クラスターには、そのクラスターに属するユーザーの好みに基づいて代表的な好みが割り当てられます。クラスター内の各ユーザー セットには、クラスター レベルで計算された推奨事項が送信されます。

レコメンデーションシステムのためのディープラーニング手法

過去 10 年間で、ニューラル ネットワークの開発は大きく進歩しました。現在、さまざまなアプリケーションで使用されており、従来の機械学習手法に徐々に取って代わっています。以下では、YouTube でディープラーニング手法がどのように使用されているかを示します。

言うまでもなく、このようなサービスのためのレコメンデーション システムを構築することは、その規模の大きさ、常に変化するコーパス、そしてさまざまな観測不可能な外部要因のため、非常に困難な作業です。

「YouTube 推奨システム向けディープ ニューラル ネットワーク」に関する関連研究によると、YouTube 推奨システム アルゴリズムには、ニューラル ネットワークの 2 つの部分が含まれています。1 つは候補生成用、もう 1 つはソート用です。時間が足りない場合は、ここで簡単に要約します。

候補生成ネットワークは、ユーザーの履歴を入力として使用することで、ビデオの数を大幅に削減し、大規模なコーパスから最も関連性の高いビデオのセットを選択できます。生成された候補セットはユーザーにとって最も関連性が高く、このニューラル ネットワークの目的は、協調フィルタリングを通じて幅広いパーソナライゼーション サービスを提供することです。

このステップでは、ユーザーのニーズに近い候補結果の数が少なくなります。私たちの現在の目標は、最善の決定を下せるよう、すべての候補者を慎重に分析することです。このタスクはランキング ネットワークによって実行され、ビデオを説明するデータとユーザーの行動に関する情報を使用する目的関数に従って各ビデオにスコアを割り当てます。

2 段階のアプローチを使用すると、大規模なビデオ コーパスからビデオを推奨できますが、これらの推奨のうち、パーソナライズされ、実際にユーザーによって適用されるのはごくわずかであることが確実です。この設計により、他のリソースによって生成された結果とこれらの候補結果を混在させることもできます。

推奨タスクは、極端な多クラス分類問題のようなもので、予測問題は、特定の時間 t におけるユーザー (U) とコンテキスト (C) に基づいて、コーパス (V) 内の何百万ものビデオの中から特定のビデオ (wt) をクラス (i) に正確に分類する問題になります。

独自の推奨システムを作成する前に注意すべき重要なポイント:

  • 大規模なデータベースがあり、それをオンライン推奨に使用したい場合、この問題を 2 つのサブ問題に分割するのが最適です。1) 上位 N 個の候補結果を選択する、2) それらをランク付けする。
  • モデルの品質をどのように測定しますか?標準化された品質指標に加えて、推奨問題に関する特定の指標として、Recall@k、Precision@k などがあります。推奨システムの最もわかりやすい指標を確認することもできます。
  • 分類アルゴリズムを使用して推奨問題を解決する場合は、ネガティブサンプルの生成を検討する必要があります。ユーザーが推奨アイテムを購入した場合、それをポジティブサンプルとして追加したり、残りをネガティブサンプルとして扱ったりしないでください。
  • アルゴリズムの品質のオンラインとオフラインのスコアリングを検討してください。過去のデータのみでトレーニングされたモデルは、アルゴリズムが将来の新しいトレンドや好みに関する知識を持たないため、単純な推奨事項を生成する可能性があります。

<<:  【WOTI】English FluencyのLin Hui氏:教育分野でのAIはまだ初期段階にある

>>:  機械学習は増加傾向にありますが、そのアルゴリズムの結果は公正なのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

数学モデルが人間の視覚の秘密を解き明かす

人間の視覚はどのように発達するのでしょうか?今日に至るまで、それは謎のままです。脳の視覚系は、世界自...

5G、AI、IoTが「インテリジェントな接続」を実現する方法

5G、人工知能(AI)、モノのインターネット(IoT)技術の発展により、あらゆるものがインテリジェン...

AIが高収入の仕事を生み出すと同時に仕事を代替できる理由

自動化、特に人工知能とロボット工学の進歩が、今日の労働者にとって問題となるかどうか。この議論は毎日繰...

データ分析技術:エッジ人工知能の応用

私たちが SF の世界に引き込まれると、人工知能と機械学習 (AI/ML) の概念は、映画「マトリッ...

銀行における会話型 AI – 企業が犯しがちな 3 つの間違い

金融サービス業界は、特定の金融プロセスに不可欠なレガシー機器やシステムを使用しているため、他の業界に...

ブロックチェーン、人工知能…革新的なコンセプトを利用して投資家を混乱させる違法金融にご注意

[[337468]]最近、上海検察院は2019年金融検察白書を発表し、現在の金融犯罪事件を整理・分析...

深海か青い海か?自律型水中ロボットが急速に発展

科学技術の継続的な発展と革新が生産性の継続的な進歩を推進しています。産業革命以来、機械化された作業は...

AI がどのようにして人々に結婚や勉強をするように説得できるかを見てみましょう。

[[361065]]いたずら好きな老人の周伯同は、黄耀師によって桃花島に十数年閉じ込められていまし...

...

予測分析の 4 つの業界における用途

[[436125]]画像ソース: https://pixabay.com/images/id-602...

国際研究機関:アリババの音声AIが中国でトップに

7月14日、国際的に権威のある調査機関IDC(International Data Corporat...

ベストプラクティスを実際のデザインパターンに抽象化することはできますか?機械学習

機械学習におけるデザインパターン定義上、デザイン パターンは一般的な問題に対する再利用可能なソリュー...

ハーバード大学の新しい研究がサイエンス誌の表紙を飾る:この機械式外骨格は「軽量」なショートパンツだ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Apple: 画像モデルの事前トレーニングに言語モデルの自己回帰アプローチを使用する

1. 背景GPTなどの大規模モデルの登場後、言語モデルのTransformer +自己回帰モデリング...