データ分析を使用して協調フィルタリングアルゴリズムの2つの一般的な問題を定量化する

データ分析を使用して協調フィルタリングアルゴリズムの2つの一般的な問題を定量化する

[51CTO.com からのオリジナル記事] 推奨システムは登場以来、さまざまな商用製品の問題を解決し、インターネット実践者の大多数に深く愛されています。 AlibabaやJD.comのような伝統的なインターネット電子商取引企業はすでに推奨システムを自社のコア技術資産の1つとみなしており、ToutiaoやTikTokのような新興インターネット製品も長い間推奨システムを自社の技術の基盤とみなしてきました。しかし、推奨システムの開発が急速に進む中、推奨システムにはいくつかの技術的な課題や困難が常に残っています。

アルゴリズムを最適化するプロセスにおいて、エンジニアは常にデータの分析を重視し、アルゴリズムのパフォーマンスをさらに向上させます。しかし、現在、業界にはデータ分析のための包括的かつ体系的な方法論が存在せず、これが長年の課題となっています。 2018 年に成都で開催された ICCCBDA 2018 カンファレンスでは、「レコメンデーション システムにおけるマシュー効果とスパース性問題の定量分析」と題する論文が発表されました。この論文では、協調フィルタリング アルゴリズムにおける 2 つの一般的な問題であるマシュー効果とスパース性問題を正確に定量化しようと試みられました。

協調フィルタリングは、推奨システムの最も基本的な方法です。現在、推奨システムは DeepFM などのさまざまなディープラーニング アルゴリズムによって支配されていますが、いくつかの基本的な推奨システム手法は依然としてベースライン ツールとして使用されています。また、ディープラーニング機能を持たない企業では、協調フィルタリングが依然として人気のアルゴリズムとなっています。

協調フィルタリングには 2 つの主な課題があります。1 つはマシュー効果であり、もう 1 つはデータのスパース性の問題です。マシュー効果とは、協調フィルタリングの類似度計算において、あるアイテムに類似するアイテムの数が極めて多く、そのアイテムがすべてのアイテムに影響を与えることを指します。さらに、マシュー効果によりデータ分散が不均一になり、MapReduce 計算プロセスの非効率性が直接的に生じます。データスパース性の問題とは、一部のユーザーに対応するアイテムが少なすぎる、または一部のアイテムに対応するユーザーが少なすぎるために、アルゴリズムの計算結果のカバー率が非常に低くなることを指します。研究コミュニティと業界コミュニティは、これら 2 つの問題を解決するためにさまざまなアルゴリズムを提案してきました。しかし、ICCCBDA 2018 の論文以前には、データ分析とアルゴリズムのさらなる最適化を容易にするために、これらの 2 つの問題を数式で明示的に定量化した人は誰もいませんでした。

著者らは、類似度の期待値を使用して協調フィルタリングにおけるマシュー効果を測定し、類似度計算における関連ユーザー/アイテムの数を使用して協調フィルタリングにおけるスパース性問題を測定します。推薦システムの適用シナリオは主にロングテールアイテムであるため、著者はアイテムの分布がジップの法則、つまり人気度が i 位のアイテムの分布比率が 1/i であると仮定します。組み合わせ数学の方法を使用すると、一連の式を得ることができます。導出プロセスは論文に詳細に記述されています。最終的な導出結果は次のとおりです。

ユーザーベースの協調フィルタリングのマシュー効果に関しては、ユーザー A とユーザー B の平均期待値は次のようになります。

アイテムベースの協調フィルタリングのマシュー効果に関しては、ユーザー A とユーザー B の平均期待値は次のようになります。

ユーザーベースの協調フィルタリングのスパース性の問題を考慮すると、類似度の計算に関係するアイテムの予想数は次のようになります。

アイテムベースの協調フィルタリングのスパース性の問題を考慮すると、類似度の計算に関係するアイテムの予想数は次のようになります。

次に著者は導出された式を検証するために実験を行った。

上の図は、実際のデータセット LastFM におけるアイテムベースの協調フィルタリングのスパース性の分布を示しており、基本的には式の Matthew 効果と一致しています。

この記事の数式導出プロセスとデータ分析の全体的な考え方は複雑ではありません。主な貢献は、*** がマシュー効果と推奨システムのデータスパース性を定量化する方法を提案し、これら 2 つの問題を体系的に解決できるようにしたことです。

[[264083]]

ブロックチェーン企業の科学者であり、恒昌利通のビッグデータ部門の元責任者である王昊氏は、ユタ大学で学士号/修士号を取得しています。百度、新浪、網易、豆瓣などの企業で長年の研究開発と技術管理の経験があります。機械学習、ビッグデータ、推奨システム、ソーシャルネットワーク分析などの技術に長けています。 TVCGやASONAMなどの国際会議やジャーナルに10本の論文を発表している。私の学部論文は 2008 IEEE SMI *** 論文賞を受賞しました。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  孫正義氏:今後 30 年の人工知能と IoT(詳細記事)

>>:  分散トレーニング入門: PyTorch を使用してマルチ GPU 分散トレーニングを実装する方法

ブログ    
ブログ    

推薦する

...

ディープラーニングと機械学習の違いを理解する

機械学習とディープラーニングの違いは何だろうとよく疑問に思う方は、この記事を読んで、その違いを一般の...

機械学習と古典的なアルゴリズムの概念をわかりやすい言葉で説明しました。初心者必読

データ分野では、多くの人が機械学習について語っていますが、それが何であるかを明確に説明できる人はごく...

CPP アルゴリズム問題のための共通コンテナ技術

[[413003]]アルゴリズムの問​​題を解決するときに CPP でよく使用されるコンテナ テクニ...

12ページの線形代数ノートがGitHubのホットリストに掲載され、ギルバート・ストラングからの手書きの署名も受け取っている。

すでに誰かが線形代数の要点を描くのを手伝ってくれています。全12ページ、半分がイラストなので初心者で...

IoT、AI、ビッグデータが地球を救う方法

私たちは皆、モノのインターネット (IoT)、人工知能 (AI)、ビッグデータが業界の再編とビジネス...

...

コグニティブコンピューティングによる運用・保守は効果的でしょうか?

[51CTO.com からのオリジナル記事] 人工知能は最近とても人気があります。人々の焦点は、A...

人材に余裕がないわけではありませんが、AI 検査の方がコスト効率が良いのです。

著者 | Tu Chengyeレビュー | Chonglou石炭、電力、化学などの多くの産業では、安...

...

...

...

データ分析技術:エッジ人工知能の応用

私たちが SF の世界に引き込まれると、人工知能と機械学習 (AI/ML) の概念は、映画「マトリッ...

データサイエンスについて知っておくべきこと: 10 の重要な概念 + 22 のグラフ

01 バイアスと分散のトレードオフこれは、機械学習における最も重要な理論の中で常に上位にランクされ...