データ分析を使用して協調フィルタリングアルゴリズムの2つの一般的な問題を定量化する

データ分析を使用して協調フィルタリングアルゴリズムの2つの一般的な問題を定量化する

[51CTO.com からのオリジナル記事] 推奨システムは登場以来、さまざまな商用製品の問題を解決し、インターネット実践者の大多数に深く愛されています。 AlibabaやJD.comのような伝統的なインターネット電子商取引企業はすでに推奨システムを自社のコア技術資産の1つとみなしており、ToutiaoやTikTokのような新興インターネット製品も長い間推奨システムを自社の技術の基盤とみなしてきました。しかし、推奨システムの開発が急速に進む中、推奨システムにはいくつかの技術的な課題や困難が常に残っています。

アルゴリズムを最適化するプロセスにおいて、エンジニアは常にデータの分析を重視し、アルゴリズムのパフォーマンスをさらに向上させます。しかし、現在、業界にはデータ分析のための包括的かつ体系的な方法論が存在せず、これが長年の課題となっています。 2018 年に成都で開催された ICCCBDA 2018 カンファレンスでは、「レコメンデーション システムにおけるマシュー効果とスパース性問題の定量分析」と題する論文が発表されました。この論文では、協調フィルタリング アルゴリズムにおける 2 つの一般的な問題であるマシュー効果とスパース性問題を正確に定量化しようと試みられました。

協調フィルタリングは、推奨システムの最も基本的な方法です。現在、推奨システムは DeepFM などのさまざまなディープラーニング アルゴリズムによって支配されていますが、いくつかの基本的な推奨システム手法は依然としてベースライン ツールとして使用されています。また、ディープラーニング機能を持たない企業では、協調フィルタリングが依然として人気のアルゴリズムとなっています。

協調フィルタリングには 2 つの主な課題があります。1 つはマシュー効果であり、もう 1 つはデータのスパース性の問題です。マシュー効果とは、協調フィルタリングの類似度計算において、あるアイテムに類似するアイテムの数が極めて多く、そのアイテムがすべてのアイテムに影響を与えることを指します。さらに、マシュー効果によりデータ分散が不均一になり、MapReduce 計算プロセスの非効率性が直接的に生じます。データスパース性の問題とは、一部のユーザーに対応するアイテムが少なすぎる、または一部のアイテムに対応するユーザーが少なすぎるために、アルゴリズムの計算結果のカバー率が非常に低くなることを指します。研究コミュニティと業界コミュニティは、これら 2 つの問題を解決するためにさまざまなアルゴリズムを提案してきました。しかし、ICCCBDA 2018 の論文以前には、データ分析とアルゴリズムのさらなる最適化を容易にするために、これらの 2 つの問題を数式で明示的に定量化した人は誰もいませんでした。

著者らは、類似度の期待値を使用して協調フィルタリングにおけるマシュー効果を測定し、類似度計算における関連ユーザー/アイテムの数を使用して協調フィルタリングにおけるスパース性問題を測定します。推薦システムの適用シナリオは主にロングテールアイテムであるため、著者はアイテムの分布がジップの法則、つまり人気度が i 位のアイテムの分布比率が 1/i であると仮定します。組み合わせ数学の方法を使用すると、一連の式を得ることができます。導出プロセスは論文に詳細に記述されています。最終的な導出結果は次のとおりです。

ユーザーベースの協調フィルタリングのマシュー効果に関しては、ユーザー A とユーザー B の平均期待値は次のようになります。

アイテムベースの協調フィルタリングのマシュー効果に関しては、ユーザー A とユーザー B の平均期待値は次のようになります。

ユーザーベースの協調フィルタリングのスパース性の問題を考慮すると、類似度の計算に関係するアイテムの予想数は次のようになります。

アイテムベースの協調フィルタリングのスパース性の問題を考慮すると、類似度の計算に関係するアイテムの予想数は次のようになります。

次に著者は導出された式を検証するために実験を行った。

上の図は、実際のデータセット LastFM におけるアイテムベースの協調フィルタリングのスパース性の分布を示しており、基本的には式の Matthew 効果と一致しています。

この記事の数式導出プロセスとデータ分析の全体的な考え方は複雑ではありません。主な貢献は、*** がマシュー効果と推奨システムのデータスパース性を定量化する方法を提案し、これら 2 つの問題を体系的に解決できるようにしたことです。

[[264083]]

ブロックチェーン企業の科学者であり、恒昌利通のビッグデータ部門の元責任者である王昊氏は、ユタ大学で学士号/修士号を取得しています。百度、新浪、網易、豆瓣などの企業で長年の研究開発と技術管理の経験があります。機械学習、ビッグデータ、推奨システム、ソーシャルネットワーク分析などの技術に長けています。 TVCGやASONAMなどの国際会議やジャーナルに10本の論文を発表している。私の学部論文は 2008 IEEE SMI *** 論文賞を受賞しました。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  孫正義氏:今後 30 年の人工知能と IoT(詳細記事)

>>:  分散トレーニング入門: PyTorch を使用してマルチ GPU 分散トレーニングを実装する方法

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

新しい小売業界における人工知能の応用

インターネットの急速な発展に伴い、伝統的なオフライン小売チャネルは弱体化の兆候を見せ始めており、中国...

アート業界におけるメタバースの探究

メタバースの概念がますます普及するにつれて、さまざまな業界がこの豊かな土地を探索し始めました。多くの...

...

...

RSAは暗号化アルゴリズムへのバックドアの追加を否定

米国のセキュリティサービスプロバイダーRSAは昨日、同社が米国国家安全保障局(NSA)と協力して暗号...

Google Bard「叙事詩」アップデート:カスタマイズされた中国語サービス、画像分析機能を公開

今年3月、Googleは生成AI「Bard」のベータ版のリリースを発表しました。当時、このバージョン...

スマートテクノロジーが現代のビジネス運営を強化する7つの方法

スマート テクノロジーは、あらゆる業界の企業に無限のチャンスをもたらします。小さな変更でも、企業を完...

2歳、1年半の教育経験:赤ちゃんAIトレーナーがサイエンスに登場

チューリング賞受賞者のヤン・ルカン氏は、公開インタビューで、現在のAIモデルの学習効率は人間の赤ちゃ...

AI分野 | ゲームのルールを変える画期的なアイデア10選

[[357137]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

...

人工知能について - AIに関するあまり知られていない事実

人工知能(AI)は60年前の1956年の夏に誕生しました。今日の科学技術の発展により、人工知能は人間...

AI時代に医療データの品質が重要な理由

効果的な医療データ分析においては、データの品質は主観的なものになります。データから得られる情報の正確...

ビッグデータの機械理解の秘密:クラスタリングアルゴリズムの詳細な説明

この記事では、いくつかのクラスタリング アルゴリズムの基本的な概要を示し、シンプルでありながら詳細な...

AIは機械設計にどのような影響を与えるのでしょうか?

人工知能は現在、ますます広く利用されるようになっています。ほとんどの場合、堅牢で適応性の高い AI ...

私、シュシュもVRヘッドセットを持っています!コーネル大学の研究者らがマウスの頭蓋骨を開き、脳と行動の没入型研究を行っている。

最近、マウスの世界でも仮想現実の時代が到来しました。はい、すべての人間が VR ヘッドセットを持って...