データ分析を使用して協調フィルタリングアルゴリズムの2つの一般的な問題を定量化する

データ分析を使用して協調フィルタリングアルゴリズムの2つの一般的な問題を定量化する

[51CTO.com からのオリジナル記事] 推奨システムは登場以来、さまざまな商用製品の問題を解決し、インターネット実践者の大多数に深く愛されています。 AlibabaやJD.comのような伝統的なインターネット電子商取引企業はすでに推奨システムを自社のコア技術資産の1つとみなしており、ToutiaoやTikTokのような新興インターネット製品も長い間推奨システムを自社の技術の基盤とみなしてきました。しかし、推奨システムの開発が急速に進む中、推奨システムにはいくつかの技術的な課題や困難が常に残っています。

アルゴリズムを最適化するプロセスにおいて、エンジニアは常にデータの分析を重視し、アルゴリズムのパフォーマンスをさらに向上させます。しかし、現在、業界にはデータ分析のための包括的かつ体系的な方法論が存在せず、これが長年の課題となっています。 2018 年に成都で開催された ICCCBDA 2018 カンファレンスでは、「レコメンデーション システムにおけるマシュー効果とスパース性問題の定量分析」と題する論文が発表されました。この論文では、協調フィルタリング アルゴリズムにおける 2 つの一般的な問題であるマシュー効果とスパース性問題を正確に定量化しようと試みられました。

協調フィルタリングは、推奨システムの最も基本的な方法です。現在、推奨システムは DeepFM などのさまざまなディープラーニング アルゴリズムによって支配されていますが、いくつかの基本的な推奨システム手法は依然としてベースライン ツールとして使用されています。また、ディープラーニング機能を持たない企業では、協調フィルタリングが依然として人気のアルゴリズムとなっています。

協調フィルタリングには 2 つの主な課題があります。1 つはマシュー効果であり、もう 1 つはデータのスパース性の問題です。マシュー効果とは、協調フィルタリングの類似度計算において、あるアイテムに類似するアイテムの数が極めて多く、そのアイテムがすべてのアイテムに影響を与えることを指します。さらに、マシュー効果によりデータ分散が不均一になり、MapReduce 計算プロセスの非効率性が直接的に生じます。データスパース性の問題とは、一部のユーザーに対応するアイテムが少なすぎる、または一部のアイテムに対応するユーザーが少なすぎるために、アルゴリズムの計算結果のカバー率が非常に低くなることを指します。研究コミュニティと業界コミュニティは、これら 2 つの問題を解決するためにさまざまなアルゴリズムを提案してきました。しかし、ICCCBDA 2018 の論文以前には、データ分析とアルゴリズムのさらなる最適化を容易にするために、これらの 2 つの問題を数式で明示的に定量化した人は誰もいませんでした。

著者らは、類似度の期待値を使用して協調フィルタリングにおけるマシュー効果を測定し、類似度計算における関連ユーザー/アイテムの数を使用して協調フィルタリングにおけるスパース性問題を測定します。推薦システムの適用シナリオは主にロングテールアイテムであるため、著者はアイテムの分布がジップの法則、つまり人気度が i 位のアイテムの分布比率が 1/i であると仮定します。組み合わせ数学の方法を使用すると、一連の式を得ることができます。導出プロセスは論文に詳細に記述されています。最終的な導出結果は次のとおりです。

ユーザーベースの協調フィルタリングのマシュー効果に関しては、ユーザー A とユーザー B の平均期待値は次のようになります。

アイテムベースの協調フィルタリングのマシュー効果に関しては、ユーザー A とユーザー B の平均期待値は次のようになります。

ユーザーベースの協調フィルタリングのスパース性の問題を考慮すると、類似度の計算に関係するアイテムの予想数は次のようになります。

アイテムベースの協調フィルタリングのスパース性の問題を考慮すると、類似度の計算に関係するアイテムの予想数は次のようになります。

次に著者は導出された式を検証するために実験を行った。

上の図は、実際のデータセット LastFM におけるアイテムベースの協調フィルタリングのスパース性の分布を示しており、基本的には式の Matthew 効果と一致しています。

この記事の数式導出プロセスとデータ分析の全体的な考え方は複雑ではありません。主な貢献は、*** がマシュー効果と推奨システムのデータスパース性を定量化する方法を提案し、これら 2 つの問題を体系的に解決できるようにしたことです。

[[264083]]

ブロックチェーン企業の科学者であり、恒昌利通のビッグデータ部門の元責任者である王昊氏は、ユタ大学で学士号/修士号を取得しています。百度、新浪、網易、豆瓣などの企業で長年の研究開発と技術管理の経験があります。機械学習、ビッグデータ、推奨システム、ソーシャルネットワーク分析などの技術に長けています。 TVCGやASONAMなどの国際会議やジャーナルに10本の論文を発表している。私の学部論文は 2008 IEEE SMI *** 論文賞を受賞しました。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  孫正義氏:今後 30 年の人工知能と IoT(詳細記事)

>>:  分散トレーニング入門: PyTorch を使用してマルチ GPU 分散トレーニングを実装する方法

ブログ    
ブログ    
ブログ    

推薦する

マスク氏の最新インタビュー:自動運転、AI、テスラのヒューマノイドロボットについて

最近、世界一の富豪イーロン・マスク氏がTEDディレクターのクリス・アンダーソン氏が主催する独占インタ...

Java プログラミング スキル - データ構造とアルゴリズム「シーケンシャル バイナリ ツリー」

基本概念データストレージの観点から見ると、配列ストレージとツリーストレージは相互に変換できます。つま...

OpenAIがテキストから動画を生成するAIジェネレーター「Sora」をリリース

OpenAI が Sora をリリースし、テキストからビデオへの AI コンテンツ生成競争に参入。 ...

今後 20 年間で、人工知能ロボットが介護士に取って代わり、高齢者の世話をすることになり、介護士よりも信頼できる存在になるでしょう。

人工知能の発達により、数十年、あるいは12年後には、人々は介護者やロボットを使って高齢者の世話をする...

ロボティック・プロセス・オートメーションは小売業界の運営と成長にどのように役立ちますか?

利益率が圧迫されている中、ロボティック・プロセス・オートメーション (RPA) を導入することでコス...

スマートホームとは何ですか?そしてそれは必要ですか?

スマートホームのコンセプトを最も簡単に説明すると、それは家の自然な進化であるということです。スマート...

...

60年ぶり! AI が新しい抗生物質の最初のバッチを発見し、MIT の主要な研究が Nature に掲載されました。人類はスーパーバグとの戦いに希望を持っている

60年間、人類は抗生物質の研究において大きな進歩を遂げていません。しかし、このギャップはAIによって...

顔認識を行うときになぜ服を着なければならないのですか?

人工知能の応用として、顔認識技術は私たちの生活のあらゆる側面に浸透しています。本人認証には顔認識が必...

MITの新しい研究により、物体間の潜在的な関係性を理解し、AIが人間のように世界を「見る」ことが可能になった。

[[441262]]人々がシーンを観察するとき、通常はシーン内のオブジェクトとそれらの間の関係を観...

止まらないAIブームに一部の企業は慌てている

AMD は、世界中の IT リーダーを対象にした新しい調査の結果を発表し、多くのリーダーが最近の人工...

...

...

人工知能によるUAV戦闘能力の向上

[[282882]]リーパードローンつい最近、米国空軍は、リーパー無人航空機の製造元であるゼネラル・...

PubDef: パブリックモデルを使用した転送攻撃の防御

翻訳者 |ブガッティレビュー | Chonglou敵対的攻撃は、機械学習システムの信頼性とセキュリテ...