推薦システムに関する6つの衝撃的な「秘密」

推薦システムに関する6つの衝撃的な「秘密」

1990年代にレコメンドシステムが誕生して以来、2024年時点で32年の開発の歴史があります。過去数十年にわたる開発の中で、さまざまなインターネット企業やテクノロジー企業が何百万もの推奨システム モデルを立ち上げてきました。レコメンデーションシステムは2012年から2014年にかけて開発が停滞したものの、KuaishouやByteDanceなどの新興企業によってすぐに反転し、再び注目の技術となった。浅い学習、深い学習を経て、現在では、公平性や順次的な推奨など、推奨システムの研究方向は多様化しています。

推奨システムには、初期の浅い学習アルゴリズムである協調フィルタリングから、行列分解や線形モデル、そしてディープラーニングやシーケンス推奨まで、数多くの古典的なアルゴリズムがあります。各開発期間では、いくつかのマイルストーンアルゴリズムが勝者になるという現象が見られました。レコメンデーションシステムの技術は非常に成熟していますが、私たちが普段注目していない知識はあるのでしょうか?言わないけど、それは本当だよ。信じられないなら、この記事を読んでください:

1. 何ですか?私のデータ セットでは協調フィルタリングが機能しない可能性はありますか?

はい、可能です。 2023年に開催された国際学術会議CECNet 2023で、研究者らが「協調フィルタリングは嘘かホントか?ドメインの形状次第」と題する論文を発表しました。この論文では、協調フィルタリングが特定のデータ セットでは機能しない可能性があることを指摘しています。

著者らはまず、類似性行列から導出された距離行列を使用して、次元削減アルゴリズムを使用してユーザー間の関係を 2 次元空間にマッピングします。次に、ポイント i で、ポイント i の座標に端がある N 個 (N はユーザー i に類似するユーザーの数) のベクトルを定義します。各ベクトルは (Sim(i,j)-C、Sim(i,j)-C) です。ここで、Sim(i,j) はユーザー i とユーザー j の類似度、C は任意の実数です。

推奨システムの予測評価が実数であるという事実に基づいて、これらの離散点の間には他にも多くの点があり、定義したベクトル場が有効であると考えられます。

ポアンカレ・ホップの定理によれば、有向コンパクト多様体上にベクトル場が定義されている場合、このベクトルの零点の数は多様体自体のオイラー特性のみに依存し、ベクトル場自体とは関係ありません。したがって、特定のプロパティを満たすように縮小した 2 次元空間データ セットの場合、協調フィルタリング アルゴリズムは有効ではありません。驚きましたか?驚きましたか?

2. 何ですか?行列分解アルゴリズムの事前確率はガウス分布ではないのですか?

はい、行列分解アルゴリズムの事前確率はガウス分布ではなく、円錐分布です。

研究者らは、国際学術会議CAMMIC 2023で「行列分解ベースのレコメンデーションシステムのパラメータ空間の分析と可視化」と題する論文を発表した。彼らは、行列分解アルゴリズムにおけるユーザーベクトル行列とアイテムベクトル行列に対してHenze-Zirkler検定を実施し、行列分解アルゴリズムにおけるユーザーベクトルとアイテムベクトルの事前分布がガウス分布ではないことを発見した。次に著者はこれらのベクトルを視覚化し、次の図を得ました。

図1 ユーザーベクトル分布

図2 項目ベクトル分布

視覚化結果を観察し、論理分析を実行すると、行列分解アルゴリズムの事前確率はガウス分布ではなく円錐分布であるという結論に達します。

3. 何ですか?推奨システムの評価データのロングテール現象は、ポアソン過程を使用してモデル化できますか?

はい、できます。推奨システムのユーザー評価は、次の関係を通じてモデル化できます。これを推奨システムにおける Zipf 分布と呼びます。

例えば。映画評価ウェブサイトでは、5 つ星の評価を持つ映画には 5 つの評価があり、4 つ星の評価を持つ映画には 4 つの評価があります... 非同次ポアソン過程を使用してユーザーの評価動作をモデル化すると、方程式を解くことで Zipf 分布を満たすソリューションを得られることがわかりました。

2023年に開催された国際学術会議CAMMIC 2023で、研究者らは「オンライン評価プラットフォームのデータ構造の進化とレコメンデーションシステムへの影響」と題する論文を発表し、モデリングのプロセスを詳細に説明した。

4. 何ですか?推奨システムは、データをまったく使用せずにコールド スタートの問題を解決できますか?

推奨システムにおけるコールドスタート問題は常に難しい問題でした。従来のソリューションは、転移学習/メタ学習またはホットトピックの推奨にすぎません。しかし、2021年から2023年にかけて、ZeroMat、DotMat、RankMat、PoissonMat、LogitMatといった、転移学習/メタ学習を必要とせずに推奨システムのコールドスタートを解決する一連のゼロショット学習アルゴリズムが登場しました。これらのアルゴリズムはすべて、例外なく、データの使用を必要とせず、全量のデータを使用する行列分解アルゴリズムに匹敵する結果を達成できます。

以下に、LogitMat の元の論文からの実験データ (MovieLens 1 Million Dataset) の 2 つの画像を示します。

図3 MAE比較実験

図4 公平性の比較実験

実験結果を観察すると、これらのアルゴリズムはすべて完全なサンプル アルゴリズムに匹敵するか、さらに優れた結果を達成できることがわかりました。

5.何ですか?行列分解 + 正則化により、MovieLens データセットで MAE 0.6 を達成できますか?

はい、できます。推奨システムの実践者は、MovieLens データセットを使用してアルゴリズムをテストすることを特に好みますが、歴史的にアルゴリズムの MAE 値は通常 0.7 ~ 0.8 の間です。実際、正則化項のペナルティ関数の定義を変更するだけで、MAE を 0.6 まで減らすことができます。研究者が正規化項を変更することで行列分解アルゴリズムを最適化する方法を見てみましょう。

確率的勾配降下法で損失関数 L を解くと、次の式が得られます。

MovieLens Small Dataset で実験を行ったところ、行列分解の正規化項を変更することで MAE を 0.62 に削減できることがわかりました。

図3 MAE比較実験 図4 公平性比較実験

この新しい正規化手法の詳細については、学術論文「Theoretically Accurate Regularization Technique for Matrix Factorization based Recommender Systems」を参照してください。

6. 何ですか?推奨システムの結果はこのように視覚化できますか?

はい、レコメンデーションシステムを視覚化できます。ここでは、Takens Embedding という 1 つの例のみを示します。ここでは、Takens Embedding の詳細については説明しません。ここでは、Takens Embedding を使用して推奨システムの MAE 曲線の次元を増やし、推奨システムを視覚化する方法を示す 3 つの図のみを示します。具体的な技術的な詳細については、学術論文「レコメンデーション システムの効果的な視覚化と分析」を参照してください。

図 5 MAE @ 1D

図 6 MAE @ 2D

図 7 MAE @ 3D

図 5、6、7 は、1D、2D、3D 空間における MAE 曲線のさまざまな状況を示しています。 2D および 3D 空間のエラー ポイント クラウドは、MAE の特定の状況をより適切に反映できます。

推奨システムは長年にわたって開発されてきましたが、私たちは今でも日々多くの新たな課題に直面しています。数え切れないほど多くの新しいテクノロジーや新製品が登場し、私たちの知識システムに影響を与えています。したがって、私たちは常に若さと意欲を持ち続け、時代の波の中で負けない競争上の優位性を維持する必要があります。

著者について

Funplus人工知能研究所の元所長、王浩氏。彼は、ThoughtWorks、Douban、Baidu、Sina などの企業で技術職および技術幹部職を歴任しました。彼はインターネット企業、金融テクノロジー、ゲーム企業などの分野で12年間働いており、人工知能、コンピューターグラフィックス、ブロックチェーンなどの分野で深い洞察力と豊富な経験を持っています。国際学術会議やジャーナルに42本の論文を発表し、IEEE SMI 2008 Best Paper Award、ICBDT 2020 / IEEE ICISCAE 2021 / AIBT 2023 Best Paper Report Awardを受賞。

<<:  スマート充電インフラ: 電気自動車の充電における人工知能の貢献

>>:  人工知能を活用するメリットと課題

ブログ    

推薦する

AIの実践、Pythonを使って自動運転を体験しよう!

設置環境Gym は、強化学習アルゴリズムの開発と比較のためのツールキットです。gym ライブラリとそ...

...

AI の可能性を最大限に引き出す: 企業での導入を成功させる 5 つの鍵

ビジネスとテクノロジーに関心のある人なら誰でも、AI がすでに業界や日常生活に大きな変化をもたらして...

...

サッカーボールとハゲ頭の区別がつかないAIがプレミアリーグのファンにまたもや嫌われる

スポーツにおける AI はどの程度信頼できないのでしょうか?先月、スコットランドサッカー選手権の試合...

ブロックチェーンと機械学習はどのようにして最も強力な人工知能を生み出すのでしょうか?

ブロックチェーン市場のデータに基づいて機械学習モデルをトレーニングすることで、世界で最も影響力のある...

TensorFlow を使用してロボットに音楽を作曲する方法を教えるにはどうすればよいでしょうか?秘密はこれです

今日はAIがどのように音楽を作曲するのかを見ていきたいと思います。この記事では、TensorFlow...

[NCTSサミットレビュー] Rong360 Ai Hui: AIモデルテストの秘密を探る

2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...

...

データサイエンスのための Python: ニューラル ネットワーク

人工ニューラル ネットワーク (ANN) は、数学的および物理的な方法を使用して人間の脳のニューラル...

人工知能が医療画像をどのように変えるか AI は医療画像の世界における第二の目となる

人工知能は多くの分野に影響を及ぼしています。しかし、いくつかの大きな変化が起こっており、その 1 つ...

量子コンピューティング OpenAI が登場?元Google社員3人のチームが、物理学の限界に挑戦するAIコンピューティングチップを開発するために1億人民元を調達

生成型 AI の時代では、コンピューティング能力が技術開発の限界となっていることは明らかです。 Nv...

国内外のオープンソースモデルを競うLlama-2の初の総合評価

2023年7月を迎え、大規模言語モデル(LLM)の開発は新たな段階に入り、オープンソースが話題になっ...

興味深い AI アルゴリズムをいくつかお勧めします。とても面白いです!

デュアルスタイルGAN高解像度のポートレートスタイル転送アルゴリズム​DualStyleGAN​​ ...

ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

注目すべき傾向は、印象的な言語出力を生成できる、数百億/数千億のパラメータを備えた、より大規模で複雑...