ゼロベース科学の普及: 4 つのシンプルな推奨アルゴリズムの背後にある原理

ゼロベース科学の普及: 4 つのシンプルな推奨アルゴリズムの背後にある原理

[[402797]]

この記事はWeChatのパブリックアカウント「Big Data DT」から転載したもので、著者はLi Zhihuiです。この記事を転載する場合は、Big Data DT パブリックアカウントにご連絡ください。

ビッグデータ プラットフォームは、データの取得、保存、計算、および適用に関する技術的なソリューションのみを提供します。これらのデータ間の関係性を真に調査し、データを価値あるものにするのは、さまざまな機械学習アルゴリズムです。これらのアルゴリズムの中で最も一般的なのは、インテリジェント推奨アルゴリズムです。いくつかの簡単な推奨アルゴリズムを通して、推奨アルゴリズムの背後にある原理を見てみましょう。

私たちが Taobao で買い物をしたり、Toutiao でニュースを読んだり、Douyin で短い動画を視聴したりするとき、その背後には実はインテリジェントな推奨アルゴリズムが存在します。これらのアルゴリズムは、私たちのショッピングの好みや閲覧習慣を継続的に分析して計算し、私たちが好みそうな製品、記事、ビデオを推奨します。これらの商品の推奨アルゴリズムは非常にスマートかつ効率的なので、Taobao を開くとすぐに購入し続けてしまい、Douyin を開くと止まらなくなることがよくあります。

01 人口統計に基づいた推奨事項

人口統計に基づく推奨は、図 1 に示すように、ユーザーの基本情報に基づいてユーザーを分類し、類似するユーザーに製品を推奨する比較的単純な推奨アルゴリズムです。

▲図1 人口統計に基づく推奨アルゴリズム

ユーザーAとユーザーCは年齢も性別も近いため、同じカテゴリに分類できます。ユーザー A は製品 D を気に入っているため、ユーザー C もこの製品が気に入っている可能性があると推測され、システムはこの製品をユーザー C に推奨できます。

図 1 の例は比較的単純ですが、実際には、推奨される製品をより正確にするために、ユーザーの収入、居住地域、教育レベル、職業などのさまざまな要素に応じてユーザーを分類する必要もあります。

02 製品属性に基づく推奨

製品属性に基づく推奨は、人口統計に基づく推奨と似ていますが、図 2 に示すように、製品が属性に応じて分類され、製品分類に基づいて推奨される点が異なります。

▲図2 製品属性に基づく推奨

映画 A と映画 D は​​どちらも SF 映画であり、戦争映画です。ユーザー A が映画 A を気に入った場合、映画 D も気に入る可能性が非常に高いため、映画 D をユーザー A に推奨できます。

これも私たちの常識と一致しています。バスケットボールに関するニュース記事を何本か続けて読んだ人に、別のバスケットボールのニュースを勧めると、興味を持って読む可能性が非常に高くなります。

03 ユーザーベースの協調フィルタリング推奨

ユーザーベースの協調フィルタリング推奨は、図 3 に示すように、ユーザーを好みに応じて分類し、そのユーザー分類に基づいて推奨を行うというものです。

▲図3 ユーザーベースの協調フィルタリング推奨

この例では、ユーザー A とユーザー C は両方とも製品 A と製品 B を気に入っており、好みに基づいて同じカテゴリに分類できます。ユーザー A も製品 D を気に入っているため、製品 D がユーザー C に推奨された場合、ユーザー C もそれを気に入る可能性があります。

現実には、私たちと同じような興味や趣味を持つ人は、私たちの仲間として扱われることが多く、私たちは彼らが好む他の物事にも喜んで挑戦します。

04 製品ベースの協調フィルタリング推奨

製品ベースの協調フィルタリング推奨は、図 4 に示すように、ユーザーの好みに応じて製品を分類し、製品分類に基づいて推奨を行うことです。

▲図4 製品に基づく協調フィルタリングの推奨

この例では、製品 B を好むユーザー A とユーザー B は両方とも製品 D を好むため、製品 B と製品 D は同じカテゴリに分類できます。製品 B を気に入っているユーザー C は、製品 D も気に入っている可能性が高いため、製品 D をユーザー C に推奨できます。

ここで説明する推奨アルゴリズムは比較的単純です。実際、適切な推薦をするのは非常に困難です。ユーザーは何かを好きだと思われたいのではなく、自分が好きだと思われたいのです。現実には、多くのインテリジェントな推奨はあまり効果的ではなく、ユーザーから「人工的な愚かさ」として苦情が寄せられています。推奨アルゴリズムの最適化には、ユーザーからのフィードバックの継続的な収集、アルゴリズムの継続的な反復、およびデータのアップグレードが必要です。

著者について: Li Zhihui 氏は、Tongcheng Travel Transportation のシニア アーキテクチャ エキスパート兼チーフ アーキテクトです。NEC、Alibaba、Intel などの有名企業でアーキテクトとして働いたほか、WiFi Master Key などの企業で CTO を務めたこともあります。長年にわたりビッグデータや大規模ウェブサイトのアーキテクチャと研究開発に携わり、1日あたり1,000万人以上のアクティブユーザーを抱える複数のインターネットシステムアーキテクチャの設計を主導し、豊富な実務経験を持っています。彼は、Web サーバー ファイアウォール、分散 NoSQL システム、ビッグ データ ウェアハウス エンジン、リアクティブ プログラミング フレームワークなど、さまざまな種類のソフトウェア システムを設計および開発してきました。

この記事は『建築家の自己啓発:テクノロジー、建築、そして未来』から抜粋したもので、出版社の許可を得ています。

<<:  カイト・ランナーがドローンに出会ったとき...

>>:  パンデミックにより、AI のステータスは「欲しいもの」から「必須のもの」に変化したのでしょうか?

ブログ    
ブログ    

推薦する

Baidu の最新の IDL 成果: 自然言語から始めて、AI エージェントに人間のように学習することを教える

AI は驚異的な進歩を遂げていますが、多くの分野ではまだ限界があります。たとえば、コンピューター ゲ...

...

データ詐欺師はどこにでもいる。いわゆる「万能薬」を暴く方法

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

生成AIを精密コーディングに活用する方法

生成型人工知能 (GenAI) はテクノロジー分野に大きな影響を与えており、その変革の可能性は現在ソ...

AI Eyes: テクノロジーを活用して予防可能な失明をなくす

暗い世界に生きる自分を想像してみてください。人生の大半を目が見えている状態で過ごし、ある日突然失明し...

リアルタイムデータ同期ソリューション: Java 開発者向け MySQL CDC テクノロジー

インターネットとビッグデータ時代の到来により、リアルタイムのデータ同期は多くの企業が直面する課題とな...

AIは生体認証のなりすまし攻撃を簡単に見分けることができる

研究論文によると、写真が実際に生きている人物を写したものか、それとも攻撃のデモンストレーションなのか...

「AI論文のオープンソースコードの義務化に反対する理由」

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

大規模モデルは知識グラフを効率的に作成するのに役立ちます

著者 | 崔昊レビュー | Chonglouまとめこの記事では、ナレッジ グラフと大規模言語モデルを...

...

OpenAI、中小企業向けChatGPTチームサブスクリプションサービスを開始、月額料金は1人あたり30ドル

1 月 11 日、OpenAI は小規模なセルフサービス チーム専用の新しいサブスクリプション プラ...

...

DataVault ソフトウェアの AES-1024 暗号化アルゴリズムに対する実際の攻撃

研究者らは、DataVault ソフトウェアで使用されている AES-1024 が破られる可能性があ...

[ディープラーニングシリーズ] PaddlePaddleとTensorflowによる画像分類

先月は、ディープラーニングにおける「Hello World」であるMNIST画像認識を中心に、畳み込...