ゼロベース科学の普及: 4 つのシンプルな推奨アルゴリズムの背後にある原理

ゼロベース科学の普及: 4 つのシンプルな推奨アルゴリズムの背後にある原理

[[402797]]

この記事はWeChatのパブリックアカウント「Big Data DT」から転載したもので、著者はLi Zhihuiです。この記事を転載する場合は、Big Data DT パブリックアカウントにご連絡ください。

ビッグデータ プラットフォームは、データの取得、保存、計算、および適用に関する技術的なソリューションのみを提供します。これらのデータ間の関係性を真に調査し、データを価値あるものにするのは、さまざまな機械学習アルゴリズムです。これらのアルゴリズムの中で最も一般的なのは、インテリジェント推奨アルゴリズムです。いくつかの簡単な推奨アルゴリズムを通して、推奨アルゴリズムの背後にある原理を見てみましょう。

私たちが Taobao で買い物をしたり、Toutiao でニュースを読んだり、Douyin で短い動画を視聴したりするとき、その背後には実はインテリジェントな推奨アルゴリズムが存在します。これらのアルゴリズムは、私たちのショッピングの好みや閲覧習慣を継続的に分析して計算し、私たちが好みそうな製品、記事、ビデオを推奨します。これらの商品の推奨アルゴリズムは非常にスマートかつ効率的なので、Taobao を開くとすぐに購入し続けてしまい、Douyin を開くと止まらなくなることがよくあります。

01 人口統計に基づいた推奨事項

人口統計に基づく推奨は、図 1 に示すように、ユーザーの基本情報に基づいてユーザーを分類し、類似するユーザーに製品を推奨する比較的単純な推奨アルゴリズムです。

▲図1 人口統計に基づく推奨アルゴリズム

ユーザーAとユーザーCは年齢も性別も近いため、同じカテゴリに分類できます。ユーザー A は製品 D を気に入っているため、ユーザー C もこの製品が気に入っている可能性があると推測され、システムはこの製品をユーザー C に推奨できます。

図 1 の例は比較的単純ですが、実際には、推奨される製品をより正確にするために、ユーザーの収入、居住地域、教育レベル、職業などのさまざまな要素に応じてユーザーを分類する必要もあります。

02 製品属性に基づく推奨

製品属性に基づく推奨は、人口統計に基づく推奨と似ていますが、図 2 に示すように、製品が属性に応じて分類され、製品分類に基づいて推奨される点が異なります。

▲図2 製品属性に基づく推奨

映画 A と映画 D は​​どちらも SF 映画であり、戦争映画です。ユーザー A が映画 A を気に入った場合、映画 D も気に入る可能性が非常に高いため、映画 D をユーザー A に推奨できます。

これも私たちの常識と一致しています。バスケットボールに関するニュース記事を何本か続けて読んだ人に、別のバスケットボールのニュースを勧めると、興味を持って読む可能性が非常に高くなります。

03 ユーザーベースの協調フィルタリング推奨

ユーザーベースの協調フィルタリング推奨は、図 3 に示すように、ユーザーを好みに応じて分類し、そのユーザー分類に基づいて推奨を行うというものです。

▲図3 ユーザーベースの協調フィルタリング推奨

この例では、ユーザー A とユーザー C は両方とも製品 A と製品 B を気に入っており、好みに基づいて同じカテゴリに分類できます。ユーザー A も製品 D を気に入っているため、製品 D がユーザー C に推奨された場合、ユーザー C もそれを気に入る可能性があります。

現実には、私たちと同じような興味や趣味を持つ人は、私たちの仲間として扱われることが多く、私たちは彼らが好む他の物事にも喜んで挑戦します。

04 製品ベースの協調フィルタリング推奨

製品ベースの協調フィルタリング推奨は、図 4 に示すように、ユーザーの好みに応じて製品を分類し、製品分類に基づいて推奨を行うことです。

▲図4 製品に基づく協調フィルタリングの推奨

この例では、製品 B を好むユーザー A とユーザー B は両方とも製品 D を好むため、製品 B と製品 D は同じカテゴリに分類できます。製品 B を気に入っているユーザー C は、製品 D も気に入っている可能性が高いため、製品 D をユーザー C に推奨できます。

ここで説明する推奨アルゴリズムは比較的単純です。実際、適切な推薦をするのは非常に困難です。ユーザーは何かを好きだと思われたいのではなく、自分が好きだと思われたいのです。現実には、多くのインテリジェントな推奨はあまり効果的ではなく、ユーザーから「人工的な愚かさ」として苦情が寄せられています。推奨アルゴリズムの最適化には、ユーザーからのフィードバックの継続的な収集、アルゴリズムの継続的な反復、およびデータのアップグレードが必要です。

著者について: Li Zhihui 氏は、Tongcheng Travel Transportation のシニア アーキテクチャ エキスパート兼チーフ アーキテクトです。NEC、Alibaba、Intel などの有名企業でアーキテクトとして働いたほか、WiFi Master Key などの企業で CTO を務めたこともあります。長年にわたりビッグデータや大規模ウェブサイトのアーキテクチャと研究開発に携わり、1日あたり1,000万人以上のアクティブユーザーを抱える複数のインターネットシステムアーキテクチャの設計を主導し、豊富な実務経験を持っています。彼は、Web サーバー ファイアウォール、分散 NoSQL システム、ビッグ データ ウェアハウス エンジン、リアクティブ プログラミング フレームワークなど、さまざまな種類のソフトウェア システムを設計および開発してきました。

この記事は『建築家の自己啓発:テクノロジー、建築、そして未来』から抜粋したもので、出版社の許可を得ています。

<<:  カイト・ランナーがドローンに出会ったとき...

>>:  パンデミックにより、AI のステータスは「欲しいもの」から「必須のもの」に変化したのでしょうか?

推薦する

...

ウルトラマンの新技に開発者激怒! ChatGPTプラグインは放棄され、作者がGPTに目を向けたことを示唆している。

ウルトラマンの新たな動きが多くの開発者を怒らせた。これらの開発者は、プラグインの開発許可を待つのでは...

スマートエコノミーの時代において、人工知能技術をどのように活用して、より多くの技術的利益をもたらすことができるのでしょうか?

人工知能技術の急速な発展は、あらゆる分野で技術革新を推進し、多数の新興産業を生み出しました。今後 1...

2ポインタアルゴリズムを学んでLeetCodeをプレイする

[[421659]]みなさんこんにちは。私は梁唐です。今日は、非常に古典的で非常にシンプルなアルゴリ...

...

機械学習のトレーニングをより安価かつ効率的にする方法

さまざまなタスクに人工知能を導入する企業が増えるにつれ、AI モデルのトレーニングは費用がかかり、困...

...

人工知能は世界を支配するのでしょうか?

技術が急速に進歩する時代において、人工知能 (AI) が最終的に世界を支配するかどうかという差し迫っ...

...

AI で非構造化データの力を引き出す方法

ほぼすべての業界がデジタル化しており、「データは新たな石油である」とよく言われます。しかし、十分に認...

インターネットで話題! 23歳の中国人医師が22歳の歴史的弱点を治す、ネットユーザー「この話はいいね」

最近、別の若い中国人男性が、22年間存在していたバグを修正したことでインターネット上で人気を博した。...

お茶や水を出すロボットを購入する見込みはありますか?メタとニューヨーク大学がOK-Robotを開発

「xx、テレビ台のリモコンを取ってきて。」 家庭環境では、多くの家族が必然的にこの種の作業を命じられ...

フィンテックの台頭:アルゴリズムが決済業界をどう変えるかデータセットの分析は最初のステップに過ぎない

[[224951]]つい最近まで、CEO や大手銀行は、顧客にサービスを提供する上で銀行の所在地は考...

トランスフォーマー+強化学習、Google DeepMindは世界を知覚するロボットの脳となる大きなモデルを作る

ロボットの学習方法を開発する際に、大規模で多様なデータセットを統合し、強力で表現力豊かなモデル (T...

人工知能は製造業の未来をどのように変えるのでしょうか?

ある研究機関が最近発表した調査報告によると、2022年までに人工知能が製造業にもたらす価値は23億ド...