皇帝の側室選定と推薦アルゴリズムの仕組み

[[393467]]

この記事はWeChatの公開アカウント「Shu Shixiong」から転載したもので、著者はShu Shixiongです。この記事を転載する場合は、Shu Shixiongの公式アカウントまでご連絡ください。

近年、ビッグデータ、人工知能、機械学習、データマイニングなどの概念の台頭により、すべてのデータアナリストは多かれ少なかれ推奨アルゴリズムに関する分析に接するようになりました。アルゴリズム分析の前提条件は、現在の「推奨アルゴリズム」の基本構造を理解し、これらの一般的なビジネス知識を習得することです。特定のアルゴリズムの実装プロセスを理解していなくても、アルゴリズムを効果的に分析できます。現在の推奨アルゴリズムは、主にリコール、フィルタリング、(大まかなソート)、および細かいソートといういくつかのコアステップに分かれています。これらは一体何を意味しているのでしょうか? 皇帝が側室を選ぶ方法を理解すれば、上記のプロセスも理解できるでしょう。では、これ以上前置きせずに、この 2 つの違いを見てみましょう。

リコール＝オーディション

リコールは、現在のリソースプールから条件を満たすリソースを丸で囲みます。皇帝が側室を選ぶと世間に発表すると、各省は13歳から16歳までの優秀な少女を一般から集め始めるのと同じだ。全国規模の選挙だったため、審査員の目や指標に影響され、この時に選ばれた人々は肌や髪の色がさまざまで、皆中国語で「私を選んで、私を選んで」と言うだろう。

総選挙以外にも、首相の姪、隣国が選んだ王女、あるいは皇帝自身が大明湖の夏老人の次女に惚れ込んだなど、特別なルートもある。これらの特別なチャネルは、多方向想起として理解できます。つまり、オーディションのこの段階では、美に少しでも関わりがあれば、眉毛と髭がある人でも合格できるということです。

この原理は、普段ニュースを見るときと同じです。思い出す方法は、ベクトル想起、協調フィルタリング、その他多方向想起など、多岐にわたります。フォローしているブロガーが投稿したコンテンツ、人気が高まっているコンテンツ、ホットな話題やその周辺領域など、豊富なコンテンツが含まれています。コンテンツとしては、エンターテイメント、映画やテレビ、政治などが含まれます。つまり、最終的にユーザーに提示されるコンテンツが何であれ、それは「完全性」を保証する上で「正確」でなければなりません。リコールのステップでは、「完全性」の問題に重点が置かれます。

フィルター = チェック

オーディションで選ばれた美女たちが再選考段階に入った。こんなに大勢の人たちを無事に採用するのは不可能で、それでも人数が多すぎた。そのため、宮殿に入る前に、選抜を担当する宦官は、背が高すぎる人、背が低すぎる人、太りすぎの人、痩せすぎの人、十分な教育を受けていない人、性格の悪い人、投機家である人など、別の波の人々を排除する必要がありました。この操作により、質の悪い参加者が排除されただけでなく、次のリンクのスタッフの作業圧力も軽減されました。

ニュースの推奨を例にとると、リコールされたコンテンツのうち、反動的なホットトピック、非常に低いいいね率、古いコンテンツが最初に排除され、質の悪いリコールコンテンツのかなりの部分が除去され、より重要なコンテンツが残ります。

大まかな列 = 3 辺

宮殿に入って皇帝に会う前のこの手順は、実際には必要ではありません。主に宮殿の宦官の対応能力に依存します。再選後に3,000人が残り、宮殿の宦官が5,000人を処理できる場合、3回の面接は必要なく、直接入ることができます。しかし、処理能力が1,000人しかない場合、宮殿に入る前に一群の人をふるいにかけ、宮殿内で選抜を担当する宦官たちの仕事の負担を軽減しなければなりません。このとき、美女たちの家柄、性格、容姿、才能、知識に基づいて総合的な点数が付けられ、比較的質の悪い一群がふるいにかけられて優秀さが達成されます。

推奨アルゴリズムに関して言えば、ここでの処理能力は一般的にサーバーの負荷能力を指します。データが少ない小規模なアプリでは、リコール段階でリソースが不足する可能性があり、フィルタリング後にリソースが枯渇します。最終的に、ユーザーに表示する必要があるデータの量は多くありません。このとき、細かい並べ替えと粗い並べ替えを同時に行うことができます。ただし、大規模なアプリの場合、フィルタリング後もデータ量が多くなります。このとき、サーバーの負荷を軽減するために、データの波をフィルタリングし続けるために粗い並べ替えが必要です。宦官が美女を格付けするのと同じように、大まかなランキングもユーザーの特徴に基づいています。現在使用されているさまざまな採点アルゴリズムは、実際には選考プロセス中に審査員が議論したいくつかの異なる採点ルールに相当します。

正確なスケジュール設定 = 作業スケジュール

3回の面接を経て、残った人々がようやく宮殿に入ることができる。最終的に皇帝の側室リストに載る人物は、再度評価される必要がある。前回の選別が何らかの普遍的な特徴に基づいていたとすれば、この細かい選別のステップでは、これまでの静的な特徴に加えて、いくつかの動的な特徴と皇帝自身の好みが加えられることになる。

たとえば、美女たちの行動（容姿、マナー、いびきをかいているか、寝言を言っているか、体臭があるか、さらには「胸を探り、脇の下を嗅ぎ、肌の質感に触れ、貞操を確かめよ」という言い伝え）の定期的な評価と観察、近年の皇帝の行動の好み（丸顔か円錐顔か、貴族の淑女か平凡な家庭の美しい娘か、文学青年かおどけた青年か）に関する統計など。これらの特徴は総合的に採点され、最終的に皇帝の側室リストに掲載される 50 人が選ばれます。

これは、上記の機能と、コンテンツのいいね数、コメント率、レポート数、レポート率、現在のユーザーの好み（政治、テクノロジー、エンターテイメントのどれを好むか）を組み合わせてニュースリストに総合的なスコアを作成し、現在のユーザーに最も適したコンテンツを並べ替えて表示することと同じです。

上記は、アプリを閲覧するときにコンテンツを表示する基盤となる推奨アルゴリズムのプロセスです。これを読んだ後、あなたは皇帝になったような気分になりますか?上記の手順を理解すれば、アルゴリズムの具体的な構築と実装のプロセスを理解していなくても、上記の 4 つのプロセスからいくつかの分析のアイデアを得ることができます。たとえば、ユーザーのクリック率が低いのは、リコールが多すぎるのにフィルタリング機能が不十分で、質の低いコンテンツが精製ランキングに入ってしまうか、精製ランキングプロセスでユーザー機能が少なすぎることが原因です。

話題外

新規ユーザーには行動がないため、その嗜好を判断することは不可能です。これは、推奨エンジンのコールドスタートに相当します。この時点では、推奨コンテンツは比較的乱雑です。ゆっくりと、ユーザーの行動が蓄積されるにつれて、アルゴリズムはユーザーの嗜好を学習し、推奨コンテンツは特定の領域にますます集中するようになります。

Tik Tok と同じように、最初に登録したときは露出度はほぼ同じかもしれませんが、1 年後には違いがより顕著になる可能性があります。これを行う利点は、ユーザーが満足し、推奨コンテンツがより正確になり、ユーザーの維持率が向上することです。欠点は、ユーザーの視野が制限され、各ユーザーが自分の枠内に閉じ込められることです。これは良いアイデアだと思いますか?

<<: 必要なのはこれら3つの機械学習ツールだけです

>>: ドイツメディア：EUは人工知能の乱用を制限する法律制定を計画