ユーザー投票に基づくランキングアルゴリズム: Delicious と Hacker News

ユーザー投票に基づくランキングアルゴリズム: Delicious と Hacker News

インターネットの出現は「情報爆発」を意味します。

ユーザーが心配するのは、もはや情報量が少なすぎることではなく、情報が多すぎることです。膨大な情報の中から最も重要なコンテンツをいかに迅速かつ効果的に見つけるかが、インターネットの中心的な課題となっています。

[[59428]]

現在、さまざまなランキング アルゴリズムが、情報をフィルタリングする主な手段の 1 つとなっています。情報をランク付けするということは、情報を重要度順に並べ、タイムリーに更新することを意味します。ランキングの基準は、情報自体の特性に基づくことも、ユーザーの投票に基づいて、どのような情報を最初にランク付けできるかをユーザーが決定できるようにすることもできます。

次回は、ユーザー投票によるランキングアルゴリズムをいくつか整理して分析します。4回に分けて連載する予定です。今日は第1回目です。

1. おいしい

最も直感的でシンプルなアルゴリズムは、単位時間あたりに受け取る投票数に応じてユーザーをランク付けすることです。最も多くの票を獲得したプロジェクトが当然ながら 1 位になります。

旧バージョンの Delicious には「人気ブックマークランキング」があり、この方法で計算されていました。

「過去60分間に保存された回数」で順位付けされます。 60 分ごとにカウントが行われます。

このアルゴリズムの利点は、比較的シンプルで導入が簡単で、コンテンツが非常に速く更新されることです。欠点は、ランキングの変化が十分にスムーズではなく、前の 1 時間にトップにランクされていたコンテンツが 2 時間目に急落することが多いことです。

2. ハッカーニュース

Hacker News は、リンクを投稿したりトピックについて話し合ったりできるオンライン コミュニティです。

各投稿の前に上向きの三角形があります。内容がよいと思ったらクリックして投票してください。投票数に基づいて、システムは人気記事のランキングを自動的に計算します。ただし、必ずしも最も多くの票を獲得した記事が 1 位になるわけではありません。時間的要素も考慮する必要があります。新しい記事は古い記事よりも良いランキングを獲得する可能性が高くなります。

Hacker News は Paul Graham が開発した Arc 言語で書かれており、ソース コードは arclanguage.org からダウンロードできます。ランキングアルゴリズムは次のように実装されています。

上記のコードを数式に変換します。

で、

P は投稿に対する投票数を表し、投稿者の投票を無視する場合は 1 を減算します。

T は投稿されてからの時間 (時間単位) を表し、最新の投稿によって分母が小さくなりすぎないように 2 が追加されます (2 を選択した理由は、元の記事が他の Web サイトに掲載されてから Hacker News に再投稿されるまでに平均 2 時間かかるためと考えられます)。

G は「重力」の略で、投稿のランキングを下げる力です。デフォルト値は 1.8 です。この値については後で詳しく説明します。

この式から、投稿のランキングを決定する要素は 3 つあります。

最初の要素は投票数Pです。

他の条件は変わらず、得票数が多いほどランキングが上がります。

上の画像からわかるように、同時に公開された 3 つの投稿があり、それぞれ 200、60、30 票 (マイナス 1 で 199、59、29) で、黄色、紫、青で表されています。どの時点でも、黄色の曲線が上にあり、青色の曲線が下にあります。

「投票数の多い投稿」と「投票数の少ない投稿」の差を大きくしたくない場合は、(P-1)^0.8 のように、投票数に 1 未満の指数を追加できます。

2 番目の要素は、投稿してからの時間 T です。

他の条件が同じであれば、投稿が最近公開されたほど、ランキングは高くなります。つまり、投稿のランキングは時間の経過とともに低下し続けます。

前の図からわかるように、24 時間後にはすべての投稿のスコアは基本的に 1 未満になり、ランキングの下位に落ち、上位のランキングは新しいコンテンツになることが確実になります。

3 番目の要因は重力係数 G です。

その値によって、時間の経過とともにランキングがどれだけ速く下がるかが決まります。

上図からわかるように、3つの曲線の他のパラメータは同じであり、Gの値はそれぞれ1.5、1.8、2.0です。 G 値が大きいほど、曲線が急峻になり、ランキングの低下が速くなります。つまり、ランキングの更新が速くなることを意味します。

アルゴリズムの構成を理解することで、独自のアプリケーションに合わせてパラメータ値を調整できます。

[参考文献]

  1. Hacker Newsのランキングアルゴリズムの仕組み
  2. 自慢できる人気アルゴリズムを構築する方法

原文: http://www.ruanyifeng.com/blog/2012/02/ranking_algorithm_hacker_news.html

【編集者のおすすめ】

  1. 再帰アルゴリズムと最適化アルゴリズムの比較
  2. マット・カッツのブログ投稿: Google のアルゴリズムの最新の変更点 10 件
  3. アルゴリズム学習のための動的プログラミング戦略の紹介
  4. PHP+MySQL アプリケーションで XOR 暗号化アルゴリズムを使用する
  5. 過去10年間のGoogleアルゴリズムの変化

<<:  A* 検索アルゴリズム (実行可能なソース コード付き)

>>:  再帰アルゴリズムと最適化アルゴリズムの比較

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIが地震の前兆信号を識別?機械学習がデータ内の不思議な相関関係を発見、人類に地震予測の希望を与える

最近、世界中で地震が頻繁に発生しています。 1月1日、突然、マグニチュード7.6の地震が日本を襲い、...

LeCun 氏はリツイートしました: 中国がトップ AI カンファレンスのリストで首位を占め、米国が 2 位です!中国と米国が世界の数学計算分野を支配している

最近、「科学は戦略だ」というネットユーザーが、近年いくつかの海外の主要メディアや調査機関がまとめたグ...

マイクロソフトがAR仮想「翻訳機」をデモ、将来の翻訳業界に影響を与える

7月22日のニュース:AR技術は継続的な発展により、徐々に成熟してきました。他の新しいテクノロジーと...

合成データは AI/ML トレーニングの未来を推進するでしょうか?

人工知能や機械学習 (AI/ML) をトレーニングするために現実世界のデータを収集することは、時間が...

マイクロソフト、機械学習モデル向けの高性能推論エンジン ONNX をオープンソース化

Microsoft は、Linux、Windows、Mac プラットフォーム向けの ONNX 形式の...

TensorFlow 2 入門ガイド。初心者必見です!

Tensorflow とは何ですか? TensorFlow は Google が立ち上げたディープ...

テンセントは顔認識技術を使って未成年者への薬物依存防止規制を強化

米国のメディアによると、子供や十代の若者はビデオゲームに関するほぼすべての制限に対処する方法を見つけ...

あなたの仕事はAIに置き換えられるでしょうか?李開復氏は、これらの4種類の仕事について心配する必要はないと述べている。

[[255576]]最近、李開復氏はタイム誌に「人工知能は強力だが、誤解されている。労働者を守るに...

人工知能とビッグデータがビジネス環境をどう変えるのか

人々がビジネスを行うようになって以来、ビジネスを強化するためにテクノロジーが活用されてきました。 1...

信頼できる AI ソリューション プロバイダー 5 社

人工知能は、機械内で知的な行動や人間のように考える能力をシミュレートすることで、ヘルスケア、自動車、...

フォークス写真ツール:顔認識システムを密かに汚染

海外メディアの報道によると、インターネットには数十億枚の写真が溢れており、その多くは放置されたアカウ...

速報です!ヒントンがロボットスタートアップに参入、同社は9000万ドルの新規投資を受ける

チューリング賞受賞者であり、ディープラーニングの父であるジェフリー・ヒントンの次の旅が決まりました。...

...

2019 年の AI 統計と重要な事実

[[280183]] [51CTO.com クイック翻訳] 人工知能(AI)は日々驚異的なスピードで...

Google が史上最強の人間の脳の「地図」を公開、3D ニューロンの「森」がオンラインで閲覧可能に

シナプスはニューラルネットワークの「橋」です。人間の脳には 860 億個のニューロンがあり、あるニュ...