Google のアルゴリズムが明らかに: 検索リクエストは平均 2,400 キロメートル往復移動します

Google のアルゴリズムが明らかに: 検索リクエストは平均 2,400 キロメートル往復移動します

Google 検索の進化

3月12日のニュース: 世界で最も広く使われている検索エンジンであるGoogleのアルゴリズムは、常に謎に包まれてきました。最近、Googleエンジニアリングディレクターのスコット・ホフマン氏はテンセントテクノロジーに対し、Googleのアルゴリズムの舞台裏を語り、2011年には520以上の改善があったと語った。2003年から現在までに、Google検索は4500億件の検索リクエストを処理してきた。

スコット・ホフマンは Google に入社して 5 年以上経ち、検索品質評価チームとモバイル検索チームを率いているようです。また、情報検索、機械学習、情報抽出に関する学術論文も数十本執筆しています。15 年以上検索分野に注力しており、Google アルゴリズムに大きな発言力を持っています。

スコット氏は、10年前の検索は単にキーワードをその意味や文脈と一致させることだったかもしれないが、現在ではGoogleは単に表面的に単語を一致させるのではなく、ユーザーが何を望んでいるのかをよりよく理解していると述べた。検索エンジンがユーザーに対して提示する結果は単純に見えるかもしれませんが、実際にはその背後には一連の複雑なプロセスがあり、1秒以内に完了します。 「Google は通常、検索リクエストに応答するのにわずか 0.25 秒しかかかりませんが、人間の目が瞬きする平均的な時間は 0.1 秒です。」

Google アルゴリズムの原理

Google のアルゴリズムの原理について語るスコット氏は、最も基本的な概念はインデックス作成であり、つまり、Google の検索ロボットが数十億の Web ページをスキャンまたは検索してインデックスを作成し、インデックス ライブラリをいくつかの部分に分割して数千台のコンピューターに配置し、世界中のデータ センターにコピーすることで、Google が世界中で検索タスクを完了できるようにすることだと述べました。

Google のアルゴリズムのプロセスは、ユーザーが検索リクエストを送信するというものです。ユーザーの特定の地理的位置に基づいて、Google は世界中のデータ センターに検索リクエストを送信します。その後、データ センターはリクエストを数千台のコンピューターに配信し、ディレクトリとユーザーのリクエスト内のキーワードを照合して、正しいメールまたは Web ページを見つけます。 Google は、最も関連性の高い最新のデータ、つまり検索結果を選択し、さまざまな属性と指標に従ってこれらの検索結果をランク付けして、一致する最も適切な検索エンジンの結果を決定します。平均すると、Google の検索リクエストはコンピュータとデータセンター間を 750 マイル移動します。

Google は毎年、いくつかの新しいアイデアの必要性評価を行っています。評価後に妥当であると判断された場合、主に独立した評価者を招待して、数百件の検索リクエストに基づく 2 つの結果セットを比較する小規模な実験を行います。1 つは通常の検索方法を使用する基本グループで、もう 1 つは新しいアイデアを使用する比較グループです。 2 つの検索結果セットを比較して、どちらがより関連性が高く、検索品質が高いかを確認します。その後、ユーザーはランダムに選択され、オンラインのリアルタイム実験を通じて新しく考案された体験に参加します。

「Google ユーザーで、Google 検索を頻繁に使用している場合、気付かないうちにオンライン実験に参加している可能性があり、表示される検索結果は新しく考案された方法の結果である可能性があります。Google では、常時 200 件を超えるライブ実験がオンラインで実行されています。」

Google アルゴリズムの検索エクスペリエンスを向上させる 3 つのステップ

これらの実験を通じて、Google は検索結果からスパムを削除したり、ユーザーのニーズに基づいて検索インターフェースに表示される結果の数を変更したり、異なる地域で同じ単語を検索したときに異なる結果を表示したりするなど、ユーザーの検索エクスペリエンスを継続的に改善することができます。スコット氏は、Google が 2011 年に 41,931 件の必要性評価、9,250 件の小規模試験、7,363 件のオンラインリアルタイム実験を実施し、最終的に 520 件以上の改善を完了したことを明らかにした。

Google検索ランキング

スコット氏は、Google は検索リクエストごとに異なる測定指標を使用していると指摘した。たとえば、ある病気の問題を調べるとき、ユーザーはその病気について書かれたブログではなく、その Web ページの信頼性に最も注目する。このような検索状況では、Web ページの権限が最も重視されます。さらに、検索の関連性は地域の場所と時間にも関係します。たとえば、ユーザーが北京にいる場合、上海のレストランを検索してもあまり意味がありません。たとえば、大きなイベントを検索する場合、大きなイベントの翌日に得られた検索結果は、その前日に得られた検索結果とはまったく異なることがわかります。

スコット氏によると、Googleの検索アルゴリズムは、鮮度アルゴリズム、ウェブサイト品質アルゴリズム、ページレイアウトアルゴリズムの調整を含む一連の大きな改良を経てきた。その中でも、鮮度アルゴリズムの調整は、速報ニュース、定期的に発生する大きな出来事、頻繁にコンテンツが更新されるトピックなど、場合によってはGoogleがユーザーに最新の検索結果を提供する必要があることを意味する。ユーザーが「オリンピック」を検索すると、1984 年のオリンピックに関する古い情報ではなく、今後開催されるロンドン オリンピックに関連する最新の結果が表示されます。

高品質ウェブサイトのアルゴリズム調整は、独自の情報、研究と調査、詳細なレポート、正確な分析などを含む高品質ウェブサイトに非常に有益であり、検索結果でのランキングが向上します。ページレイアウトアルゴリズムの調整は、ユーザーが検索結果をクリックした後に表示されるウェブページのレイアウトに重点を置き、ウェブページの情報の豊富さを向上させ、情報を簡単に検索できるウェブページのランキングを向上させます。

スコット氏は、FacebookやTwitterなどのソーシャルネットワーキングサイトが発展するにつれて、パーソナライズされた検索結果がますます重要になるだろうと述べた。近年、Google は Google+ などの製品を立ち上げており、これも検索にソーシャル要素を取り入れています。 Googleとしては、今後もソーシャルメディア情報の統合を進めていく。

オリジナルリンク: http://tech.qq.com/a/20120312/000083.htm

【編集者のおすすめ】

  1. 再帰アルゴリズムと最適化アルゴリズムの比較
  2. 簡単なアルゴリズムからアセンブリ言語の予備的研究
  3. ソートアルゴリズムを簡単に学ぶ: よく使われるソートアルゴリズムを視覚的に体験
  4. マット・カッツのブログ投稿: Google のアルゴリズムの最新の変更点 10 件
  5. XML暗号化アルゴリズムが解読され、W3C標準が改訂される

<<:  Google のアルゴリズムの背後: 検索リクエストは平均 2,400 キロメートルの往復を移動する

>>:  Java 実装と読み取り/書き込みロック アルゴリズムの考え方

ブログ    
ブログ    
ブログ    

推薦する

YOLO-NAS: 最も効率的なターゲット検出アルゴリズムの1つ

YOLO-NAS 物体検出導入YOLO (You Only Look Once) は、ディープ ニュ...

過去10年間のデータ分析と人工知能の7つの災害のレビュー

2017年、『エコノミスト』誌は、石油ではなくデータが世界で最も価値のある資源になったと宣言し、この...

スマートビルと建築技術の未来

[[436407]]私たちの世界は、テクノロジーの進歩により急速な変化を経験し続けています。 テクノ...

スマート信号機は歩行者が道路を横断する時間を長くする

[[392088]]画像ソース: https://pixabay.com/images/id-329...

マイクロソフトは言語モデルをより調和のとれたものにするために複数のツールとデータセットをオープンソース化

Microsoft は最近、AI 駆動型コンテンツ モデレーション システムを監査し、AI モデルの...

米国の刑務所、受刑者の通話を分析するために人工知能を導入する計画

下院の主要委員会が、受刑者の通話を分析するための人工知能の使用に関する報告書の提出を求めたことにより...

雲智盛 梁 嘉恩: インテリジェントインタラクション技術とモノのインターネットアプリケーション

[51CTO.comより引用] 2017年7月21日から22日まで、51CTO主催の人工知能をテーマ...

DeepMind が新世代 AlphaFold を発表、予測精度が 10% 近く向上しました。 DNAとRNAのAlphaFoldの瞬間が到来

ちょうど本日、DeepMind は AlphaFold の最新の進捗状況である「AlphaFold-...

ビッグニュース! AIが生物学における50年来の課題を解決し、タンパク質の折り畳み問題を解明

生物学における最大の謎の一つであるタンパク質折り畳み問題が AI によって解決されました。 CASP...

...

人工知能チップの過去、現在、そして未来

AIは現在ニュースでよく取り上げられています。現在、AIは医療診断、新しい化学物質の合成、群衆の中に...

【ディープラーニング連載】畳み込みニューラルネットワーク(CNN)の原理を徹底解説(I) - 基本原理

前回の記事では、PaddlePaddle を使用して手書きの数字を認識する例を示し、ネットワーク構造...

2020年、アルゴリズムの話題が主流になる年

[[397576]]システムに閉じ込められた配達員から人々が飽きることのないソーシャルメディアまで、...

2021 年の年収 100 万ドルの AI 職種のトレンド: データ サイエンス、Python、自動運転、AIOps に注目していますか?

今年も終わりですね! 2021年が近づいてきました。今年は流行が落ち着いてきましたが、AIの発展は止...

...