Google のアルゴリズムが明らかに: 検索リクエストは平均 2,400 キロメートル往復移動します

Google のアルゴリズムが明らかに: 検索リクエストは平均 2,400 キロメートル往復移動します

Google 検索の進化

3月12日のニュース: 世界で最も広く使われている検索エンジンであるGoogleのアルゴリズムは、常に謎に包まれてきました。最近、Googleエンジニアリングディレクターのスコット・ホフマン氏はテンセントテクノロジーに対し、Googleのアルゴリズムの舞台裏を語り、2011年には520以上の改善があったと語った。2003年から現在までに、Google検索は4500億件の検索リクエストを処理してきた。

スコット・ホフマンは Google に入社して 5 年以上経ち、検索品質評価チームとモバイル検索チームを率いているようです。また、情報検索、機械学習、情報抽出に関する学術論文も数十本執筆しています。15 年以上検索分野に注力しており、Google アルゴリズムに大きな発言力を持っています。

スコット氏は、10年前の検索は単にキーワードをその意味や文脈と一致させることだったかもしれないが、現在ではGoogleは単に表面的に単語を一致させるのではなく、ユーザーが何を望んでいるのかをよりよく理解していると述べた。検索エンジンがユーザーに対して提示する結果は単純に見えるかもしれませんが、実際にはその背後には一連の複雑なプロセスがあり、1秒以内に完了します。 「Google は通常、検索リクエストに応答するのにわずか 0.25 秒しかかかりませんが、人間の目が瞬きする平均的な時間は 0.1 秒です。」

Google アルゴリズムの原理

Google のアルゴリズムの原理について語るスコット氏は、最も基本的な概念はインデックス作成であり、つまり、Google の検索ロボットが数十億の Web ページをスキャンまたは検索してインデックスを作成し、インデックス ライブラリをいくつかの部分に分割して数千台のコンピューターに配置し、世界中のデータ センターにコピーすることで、Google が世界中で検索タスクを完了できるようにすることだと述べました。

Google のアルゴリズムのプロセスは、ユーザーが検索リクエストを送信するというものです。ユーザーの特定の地理的位置に基づいて、Google は世界中のデータ センターに検索リクエストを送信します。その後、データ センターはリクエストを数千台のコンピューターに配信し、ディレクトリとユーザーのリクエスト内のキーワードを照合して、正しいメールまたは Web ページを見つけます。 Google は、最も関連性の高い最新のデータ、つまり検索結果を選択し、さまざまな属性と指標に従ってこれらの検索結果をランク付けして、一致する最も適切な検索エンジンの結果を決定します。平均すると、Google の検索リクエストはコンピュータとデータセンター間を 750 マイル移動します。

Google は毎年、いくつかの新しいアイデアの必要性評価を行っています。評価後に妥当であると判断された場合、主に独立した評価者を招待して、数百件の検索リクエストに基づく 2 つの結果セットを比較する小規模な実験を行います。1 つは通常の検索方法を使用する基本グループで、もう 1 つは新しいアイデアを使用する比較グループです。 2 つの検索結果セットを比較して、どちらがより関連性が高く、検索品質が高いかを確認します。その後、ユーザーはランダムに選択され、オンラインのリアルタイム実験を通じて新しく考案された体験に参加します。

「Google ユーザーで、Google 検索を頻繁に使用している場合、気付かないうちにオンライン実験に参加している可能性があり、表示される検索結果は新しく考案された方法の結果である可能性があります。Google では、常時 200 件を超えるライブ実験がオンラインで実行されています。」

Google アルゴリズムの検索エクスペリエンスを向上させる 3 つのステップ

これらの実験を通じて、Google は検索結果からスパムを削除したり、ユーザーのニーズに基づいて検索インターフェースに表示される結果の数を変更したり、異なる地域で同じ単語を検索したときに異なる結果を表示したりするなど、ユーザーの検索エクスペリエンスを継続的に改善することができます。スコット氏は、Google が 2011 年に 41,931 件の必要性評価、9,250 件の小規模試験、7,363 件のオンラインリアルタイム実験を実施し、最終的に 520 件以上の改善を完了したことを明らかにした。

Google検索ランキング

スコット氏は、Google は検索リクエストごとに異なる測定指標を使用していると指摘した。たとえば、ある病気の問題を調べるとき、ユーザーはその病気について書かれたブログではなく、その Web ページの信頼性に最も注目する。このような検索状況では、Web ページの権限が最も重視されます。さらに、検索の関連性は地域の場所と時間にも関係します。たとえば、ユーザーが北京にいる場合、上海のレストランを検索してもあまり意味がありません。たとえば、大きなイベントを検索する場合、大きなイベントの翌日に得られた検索結果は、その前日に得られた検索結果とはまったく異なることがわかります。

スコット氏によると、Googleの検索アルゴリズムは、鮮度アルゴリズム、ウェブサイト品質アルゴリズム、ページレイアウトアルゴリズムの調整を含む一連の大きな改良を経てきた。その中でも、鮮度アルゴリズムの調整は、速報ニュース、定期的に発生する大きな出来事、頻繁にコンテンツが更新されるトピックなど、場合によってはGoogleがユーザーに最新の検索結果を提供する必要があることを意味する。ユーザーが「オリンピック」を検索すると、1984 年のオリンピックに関する古い情報ではなく、今後開催されるロンドン オリンピックに関連する最新の結果が表示されます。

高品質ウェブサイトのアルゴリズム調整は、独自の情報、研究と調査、詳細なレポート、正確な分析などを含む高品質ウェブサイトに非常に有益であり、検索結果でのランキングが向上します。ページレイアウトアルゴリズムの調整は、ユーザーが検索結果をクリックした後に表示されるウェブページのレイアウトに重点を置き、ウェブページの情報の豊富さを向上させ、情報を簡単に検索できるウェブページのランキングを向上させます。

スコット氏は、FacebookやTwitterなどのソーシャルネットワーキングサイトが発展するにつれて、パーソナライズされた検索結果がますます重要になるだろうと述べた。近年、Google は Google+ などの製品を立ち上げており、これも検索にソーシャル要素を取り入れています。 Googleとしては、今後もソーシャルメディア情報の統合を進めていく。

オリジナルリンク: http://tech.qq.com/a/20120312/000083.htm

【編集者のおすすめ】

  1. 再帰アルゴリズムと最適化アルゴリズムの比較
  2. 簡単なアルゴリズムからアセンブリ言語の予備的研究
  3. ソートアルゴリズムを簡単に学ぶ: よく使われるソートアルゴリズムを視覚的に体験
  4. マット・カッツのブログ投稿: Google のアルゴリズムの最新の変更点 10 件
  5. XML暗号化アルゴリズムが解読され、W3C標準が改訂される

<<:  Google のアルゴリズムの背後: 検索リクエストは平均 2,400 キロメートルの往復を移動する

>>:  Java 実装と読み取り/書き込みロック アルゴリズムの考え方

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

適切な人工知能を選択するにはどうすればよいでしょうか?

採用プロセスで人工知能テクノロジーに切り替えるのは難しいかもしれませんが、これらのヒントに従って、会...

Salesforceは、20のコードタスクSOTAをリフレッシュするために、新しい基本的なLLMシリーズのエンコーダー/デコーダーコードT5 +を提案しています。

大規模言語モデル (LLM) は最近、コード レベルでのさまざまなダウンストリーム タスクで優れたパ...

...

幾何学を利用してディープラーニングモデルのパフォーマンスを向上させることは、コンピュータービジョン研究の未来です。

[[189965]]ディープラーニングはコンピュータービジョンを変革しました。現在、ほとんどの問題...

研究者たちは、スマートデバイスがAIを使って声の発信元を判断できるようにする準備を進めている。

このアイデアはプライバシー擁護者を怖がらせているが、スマートスピーカーの開発者は、ユーザーのウェイク...

組み込みおよびベクターデータベースの実践ガイド

翻訳者 |ブガッティレビュー | Chonglouこの革命の中心にあるのは、ベクター データベースの...

...

TensorFlow でトレーニングしたモデルを保存および復元する方法

ディープ ニューラル ネットワーク モデルの複雑さが非常に高い場合、保有するデータの量、モデルを実行...

AIを使用してC++、Java、Pythonコードを翻訳し、最大成功率は80.9%です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

成長痛に遭遇: 2017 年の AI およびビッグデータ業界のレビュー

2017 年、人工知能とビッグデータの開発では次の 10 の成長痛が発生しました。 [[216307...

...

量子コンピューティングの「GPT の瞬間」はもうすぐ来るのでしょうか?企業はどのように準備すべきでしょうか?

科学技術の世界では、大きな技術的進歩が一夜にして起こることはめったになく、多くの場合、何十年にもわた...

階乗関連のアルゴリズムとその C++ 実装

階乗とは、必要な数値が得られるまで 1 × 2 × 3 × 4 を掛け合わせることを意味します。 C...

NVIDIA はフーリエ モデルを使用して前例のない天気予報精度を実現

現代の数値天気予報 (NWP) は 1920 年代にまで遡ります。今日では、数値天気予報はいたるとこ...