Googleのエンジニアリングディレクターがアルゴリズム改善の背後にある数字を明らかに

Googleのエンジニアリングディレクターがアルゴリズム改善の背後にある数字を明らかに

Google は検索の問題を解決したと多くの人が考えていますが、Google の観点から見ると、検索の発展はまだ始まったばかりです。検索を本に例えるなら、Google は最初の章を書き上げたばかりだ。 Google 検索は 10 年以上にわたり、データ駆動型や実験的評価などの科学的な手法を通じて継続的に改善され、検索エンジンの完成度を高めてきました。最近、Google のエンジニアリング ディレクターであるスコット ハフマン氏は、Google のアルゴリズム改善の背後にある数字を紹介しました。Google は 4.5 兆件以上の検索リクエストを処理し、2011 年には 41,931 件の必要性評価、9,250 件の小規模トライアル、7,363 件のオンライン リアルタイム実験を実施し、最終的に 520 件以上の改善を完了しました。

[[61626]]
Google エンジニアリング ディレクター、スコット ハフマン

Google を通じて情報を検索する場合、ユーザーは Web ページ上で操作を実行するのではなく、Google の Web ページのインデックス内で検索します。 Google の膨大なコンピュータ群は総称して「Google ロボット」と呼ばれています。このロボットはアルゴリズムによって制御され、インターネット上の何十億もの Web ページをクロールして閲覧し、その中のすべての単語のインデックスを作成します。ユーザーが検索リクエストを入力すると、マシンはインデックスで一致する Web ページを検索し、最も関連性の高い検索結果をユーザーに提示します。

Google は、最も関連性の高い検索結果を最短時間でユーザーに提供することに注力しており、それが検索アルゴリズムの継続的な改善の原動力にもなっています。 Google は通常、アルゴリズムを改善するために 3 つのステップを踏みます。まず、各改善の必要性を評価し、次に世界中のさまざまな地域で小規模な実験を行い、最後にランダムにユーザーを選択してリアルタイムのオンライン実験を行います。 Google は常に、検索機能に関する 50 ~ 200 件のオンライン実験を実行しています。これらの正確で秩序だった科学的手法により、最大でも 24 時間で Google.com に優れた改善計画を考案し、実装することができます。 2011 年に、Google は 58,000 件を超える実験を実施し、検索システムに 520 件を超える改善を加えました。

これらの実験を通じて、Google は検索結果からスパムを削除したり、ユーザーのニーズに基づいて検索インターフェースに表示される結果の数を変更したり、異なる地域で同じ単語を検索したときに異なる結果を表示したりするなど、ユーザーの検索エクスペリエンスを継続的に改善することができます。

同時に、Google 検索アルゴリズムは次のような一連の大きな改善を加えました。

  • 鮮度アルゴリズムの調整: 速報ニュース、定期的に発生する主要なイベント、コンテンツが頻繁に更新されるトピックなど、Google では最新の検索結果をユーザーに提供する必要がある場合があります。 「オリンピック」を検索すると、1984 年のオリンピックに関する古い情報ではなく、今後開催されるロンドン オリンピックに関する最新の結果が表示されます。
  • 高品質なウェブサイトのアルゴリズム調整:独自の情報、調査・研究、詳細なレポート、正確な分析などを含む高品質なウェブサイトに非常に有益であり、検索結果でのランキングが向上します。
  • ページ レイアウト アルゴリズムの調整: この改善は、ユーザーが検索結果をクリックした後に表示される Web ページのレイアウトに重点を置き、Web ページ情報の豊富さを向上させ、情報を簡単に検索できる Web ページのランキングを向上させます。

Google検索の背後にある数字

  • Google が検索リクエストに応答するのに通常 0.25 秒しかかかりませんが、平均的な人間の目が瞬きするのには 0.1 秒かかります。
  • Google 検索は 2003 年以来 4,500 億件の検索クエリを処理してきました
  • ユーザーが毎日検索するキーワードの16~20%は新しいものである
  • 平均すると、Google 検索の各キーワードは、ユーザーのコンピューターとデータ センターの間を 750 マイル移動します。
  • Google は、ページランクを含む 200 を超えるランキング指標を検索結果に使用します。
  • Google のインデックスには数十億のウェブページが含まれており、最大 1 億 GB のデータが保存されています。
  • 現在までに、Google は検索アルゴリズムの開発に 1,000 人年以上を投資してきました。
  • Google 検索は 146 の言語をカバーしています
  • Google 検索は世界中に 181 のドメインを持っています

<<:  大量ユーザーポイントのランキングアルゴリズムに関する議論

>>:  Google のアルゴリズムの背後: 検索リクエストは平均 2,400 キロメートルの往復を移動する

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

自動運転業界は2021年に爆発的な成長を遂げるでしょうか?

2020年は自動運転業界が徐々に安定する年だ。ウェイモなどの巨大企業が商業化の模索を開始し、テスラ...

インタビュアー: アルゴリズムの時間計算量と空間計算量についてどう思いますか?計算方法は?

[[424483]] 1. はじめにアルゴリズムとは、データを操作し、プログラムの問題を解決するた...

強いAIと弱いAIの議論:人工知能の意識に関する興味深い理論

[[344692]]最近、私のお気に入りの新進思想家の一人と高性能 AI と低性能 AI について議...

データ サイエンティストが 95% の時間使用する 11 の基本分布

前回のレビュー「データ サイエンティストが 95% の時間に使用する 11 個の基本チャート」に続き...

MITとGoogle BrainはAIを使って「現代のロゼッタストーン」として知られる失われた古代の文書を解読する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

李開復のLLaMAに基づく企業モデルだが、テンソル名が異なっており論争を巻き起こしたが、公式の回答が来た。

少し前に、オープンソースのビッグモデル分野に新しいモデル「易」が導入されました。このモデルはコンテキ...

...

2018 年のビッグデータ、機械学習、人工知能の予測!

AI へのビッグデータ投資は減速の兆しを見せていません。今後 1 年間の予測をいくつかご紹介します...

マスクを着用しているときでも顔認識は役立ちますか?

[[415947]]顔認識技術は今や私たちの生活のあらゆる側面に浸透しています。公共の安全、スマー...

網膜症治療のAIが成熟する中、なぜ医療業界は「無反応」なのか?

網膜は人体の中で唯一、血管や神経細胞の変化を非侵襲的に直接観察できる組織であり、さまざまな慢性疾患の...

人工知能が学習と発達に及ぼす7つの影響

急速に進化する今日のテクノロジー環境において、人工知能 (AI) はあらゆる業界に革命を起こす可能性...

...

EUはAI規制のルールを強化する計画で、最も厳しい法案を発表

欧州委員会は4月21日にAIに関する法案草案を正式に発表した。 81ページに及ぶ草案では、EUは社会...

AlphaFold2の最初の公開PyTorchバージョンが複製可能になりました。コロンビア大学のオープンソースで、1,000以上のスターが付いています。

ちょうど今、コロンビア大学のシステム生物学助教授であるモハメッド・アルクライシ氏が、AlphaFol...

清華大学の博士が「チップレット・アクチュアリー」サミットを提案!ムーアの法則に近づくほど、マルチチップ統合のコスト効率は向上する。

Chiplet は、製品の歩留まり、パッケージの歩留まり、さまざまなコストなどを考慮しながら、大規...