PageRank アルゴリズムは、Google のランキング アルゴリズム (ランキング式) の一部です。これは、Google が Web ページのランク/重要度を識別するために使用する方法であり、Google が Web サイトの品質を測定するために使用する唯一の基準です。 これは PageRank アルゴリズムに関する純粋に理論的な研究記事です。前半では PageRank の基本理論を説明し、後半では独自の研究結果をいくつか提示します。さらに、PageRank アルゴリズムに関するこれらの抽象的な研究は、主にサイト内リンクをより適切に構築するために行われ、ツールバー PR (一般に PR と呼ばれるもの) とはまったく関係がないことを強調したいと思います。 また、PageRank アルゴリズムは最も古典的なリンク アルゴリズムの 1 つであるため、SEO 担当者にとって PageRank アルゴリズムを理解することは非常に重要です。ブログの読者のレベルは様々ですが、より多くの方に理解していただけるよう、わかりやすい記事を心がけています。長いですが、見る価値はあると思います。 1. PageRankの概要 PageRank はランダム サーフィン モデルに基づいており、ブラウザーが Web サイトにアクセスする方法のシミュレーションとして考えることができます。ウェブページへの被リンクが多く、それらのリンクがユーザーのクリック率が比較的高い位置(例えば、リンクが本文の直後にある場合は効果が高く、リンクがフッターにある場合は効果が低く、これも PageRank アルゴリズムにカウントされやすい)に配置されている場合、ユーザーに閲覧される機会が増えるため、検索エンジンの目にはより重み付けされます。 PageRank アルゴリズムのランダム サーフィン モデルは、理解しやすいため、「投票」に例えられることがよくあります。ページが別のページにリンクしている場合、それは投票とみなされ、投票数が多い Web ページの重みが高くなります。また、各ページの投票権は平等ではありません。ソース Web ページ自体の重みが高いほど、その投票権は大きくなります。したがって、ページの権威を高めたい場合は、十分な高品質のリンクが必要です。 PageRank アルゴリズムの数学的要件は非常に高いです。この記事では、できるだけ単純な観点から実用的な事柄を記述することだけを試みています (そして、それしかできません)。 2. PageRankの生成と転送 初期の PageRank 値は Web ページによって生成され、新しい Web ページごとに非常に小さな PR 値が割り当てられます。また、検索エンジンは、初めて発見されたドメイン名のホームページに、より低い PR 値を与えることもあります。これに関連して、PageRank アルゴリズムが改善されています。 PageRank の転送はこれらのページから開始され、ページの PR 値の約 85% が付与され、そのページにリンクされているページがこの PR の 85% を均等に共有します (その結果、ページ自体の PR が失われることはありません)。以下は図を使って簡単に説明します。 3. PR価値移転の簡単な模式図 まず、ホームページの PR スコアが 100、コラム ページの PR スコアが 85、内部ページの PR スコアが 72 であると仮定します。値は、主に区別の便宜上、任意に選択されます。理解を容易にするために、この図も非常に簡略化されており、ホームページに戻る内部ページや列ページなどの問題は考慮されていません。 図の 2 行目と 3 行目は、それぞれ 2 回の計算を表しています。実際には、数値の安定性を実現するには、さらに多くの回数が必要です。もちろん、ここでは説明のためだけのものであり、2 回で十分です。 最初の計算では、アウトバウンドリンクのある各ウェブページから PR 出力を計算します。このとき、コラムページと内部ページはそれぞれ PageRank 値を取得します。ただし、内部ページが実際に得る PageRank はこれだけではないはずです。最初の計算では、それに関連付けられている列ページがより多くの PR を獲得しているからです。このとき、2 回目の計算が実行され、このとき内側のページはより多くの PR を取得します。 実際の適用では、リンク構造がはるかに複雑であるため、内部ページがホームページにリンクバックするため、図の内部ページの合計 PR がホームページの PR よりも高くなる可能性は低くなります。複数回の計算を経て値が安定すると、各ページのスコアは非常に大きくなりますが、それらの比率は安定します。 4. PageRankアルゴリズムに関する推測 上図を見ると、PR 発信において非常に重要なポイントは「レイヤー」という概念であることがわかります (たとえば、3 層構造は、一般的にトップ ページ、コラム ページ、内部ページで構成されています)。ただし、各レイヤーにページがいくつあっても、そのレイヤーの PR 値がなくなるまでページは常に分割されます。したがって、ここではレイヤーをノードと見なすことができます。 ps ノードは、概念を簡素化するために使用できるポイントです。 SEO では、ページ、インデックス用語などはすべてノードと見なすことができます。たとえば、以下の 2 層の標準構造の場合、目を閉じて、ホームページと内部ページを 2 つの点として想像すると、それらを結ぶ 2 つの矢印 (円弧) があり、ホームページが内部ページに接続され、内部ページがホームページに接続されていることを表します。 下の図を見てください。最初は数値にあまり注意を払う必要はなく、意味を理解するだけで十分です。 上の図には、数学的には単純ですが、非常に複雑な計算がいくつか含まれています。計算方法は最初の画像と同じですが、内部ページからホームページに戻るリンクも考慮され、合計 3 回の計算が行われます (Dadi によると、Google は繰り返して 3 回計算しますが、Baidu は 1 回しか計算しないそうです...)。 リンク構造の層が増えるほど、合計 PageRank 値が高くなることがわかります。しかし、問題は、追加の PageRank のほとんどがコラム ページにあることです。Web サイトの種類によっては、コラム ページの PR が非常に高い必要はありません (ただし、大規模な Web サイトでは、クローラーが頻繁にクロールできるように、コラム ページに十分な PR を提供する必要があります)。 階層が多い構造の最大のデメリットは、内部ページ階層の総PRです。階層数が増え、重み(2)が増すと、ウェブサイトのトップページに多くのPRが与えられ(実際の状況では、トップページの方が外部リンクを獲得しやすいため)、上げられるPageRank値は非常に少なくなります。 この理論的推論が正しければ、多くのレイヤーを持つ Web サイトの内部ページが十分に最適化されていない場合、そのランキングは主にドメイン名の重みに依存し、Web ページの重みにはほとんど依存しない可能性が高いと結論付けることができます。ウェブページの重みをまとめて活用できれば、大規模なウェブサイトのトラフィックは飛躍的に増加する可能性があります。 内部ページのウェブページウェイトを改善する方法については、まず、このアイデアに従って他のリンク構造をさらに試すことができます。また、前述のように、リンクの位置はウェイトの転送率に影響を与える可能性があります。重要でないリンクを、検索エンジンによって排除されるノイズ領域に配置する方がはるかに良い場合があります。 小規模なウェブサイトの場合、多くのブログが 2 層構造になっており、内部ページの重量を簡単に最大化できることもわかります。もちろん、標準的な 2 層構造では、ブログのホームページに内部ページへのリンクをさらに表示する必要があります。このページのアプローチを参照してください: http://sjolzy.cn/Js.html。 5. ランダムな考え 一部のデータは単純に理論的な推論によって計算されており、ある程度の参考価値があるはずですが、それでも問題がある可能性があります。まず、PageRank の計算は実際にははるかに複雑です。ここで使用されている計算方法はすでに最も単純化されたものであり、完全なアルゴリズムとは異なる場合があります。さらに、PageRank アルゴリズムは過去 10 年間にわたって継続的に改善されており、理論と実践の間に相違が生じる可能性もあります。たとえば、多層リンク構造の下では、ページ内部 PR の欠点はそれほど明白ではない可能性があります。 もちろん、これらの推測を裏付ける証拠はあります。そうでなければ、これほど苦労する必要はありません。たとえば、多くの人はブログ記事の重みが比較的高いと考えています。大規模なウェブサイトの SEO トラフィックは大きく異なり、非常に高いものもあれば、そうでないものもあります。また、検索エンジンでは、ホームページから内部ページへのクリック数をできるだけ少なくする必要があるとよく言われます。 ただし、結論が不確かなため、ウェブサイトの SEO 改善の参考にはなりますが、コピーしない方がよいでしょう。 これらすべてにかかわらず、注目すべき点の 1 つは、PageRank アルゴリズム自体が SEO で大きな割合を占めるわけではなく、すべてが「重み」という言葉に起因するわけではないということです。 Guoping 氏の言葉を借りれば、SEO の詳細については理解すればするほど良いのですが、実際に行う際には、やはり全体的な状況を考慮する必要があります。 また、この記事のアイデアや考えは主に Baidu に適していますが、最終的な結論は普遍的ではない可能性があります。 Baidu は PR を決定するためにこれを一度しか計算しない可能性があるため、現時点では値は安定していません。そのため、Baidu がリンクの質よりも量を重視しているという本来の感覚には、ある程度の根拠があると思われます。 この記事の計算方法は、いくつかの特殊なリンク構造を試す場合にも適用できる可能性があり、より正確な結果を得るためにページングなどの問題も考慮できる可能性があります。 検索エンジンの原理を理解することの主な利点の 1 つは、同じ問題をより深く理解できることです。 PageRank については、リンクの量と質に重点を置くだけで十分だと考える人もいますが、実際には非常に詳細な検討が必要になる場合があります。この記事の研究は深いとは言えませんが、能力が限られているため、さらに研究を進めることは困難です。興味があり、能力のある方は、Google の秘密 - PageRank 完全解説中国語版 (http://www.kreny.com/pagerank_cn.htm) を参照して、さらに詳しく調べることができます。 【編集者のおすすめ】
|
人類は歴史の中で長い道のりを歩んできましたが、現在の技術の進歩は人類の進歩のペースを加速させ、すべて...
従業員にとってリモートワークが実現可能であることを示す証拠は豊富にあります。 Zoom や Micr...
人工知能に代表される新技術は、知識記憶を主眼とする中国の教育モデルの優位性を覆すことになるのだろうか...
[[424227]] 1. 何ですかアルゴリズムとは、問題に対する解決策の正確かつ完全な説明を指し...
作者は長い間ブログを更新していませんでした。その理由の一つは、開発したプロジェクトで使用されている技...
ビッグデータダイジェスト制作出典: theguardianすべての作家にとって、盗作はおそらく最も許...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
世界中の組織がリモートワークに移行する必要に迫られ、業務を維持するために技術的な対策が必要になりまし...
[[286340]] 【画像出典:venturebeat オーナー:venturebeat 】この記...
AI 支援による記事執筆は今やどこにでもあります。ChatGPT は多くの言語ベースの AI アプリ...
皆さんは多くの人工知能プロジェクトを見たり使用したりしたことがあると思いますが、そのほとんどは非常に...
6月28日、モバイルチャットロボットChatGPTがインターネットにアクセスできるようになったが、検...