Google Dance(グーグル ダンス)黙示録

Everflux黙示録 Google Dance終末記

Google Dance(グーグル ダンス)黙示録

グーグルダンス黙示録サイトは、「Google上位表示SEO」を意識しつつも、ストリクトHTMLによる正しいマークアップ、見出し段落を中心にコンテンツを作成。デザインやレイアウトは外部参照CSSにまかせ、アクセシビリティにも配慮している。Netscape 4.xをはじめいくつかのブラウザでは、CSSを読み込まず、管理人の意図通りには表示されない。つまりこの文章が見えている。アクセスメニューは最下部に表示される。

アルゴリズム社が運営するSEO塾の公式ブログ

検索エンジン最新情報のSEO塾の公式ブログ。ヤフー・グーグルなどの検索上位表示対策と順位変動、インデックス更新、ツールや機能、その他の話題など
SEOの最新情報は、『SEO塾の公式ブログ @アルゴリズム社』をご利用ください。

国内外の情報に惑わされず、独自の検証と実験を続けているSEO塾が、検索エンジンのアルゴリズムとペナルティの謎に接近。
順位変動に迷わない、回復リカバリーを成功させたい。そう思った方は、SEOセミナーの開催情報をご覧ください。

Everflux黙示録 Google Dance終末記


Google Dance時代を回顧する

Google Dance

(1)Deepbotによる、ディープクロール、そしてインデクシング。

(2)インデックスの更新=Google Dance。

(3)SERPの順位変動。

データセンターの更新前と更新後

Google Dance中に、更新前のデータセンターと更新後のデータセンターで、キーワード検索を行った場合、違うSERPを出していた。

日付入り

この時代は、フレッシュクロールと名付けられた現象があり、日付入りのキャッシュで、ページが瞬間上位表示されていた。あるいは、新規ページは束の間のSERP出現であった。

インデックスの更新

インデックスの更新とは、順位変動をもたらすデータベースの更新のことであり、またGoogleの順位付けのエレメントは、次の3つであった。
・ページ内の、キーワードマークアップ
・ページ外の、アンカーテキストマッチ
・ページ外の、PageRank

Google Danceによるインデックスの更新では、各ページの上記の3つが更新されて、順位が変動していた。



Everfluxの事実確認

Googleのサーバ

Googleのサーバには、順位付けを決定するインデックスサーバと、インデックスサーバからの信号によって、ユーザーに検索結果のタイトルとスニペット(説明文)を提供するドキュメントサーバとが、あるらしい。またユーザーがアクセスし、検索結果を受け取るのはウェブサーバとのこと。(INTERNET MAGAZINE 2004・1月号から)

インデックスとキャッシュ

インデックスサーバに登録されているページだけが、SERPに表示される。(実は例外もあるが…)

インデックスサーバが更新された時、順位が変動する。これが、Everfluxである。

ドキュメントサーバに登録されているページは、SERPにタイトルとスニペットが表示される。

ドキュメントサーバが更新された時、タイトルとスニペットが変更される。

PageRankとバックリンク系

バックリンク系とは、ツールバーのPageRank、〜へリンクしているページの検索、〜に関連したページの検索などである。

いわゆるインデックスサーバの更新中に、複数の世代のインデックスが確認できるのだが、バックリンク系が違っているのに、SERPがほぼ同じとなっている。

また、Google Dance時代と違って、PageRankが高くてもSERPの上位に表示されるわけではないし、PageRankが低くても上位表示されるケースもある。

とにかく、バックリンク系は、更新といい、上位表示エレメントといい、おかしくなっている。

ディープクロール

ディープクロールとは、順位変動の元となるページのインデクシングであり、さらには、ディレクトリの下の階層のページまで「深く」インデックスされること、だったと思う。その担当が、Deepbotだった。

さてまず、Deepbotはなくなっている、昔の名前でFreshbotしか巡回していない。その時のFreshbotのIP以外のものや、新種も出現しているが、Freshbotと呼ばれていたものが主にクロールしている。

また、SERPに日付入りが出ているが、順位変動する時としない時があり、そもそも日付が入っていないページも交じっている。しかし、巡回してくるGooglebotの違いによって、単なるキャッシュ更新と、順位変動とを、区別できていない。

当管理サイトだけかもしれないが、サイトトップをはじめとして、"特定の"DirectoryIndexは毎日のように、GooglebotにGETされていて、かつ日付入りでSERPに現れる。

特定のページ以外は、数日おき、あるいは月1回の巡回であり、管理サイトでは日付入りになったことがない。また他サイトでは、時々DirectoryIndex以外の日付入りが見受けられる。

しかし、キャッシュが更新され、また特定のページに限らず、随時SERPで順位変動している。

キャッシュ更新用のクロール(フレッシュクロール)と、インデックス更新用のクロール(ディープクロール)は、まだあるのだろうか?

要するに、インデックス更新のための、特別なGooglebotの巡回を、昔の名前のディープクロールを、確認することはできない。

インデックスの更新

特に今では日付入りが毎日のように登場するので紛らわしいが、キャッシュの更新とインデックスの更新とを区別する必要がある。

・ページ内の、キーワードマークアップ
・ページ外の、アンカーテキストマッチ
・ページ外の、PageRank

Everfluxでは、3つ同時ではなく、随時、個別に更新している可能性もある。

とにかく、順位変動が起こったときは、インデックスが更新されていると、認められる。

事実は事実でも、疑問が多い

もし、ディープクロールがなければ、いつ、どのタイミングでインデックスの更新をやるか?が問題となる。

特に昔の、Google Dance時代の、インデックス大更新の混乱を思い起こせば、そんなに簡単に、ちょこちょこっと、ページのキーワードの記述の点数付け、他のページからのキーワードのアンカーリンク、PageRankの計算、などが、そういったインデックスの更新が、行われるのだろうか?

Google Dance時代は、Deepbot巡回からダンス開始まで、2週間ほど掛かっていたし、この真の意味の大更新も、月一回のペースでしかできていなかった。



Everfluxの仮説

PageRankとバックリンク系

3世代のインデックスで、ほぼ同じSERPを出している事実から、

黙示録サイトとしては、PageRankをはじめとして、バックリンク系の上位表示の価値はゼロ、と仮説を立てる。

ディープクロール

順位変動の元となるページのインデクシングは、どういう仕組みに変わったのだろうか?

ある程度Googlebotが巡回で貯めたページキャッシュから、インデックスに組み込んでいるのでは?

黙示録サイトとしては、最初からインデクシングのための特別なGooglebotはないし、ディープクロールを目的としたクロールもない、と仮説を立てる。

2003-12-04追記。黙示録サイトとしては、インデックスサーバ担当のIndexBot:インデックスクロール、ドキュメントサーバ担当のCacheBot:キャッシュクロール、と仮説を立ててみる。ついでに、日付入りは、キャッシュクロールだが、特別にDateBot:デートクロール、とでも呼ぼう。

クエリ

Googleの特許取得の記事によると、クエリ時にPageRankなどを再計算するとあったはずだ。

要は、PageRankがクエリ時に再計算できるくらいなら、他ページからのキーワードのアンカーリンクも再計算できるはず、ということだ。

だから、ページの蓄積技術の向上の方ではなく、キーワード検索の、結果抽出技術の向上の方に、目を向けてもいいだろう。

黙示録サイトとしては、キーワード検索によって抽出された"動的な"クエリの段階で、重要な上位下位の順位付けが行われる、と仮説を立てる。

2003-12-04追記。黙示録サイトとしては、単なるリンクポピュラリティとしてのPageRankをSEOスコア要素としなくなった。そのため、キーワードマークアップとアンカーテキストマッチだけなら計算が速く、月一更新ではなく随時更新が可能になった、と仮説を立てる。

クエリは、フィルタの方だろう。

インデックス

クエリ段階で、順位付けの重要部分を担うのであれば、インデックスには、ページのキーワード記述情報、キーワードマークアップに関するものだけでも済みそうだ。

ちなみに、データベースの構造から、Googleのデータセンターには、同一IDを持たせた複数のテーブルが存在すると想像する。

主要なものは、info:サイト名で現れる、キャッシュテーブル、バックリンクテーブル、関連ページテーブル、含むページテーブル、それにPageRankテーブルなどである。これに、キーワードマークアップテーブルも加わるだろう。

黙示録サイトとしては、インデックスは複数のテーブルに分かれていること、かつ更新も全て同時ではない、キャッシュ系・バックリンク系・キーワード系の3つが少なくとも別になっている、と仮説を立てる。

2003-12-04追記。INTERNET MAGAZINE 2004・1月号の記事によると、インデックスサーバとドキュメントサーバが分かれている。またインデックスサーバには、100種類を越えるインデックスがあると。

インデックスの更新

ドキュメントサーバは、ほぼ日次更新、インデックスサーバのキーワード系は随時更新で、これがEverfluxの正体である。そして、バックリンク系が月次更新される。

日次更新と随時更新は、すべてのデータセンターで、それこそ、日次処理、随時処理されていて、ほぼ同一のものに同期化されている。

2003-12-04追記。すべてのデータセンターで、ドキュメントサーバは日次更新、インデックスサーバは随時更新されていて、かつ、ほぼ同一のものに同期化されている。

違っているのは、バックリンク系だけである。

黙示録サイトとしては、インデックスの更新のタイミングは検証不足なので、Googleの任意、あるいは恣意で行われる、と想像してみる。

日付入り

ほぼ毎日、SERPに日付入りキャッシュが出現している。日付入りと、そうでないものを区別するものは何か?

傾向としては、DirectoryIndexが多い。

しかし、そうではないページにも日付が出ている。
エビデンス:http://www.hyperposition.com/maga2/magaregi2.html
キーワード:「売上 メールマガジン」「集客 メールマガジン」

黙示録サイトとしては、Googlebotによく巡回されるページに、日付入りキャッシュが出る、と仮説を立てる。

Googlebotの巡回

Googlebotの巡回パターンは、月次巡回、随時巡回、日次巡回とある。ような気がする。

では、日次巡回されるページの条件は何だろう?

SEOの、老舗サイトや大御所が、「PageRankが高いページや、PageRankが高いページからリンクされたページなどが、よく巡回される」とおっしゃっているが、エビデンスがない。

またよく更新されているページは、よく巡回される、というのも検証されていない。管理サイトの中には、放置しているものがあり、更新しいなくても、よく巡回されている。ただし、日付が出ていない。

黙示録サイトとしては、Googlebotによく巡回されるページからリンクされているページは、やはりGooglebotによく巡回されるページである、と仮説を立てる。



▲To PageTop