検索エンジン最新情報のSEO塾の公式ブログ。ヤフー・グーグルなどの検索上位表示対策と順位変動、インデックス更新、ツールや機能、その他の話題など
SEOの最新情報は、『SEO塾の公式ブログ @アルゴリズム社』をご利用ください。
国内外の情報に惑わされず、独自の検証と実験を続けているSEO塾が、検索エンジンのアルゴリズムとペナルティの謎に接近。
順位変動に迷わない、回復リカバリーを成功させたい。そう思った方は、SEOセミナーの開催情報をご覧ください。
(1)Deepbotによる、ディープクロール、そしてインデクシング。
(2)インデックスの更新=Google Dance。
(3)SERPの順位変動。
Google Dance中に、更新前のデータセンターと更新後のデータセンターで、キーワード検索を行った場合、違うSERPを出していた。
この時代は、フレッシュクロールと名付けられた現象があり、日付入りのキャッシュで、ページが瞬間上位表示されていた。あるいは、新規ページは束の間のSERP出現であった。
インデックスの更新とは、順位変動をもたらすデータベースの更新のことであり、またGoogleの順位付けのエレメントは、次の3つであった。
・ページ内の、キーワードマークアップ
・ページ外の、アンカーテキストマッチ
・ページ外の、PageRank
Google Danceによるインデックスの更新では、各ページの上記の3つが更新されて、順位が変動していた。
Googleのサーバには、順位付けを決定するインデックスサーバと、インデックスサーバからの信号によって、ユーザーに検索結果のタイトルとスニペット(説明文)を提供するドキュメントサーバとが、あるらしい。またユーザーがアクセスし、検索結果を受け取るのはウェブサーバとのこと。(INTERNET MAGAZINE 2004・1月号から)
インデックスサーバに登録されているページだけが、SERPに表示される。(実は例外もあるが…)
インデックスサーバが更新された時、順位が変動する。これが、Everfluxである。
ドキュメントサーバに登録されているページは、SERPにタイトルとスニペットが表示される。
ドキュメントサーバが更新された時、タイトルとスニペットが変更される。
バックリンク系とは、ツールバーのPageRank、〜へリンクしているページの検索、〜に関連したページの検索などである。
いわゆるインデックスサーバの更新中に、複数の世代のインデックスが確認できるのだが、バックリンク系が違っているのに、SERPがほぼ同じとなっている。
また、Google Dance時代と違って、PageRankが高くてもSERPの上位に表示されるわけではないし、PageRankが低くても上位表示されるケースもある。
とにかく、バックリンク系は、更新といい、上位表示エレメントといい、おかしくなっている。
ディープクロールとは、順位変動の元となるページのインデクシングであり、さらには、ディレクトリの下の階層のページまで「深く」インデックスされること、だったと思う。その担当が、Deepbotだった。
さてまず、Deepbotはなくなっている、昔の名前でFreshbotしか巡回していない。その時のFreshbotのIP以外のものや、新種も出現しているが、Freshbotと呼ばれていたものが主にクロールしている。
また、SERPに日付入りが出ているが、順位変動する時としない時があり、そもそも日付が入っていないページも交じっている。しかし、巡回してくるGooglebotの違いによって、単なるキャッシュ更新と、順位変動とを、区別できていない。
当管理サイトだけかもしれないが、サイトトップをはじめとして、"特定の"DirectoryIndexは毎日のように、GooglebotにGETされていて、かつ日付入りでSERPに現れる。
特定のページ以外は、数日おき、あるいは月1回の巡回であり、管理サイトでは日付入りになったことがない。また他サイトでは、時々DirectoryIndex以外の日付入りが見受けられる。
しかし、キャッシュが更新され、また特定のページに限らず、随時SERPで順位変動している。
キャッシュ更新用のクロール(フレッシュクロール)と、インデックス更新用のクロール(ディープクロール)は、まだあるのだろうか?
要するに、インデックス更新のための、特別なGooglebotの巡回を、昔の名前のディープクロールを、確認することはできない。
特に今では日付入りが毎日のように登場するので紛らわしいが、キャッシュの更新とインデックスの更新とを区別する必要がある。
・ページ内の、キーワードマークアップ
・ページ外の、アンカーテキストマッチ
・ページ外の、PageRank
Everfluxでは、3つ同時ではなく、随時、個別に更新している可能性もある。
とにかく、順位変動が起こったときは、インデックスが更新されていると、認められる。
もし、ディープクロールがなければ、いつ、どのタイミングでインデックスの更新をやるか?が問題となる。
特に昔の、Google Dance時代の、インデックス大更新の混乱を思い起こせば、そんなに簡単に、ちょこちょこっと、ページのキーワードの記述の点数付け、他のページからのキーワードのアンカーリンク、PageRankの計算、などが、そういったインデックスの更新が、行われるのだろうか?
Google Dance時代は、Deepbot巡回からダンス開始まで、2週間ほど掛かっていたし、この真の意味の大更新も、月一回のペースでしかできていなかった。
3世代のインデックスで、ほぼ同じSERPを出している事実から、
黙示録サイトとしては、PageRankをはじめとして、バックリンク系の上位表示の価値はゼロ、と仮説を立てる。
順位変動の元となるページのインデクシングは、どういう仕組みに変わったのだろうか?
ある程度Googlebotが巡回で貯めたページキャッシュから、インデックスに組み込んでいるのでは?
黙示録サイトとしては、最初からインデクシングのための特別なGooglebotはないし、ディープクロールを目的としたクロールもない、と仮説を立てる。
2003-12-04追記。黙示録サイトとしては、インデックスサーバ担当のIndexBot:インデックスクロール、ドキュメントサーバ担当のCacheBot:キャッシュクロール、と仮説を立ててみる。ついでに、日付入りは、キャッシュクロールだが、特別にDateBot:デートクロール、とでも呼ぼう。
Googleの特許取得の記事によると、クエリ時にPageRankなどを再計算するとあったはずだ。
要は、PageRankがクエリ時に再計算できるくらいなら、他ページからのキーワードのアンカーリンクも再計算できるはず、ということだ。
だから、ページの蓄積技術の向上の方ではなく、キーワード検索の、結果抽出技術の向上の方に、目を向けてもいいだろう。
黙示録サイトとしては、キーワード検索によって抽出された"動的な"クエリの段階で、重要な上位下位の順位付けが行われる、と仮説を立てる。
2003-12-04追記。黙示録サイトとしては、単なるリンクポピュラリティとしてのPageRankをSEOスコア要素としなくなった。そのため、キーワードマークアップとアンカーテキストマッチだけなら計算が速く、月一更新ではなく随時更新が可能になった、と仮説を立てる。
クエリは、フィルタの方だろう。
クエリ段階で、順位付けの重要部分を担うのであれば、インデックスには、ページのキーワード記述情報、キーワードマークアップに関するものだけでも済みそうだ。
ちなみに、データベースの構造から、Googleのデータセンターには、同一IDを持たせた複数のテーブルが存在すると想像する。
主要なものは、info:サイト名で現れる、キャッシュテーブル、バックリンクテーブル、関連ページテーブル、含むページテーブル、それにPageRankテーブルなどである。これに、キーワードマークアップテーブルも加わるだろう。
黙示録サイトとしては、インデックスは複数のテーブルに分かれていること、かつ更新も全て同時ではない、キャッシュ系・バックリンク系・キーワード系の3つが少なくとも別になっている、と仮説を立てる。
2003-12-04追記。INTERNET MAGAZINE 2004・1月号の記事によると、インデックスサーバとドキュメントサーバが分かれている。またインデックスサーバには、100種類を越えるインデックスがあると。
ドキュメントサーバは、ほぼ日次更新、インデックスサーバのキーワード系は随時更新で、これがEverfluxの正体である。そして、バックリンク系が月次更新される。
日次更新と随時更新は、すべてのデータセンターで、それこそ、日次処理、随時処理されていて、ほぼ同一のものに同期化されている。
2003-12-04追記。すべてのデータセンターで、ドキュメントサーバは日次更新、インデックスサーバは随時更新されていて、かつ、ほぼ同一のものに同期化されている。
違っているのは、バックリンク系だけである。
黙示録サイトとしては、インデックスの更新のタイミングは検証不足なので、Googleの任意、あるいは恣意で行われる、と想像してみる。
ほぼ毎日、SERPに日付入りキャッシュが出現している。日付入りと、そうでないものを区別するものは何か?
傾向としては、DirectoryIndexが多い。
しかし、そうではないページにも日付が出ている。
エビデンス:http://www.hyperposition.com/maga2/magaregi2.html
キーワード:「売上 メールマガジン」「集客 メールマガジン」
黙示録サイトとしては、Googlebotによく巡回されるページに、日付入りキャッシュが出る、と仮説を立てる。
Googlebotの巡回パターンは、月次巡回、随時巡回、日次巡回とある。ような気がする。
では、日次巡回されるページの条件は何だろう?
SEOの、老舗サイトや大御所が、「PageRankが高いページや、PageRankが高いページからリンクされたページなどが、よく巡回される」とおっしゃっているが、エビデンスがない。
またよく更新されているページは、よく巡回される、というのも検証されていない。管理サイトの中には、放置しているものがあり、更新しいなくても、よく巡回されている。ただし、日付が出ていない。
黙示録サイトとしては、Googlebotによく巡回されるページからリンクされているページは、やはりGooglebotによく巡回されるページである、と仮説を立てる。