先日書いたSEOmozの2011年SEO振り返りの記事、想像以上の反響でした。
そこで、追加してSEOmozがどんな「手法」でこの結果を出したか、ご紹介します。検索エンジン調査の手法と考え方の基本。
※前回の記事はこちらです。
まだご覧になっていない方はまずこちらをどうぞ。
▼2011年のGoogle上位表示、SEOmozが発表した「大事なポイント」
今回は、検索エンジンの動きについて自分で細かく分析したい、という方向けの内容です。
ただ、そうでない方も知っていて損は無いと思います。
目次
前提:データについて
SEOmozの調査結果ですが
- あくまで「米国Google」における調査結果(いずれは他の言語も対応したいそうですが)
- データはパンダアップデート以降のデータを使った
ものです。パンダ前後は大きく違うのでここをきちんと押さえてもらっているのは、ありがたいです。
1.調査対象キーワードはどうやって選んだ?
- さまざまなタイプのキーワードがまんべんなく入っていなければならない
- そのために、Adwordsの15コある最上位カテゴリーと、その下にあるそれぞれの800キーワードを選んだ。これで合計12,000個のキーワードが集まった。
日本のAdwordsキーワードツールだともっとカテゴリーは多いですが、この部分かと思います。
米国だと「Apparel」「Beauty and personal care」「Computers」「Consumer electronics」「Finance」「Food」「Gifts and occasions」「Health」「Hobbies」「Home and Garden」「Media events」「Sports and fitness」「Travel and tourism」「Vehicles」です。
その中で重複する物を取り除き、最終的に今回調査対象となった10,980キーワードのリストを作ったとのことです。
それぞれのキーワードの検索数もばらけているか
また、それぞれのキーワードのローカル検索数も調べて、偏りが無いかチェックしています。
結果としては以下の表のようになりました。ばらけていますね。
ローカル月間検索数 | キーワードの数 |
1,000以下 | 723 |
1,000~5,000 | 3574 |
5,000~10,000 | 2875 |
10,000~20,000 | 1435 |
20,000以上 | 1864 |
2.検索結果について(SERPsについて)
- 10,980キーワードそれぞれについて、GoogleUSAにおいてトップ30サイトをピックアップ
- 地域やパーソナリゼーションは可能な範囲で排除
- 画像・動画・ニュースなどの結果は除外
- 15より少ない結果しか返さないキーワードは、先ほどのリストから除外
- 結果として10,271のキーワードに対して、223,737のユニークなサイトをリストアップした
3.要因について
ここまでで手に入れたリストについて、後はSEOmozのLinkScapeを使っていくだけです。
3_1.サイトのURLメトリクス
APIで取れるURLメトリクスです。具体的には以下の様な物です。
※詳細は「「SEOmozまとめ」SEOmozAPIを使うとできること(1)|海外WEB戦略戦術ブログ」
項目(原文) | 項目 | 詳細 |
---|---|---|
Title | タイトル | ページのタイトル |
URL | URL | そのページのURL |
External Links | 外部リンク数(nofollow除く) | リンクジュースを流してくれる、意味のあるリンクの本数 |
Links | リンク数 | 十把一絡げなリンクの本数(nofollowやリダイレクト、内部リンクなどもろもろ) |
mozRank | mozRank | SEOmozが提供しているPageRankのようなもの。10点評価。GoogleのPageRankより少し多めの数字である。Googleの検索結果と相関が取れるように常にチューンしているらしい。 |
Subdomain mozRank | サブドメインのmozRank | そのURLのサブドメインのmozRank |
HTTP Status Code | HTTPステータスコード | そのサイトが返してきたステータスコード。200OKであったり、404NotFoundだったりと。 |
Page Authority | ページの信頼度 | SEOmoz独自の指標で、そのページに対する信頼度。主に信頼度の高いドメインからリンクをもらうことで上がっていく。 |
Domain Authority | ドメインの信頼度 | ドメイン全体での信頼度。 |
3_2.アンカーテキスト
これもAnchor Text APIを使って得られる項目と同じです。
アンカーテキストの中にキーワードが入っているか、その位置はどこか、nofollowかそうじゃないか、などなど…
3_3.ソーシャルメディアシグナル
Facebook、Google Buzz(Plusではない、たぶんAPIがなかったから、というかサーブスが無かった)、Twitterでの言及をTopsyのAPI経由などで調べたそうです。
3_4.ページ内要因
これは単純にそのサイトの中身から調べているようです。URLの中にキーワードが入っているか、コンテンツはどのくらいの長さがあるか、といったものなので。
3_5.ドメイン要因
これもシンプルに調べたようです。
4.解析方法
基本的にはスピアマンの順位相関係数(Wikipedia)を使って相関を出していくようです。データ的に正規分布(ガウス分布)しているとも思えないので、そうなりますね。
スピアマン相関を使ってそれぞれのキーワードごとに一つ一つ調査をしていき、最終的に全てのキーワードのデータを平均してデータを作ったという流れだそうです。検定はt検定を使ったとのこと。また、Normalized Discounted Cumulative Gain(NDCG)などの結果とも付き合わせたとのことです。
※すいません統計はかじっただけなので、妙なところがあったら教えてください。
このようにして出た結果が前回のGoogleの上位表示調査結果だそうです。
ここまで公開してくれると、他の人が検証できるのでとてもいいですね。こういう姿勢はぜひ見習いたいです。
また、検索エンジンに関わる大規模データの処理手法としても、参考になる情報なんじゃ内かな、と思いました。
また、実際の生データが元記事の右上「Full Results Download」からEXCEL形式でダウンロードできます。
http://www.seomoz.org/article/search-ranking-factors#methodology
ご興味のある方はぜひ(^_^)
Discussion about this post