「Webサイトの継続的改善」のための手段として、「アクセスログ解析」をもっと有効に活用しましょう!このコーナーでは、「アクセスログ解析」を行うための手引き、分析方法や結果の活用方法などを、わかりやすく説明していきます。
2006年04月23日
アクセス解析のデータに紛れ込む異常データの調査
参照元が「なし」となるケースのエントリーに関して最近コメントをいただいたように、アクセス解析の結果は、にわかには信じ難い結果が出ることがあります。そして確かにアクセスログのデータは、100%完全なアクセスの記録とは言えないところがあります。なかでも最も注意すべきなのは、ロボット・クローラーからのアクセスまで、有人のアクセス解析の結果として加算することがあることです。
代表的なサーチエンジンのロボット・クローラーであれば、ユーザーエージェントにはっきりとわかる名称を残してくれます。この場合はアクセス解析ツールであらかじめデータを削除してくれます。しかし、中にはブラウザ経由のアクセスのときと全く同名のロボット・クローラーからのアクセスもあります。解析結果に不審な点があれば、こういった「異常」なデータがないかどうかを調べて、できる限り削除することが必要です。
とは言ってもアクセス解析ツールは、ユーザーエージェントの名称がブラウザからのアクセス経由のアクセスと同じであれば、どのようなデータも「正常」なデータとして取り扱ってしまいます。その中から「異常」なデータを探すための秘策というものは実はありません。データをより詳しく細かく見ていくしかないというのが実際のところです。しかし、たた闇雲に解析結果を見ても、どのデータが怪しいかはわかりません。それを探すためのコツをいくつか挙げてみます。
(1)IPアドレス・ユーザーエージェントの組み合わせでの訪問数を調べる
まずは、IPアドレス・ユーザーエージェントの組み合わせでの訪問数を確認します。この結果、訪問数が飛びぬけて多いものがあれば異常なデータである可能性が高いですし、そうではなくても上位のデータに関しては、これ以降の分析の重点チェック対象とします。
(2)曜日別・時間帯別のアクセス状況を確認する
次に、曜日別・時間帯別のアクセス状況を確認します。これによって、周期的に同一IPアドレス、ユーザーエージェントからの訪問がないかどうか、あるいは不自然に集中的なアクセスがないかどうかを確認します。特に(1)で見た重点チェック対象をチェックすると良いでしょう。
(3)重点チェック対象の訪問に限定して、ページ別のアクセス状況を確認する
さらに、(1)の重点チェック対象の訪問に限定して、ページ別のアクセス状況を確認します。これによって、閲覧されているページに極端な偏りがないかどうかを確認します。また、閲覧されているページに偏りがあるときは、そのページを訪れた訪問毎のページビュー数の分布も調べてみましょう。この分布で、もし1訪問あたり1ページビューのデータが多ければ、同一IPアドレス・ユーザーエージェントの組み合わせで、あるページを閲覧して、それで訪問を終了するというパターンが多いということになりますので、やはり異常だと言えるでしょう。
(4)1回で極端に多いページ数を閲覧している訪問の有無を確認する
最後に、(1)~(3)とは異なる視点となりますが、1回で極端に多いページ数を閲覧している訪問の有無も確認しましょう。よく見ると、1回の訪問で何日もかけて1000ページビューを超えるようなアクセスが見つかることもあります。
このように、異常なデータの探索は、単なるロボット・クローラーからのアクセスの削除にとどまらず、統計上の異常値の探索に近くなることがわかります。そのため、本当にひとりのユーザーが繰り返しアクセスしている場合のデータまで削除してしまうことも、時にはあるかもしれません。しかし、アクセス解析を行う際に何より重要なのは、データから有効な分析を行い、意味のある傾向を見出していくことです。そのことを考えると、異常なデータが、実際のアクセス状況を歪めるレベルにまで影響を及ぼしていると判断できる場合は削除すべきでしょう。