「Webサイトの継続的改善」のための手段として、「アクセスログ解析」をもっと有効に活用しましょう!このコーナーでは、「アクセスログ解析」を行うための手引き、分析方法や結果の活用方法などを、わかりやすく説明していきます。
2006年01月26日
ページの閲覧時間と、訪問での滞在時間の考え方
今回のエントリーでは、ログに残されたファイルアクセス時間から計算される「ページの閲覧時間」「訪問の滞在時間」の考え方と、データを扱う際の注意について書きます。
滞在時間の基本的な考え方
「ページの閲覧時間」は、ひとつの訪問の中で、ある閲覧されたページと、その次に閲覧されたページの時間の差で計測されます。「訪問の滞在時間」は、1訪問における「ページの閲覧時間」の合計です。例えば次のような訪問データでは、各ページの閲覧時間は以下のようになります。
訪問の単位 | 日時 | IPアドレス | ユーザーエージェント | アクセスしたファイル | 閲覧時間 |
---|---|---|---|---|---|
A | 2006/1/10 12:00:30 | 1.22.33.44 | Mozzila 4.0 | /index.html | 1:30 |
A | 2006/1/10 12:02:00 | 1.22.33.44 | Mozzila 4.0 | /product3/main.html | 3:30 |
A | 2006/1/10 12:05:30 | 1.22.33.44 | Mozzila 4.0 | /service/index.html | - |
ページの閲覧時間、訪問の滞在時間を計測する際の注意
上記のようにファイルのアクセス時間の差で滞在時間を計測するのですが、表にすると分かるように、訪問の最後のページで非常に困った事態が発生します。時間差を測るための「次に閲覧したページ」がないのです。そのため、訪問の最後に閲覧されたページは、ページの閲覧時間を計算することができません。訪問の滞在時間も、訪問の最後に閲覧したページまでの時間しか計測できません。これが、ひとつめの注意です。
このことから、1ページで訪問を中止してしまった際は、ページの閲覧時間・その訪問での滞在時間は計測できない、ということがわかります。これがふたつめの注意です。訪問あたり2ページ以上閲覧している場合でさえ、訪問の最後のページをどれだけ閲覧したかがわからないため、本当の意味での訪問の滞在時間を正確に計測することはできません。1ページで閲覧を中止する訪問が多い場合にはなおさら、訪問の滞在時間は正しく計測できない、ということになりますので、時間を用いた分析を行う際は、十分注意して下さい。
恒久リンク | コメント [0件] | 関連情報(トラックバック) [0件]
2006年01月10日
参照元が自分のサイトになってしまう現象(2)
2006年第1回目のエントリーです。今年も宜しくお願いします。
さて、前回のエントリーでは、「参照元が自分のサイトになってしまう現象」の原因として「訪問」という概念の解釈の仕方に問題があることを指摘し、実際に訪問という概念がどのように定義されているかまで確認しました。
今回のエントリーでは、そのように訪問を定義すると、なぜ「参照元が自分のサイトになってしまう現象」が起きてしまうのかを説明します。
まずは要領をつかむために、訪問の定義にもとづき、アクセスログを訪問の単位に分ける簡単な例を示します。仮に以下のアクセスログをもつサイトを(サイトA)とすると、
日時 | IPアドレス | ユーザーエージェント | アクセスしたファイル | 参照元 |
---|---|---|---|---|
2006/1/10 12:00 | 1.22.33.44 | Mozzila 4.0 | /index.html | - |
2006/1/10 12:01 | 9.88.77.66 | Opera | /product1/main.html | http://www.yahoo.co.jp/ |
2006/1/10 12:02 | 1.22.33.44 | Mozzila 4.0 | /product3/main.html | http://(サイトA)/index.html |
2006/1/10 12:04 | 9.88.77.66 | Opera | /product2/main.html | http://(サイトA)/product1/main.html |
2006/1/10 12:06 | 1.22.33.44 | Mozzila 4.0 | /service/index.html | http://(サイトA)/product3/main.html |
以下のようにAとBという2つの訪問データに分けることができます(訪問の識別は、IPアドレスとユーザーエージェントを用います)。
訪問 | 日時 | IPアドレス | ユーザーエージェント | アクセスしたファイル | 参照元 |
---|---|---|---|---|---|
A | 2006/1/10 12:00 | 1.22.33.44 | Mozzila 4.0 | /index.html | - |
A | 2006/1/10 12:02 | 1.22.33.44 | Mozzila 4.0 | /product3/main.html | http://(サイトA)/index.html |
A | 2006/1/10 12:06 | 1.22.33.44 | Mozzila 4.0 | /service/index.html | http://(サイトA)/product3/main.html |
B | 2006/1/10 12:01 | 9.88.77.66 | Opera | /product1/main.html | http://www.yahoo.co.jp/ |
B | 2006/1/10 12:04 | 9.88.77.66 | Opera | /product2/main.html | http://(サイトA)/product1/main.html |
では、以下のような場合はどうでしょうか?
日時 | IPアドレス | ユーザーエージェント | アクセスしたファイル | 参照元 |
---|---|---|---|---|
2006/1/10 12:00 | 1.22.33.44 | Mozzila 4.0 | /index.html | - |
2006/1/10 12:01 | 9.88.77.66 | Opera | /product1/main.html | http://www.yahoo.co.jp/ |
2006/1/10 12:02 | 1.22.33.44 | Mozzila 4.0 | /product3/main.html | http://(サイトA)/index.html |
2006/1/10 12:04 | 9.88.77.66 | Opera | /product2/main.html | http://(サイトA)/product1/main.html |
2006/1/10 12:40 | 1.22.33.44 | Mozzila 4.0 | /service/index.html | http://(サイトA)/product3/main.html |
訪問の分け方は先程と同様です。しかし今回は、1.22.33.44とMozzila 4.0という同じIPアドレスとユーザーエージェントの組み合わせによるアクセスで、時間間隔が30分以上空いているものがあります。このアクセスは、実際には1つのブラウザで行われたもので、食事か何かで少しの間、席を空けていただけでした。しかし、訪問の分け方には、「ページのアクセスの間隔が30分を超えたら、別の訪問とする」というルールがあります。よって、訪問は、以下のように、A1、A2、Bという3つに分かれます。
訪問 | 日時 | IPアドレス | ユーザーエージェント | アクセスしたファイル | 参照元 |
---|---|---|---|---|---|
A1 | 2006/1/10 12:00 | 1.22.33.44 | Mozzila 4.0 | /index.html | - |
A1 | 2006/1/10 12:02 | 1.22.33.44 | Mozzila 4.0 | /product3/main.html | http://(サイトA)/index.html |
A2 | 2006/1/10 12:40 | 1.22.33.44 | Mozzila 4.0 | /service/index.html | http://(サイトA)/product3/main.html |
B | 2006/1/10 12:01 | 9.88.77.66 | Opera | /product1/main.html | http://www.yahoo.co.jp/ |
B | 2006/1/10 12:04 | 9.88.77.66 | Opera | /product2/main.html | http://(サイトA)/product1/main.html |
このとき、A2の訪問の参照元は、何の問題もなくリンク元である自分のサイト(この場合は、http://(サイトA)/product3/index.html)になります。このように、ページのアクセスの間隔を30分以上空けて次のページを閲覧することが、参照元が自分のサイトになってしまう現象が起きてしまう第1の原因です。なお、この30分という時間は、解析ツールのデフォルト設定なので、もっと間隔を長くすることもできます。間隔を長くすることで、ある程度現象を回避することができます。しかし、あまりに長くしすぎると、別の訪問とみなすべきアクセスまでひとつの訪問にまとめかねないので、注意が必要です。
第2の原因は、クライアント側の接続形態として、複数のProxyを利用していた場合です。1人の訪問者が、1つのPC、1つのブラウザを用いていても、複数のProxyを利用していると、ページにアクセスする度にIPアドレスが変わってしまうため訪問が分けられてしまい、その都度参照元が自分のサイトとなってしまいます。例えば、以下のような場合です。
訪問 | 日時 | IPアドレス | ユーザーエージェント | アクセスしたファイル | 参照元 |
---|---|---|---|---|---|
A1 | 2006/1/10 12:00 | 1.22.33.44 | Mozzila 4.0 | /index.html | - |
A2 | 2006/1/10 12:01 | 1.22.33.45 | Mozzila 4.0 | /product1/main.html | http://(サイトA)/index.html |
A3 | 2006/1/10 12:02 | 1.22.33.46 | Mozzila 4.0 | /product2/main.html | http://(サイトA)/product1/main.html |
これを回避するためには、訪問の識別として「IPアドレスとユーザーエージェント」による組み合わせに頼るのではなく、Cookieなどを用いてもっと厳密な識別を用いることです。但し、これを用いたとしても、Cookieを無効にしたブラウザからのアクセスでは正しく訪問を分類できませんし、上記した第1の原因から逃れられる訳でもありません。
このように、参照元が自分のサイトになってしまう現象は、完全には回避できるものではありません。経験的には、参照元の5%程度が自分のサイトになるのは、止むを得ないと考えています。ただ、5%よりも数値が断然大きいようなら、上記2つの原因を見直して、修正が必要だと考えます。