「Webサイトの継続的改善」のための手段として、「アクセスログ解析」をもっと有効に活用しましょう!このコーナーでは、「アクセスログ解析」を行うための手引き、分析方法や結果の活用方法などを、わかりやすく説明していきます。
2006年08月10日
PDFファイルのアクセス数が極端に多い現象
アクセスログ取得方式のアクセス解析ツールなら、PDFファイルへのアクセス状況も把握することができます。しかし、特にPDFファイルの場合、ページビュー数が極端に大きくなることがあり、注意が必要です。
ログファイルには、Webサーバへのアクセスの記録が残されていますが、アクセス解析ツールは、その中で正常終了したログファイルのみを抽出して解析しています。「正常終了した」という判断は、ログファイルに残された「ステータスコード」という情報に依っており、基本的に400番未満のステータスを正常終了とみなしてアクセス数にカウントしています(ステータスコードの一覧)。
しかし、PDFのようにサイズの大きなファイルにWebサーバ経由でアクセスする場合、見た目では1回のアクセスしかしていなくても、サーバ内部では部分的にデータを転送しているということがあります。このデータ転送は、ログファイル上にステータスコード206というかたちで記録され、これがログファイル上に大量に残っていることがあるのです。
ステータスコード206は、400未満ですから当然アクセス解析ツールでは「正常終了」とみなします。そのため、アクセス解析結果を見ると、実際のアクセス数以上のアクセスが残っているように見えるのです。
なお、こういったPDFへのアクセス時のログファイルへの記録は、まずステータスコード200のレコードを1行記録することから始まります。その後、ステータスコード206のデータが連続する、というかたちで記録されてゆきます。
現状、アクセス解析ツールで、この現象を回避して解析する、という対策は取られていないようです。そのため、アクセス解析結果を見たとき、PDFファイルへのアクセスが異常に多い場合は、結果を鵜呑みにせず、上記現象による影響を念頭に置いた方が良いでしょう。