Лог-файл - головне джерело інформації про поведінку відвідувача на вашому Web-сайті

  1. Лог-файл
  2. Формат лог-файлів
  3. Події, що відбуваються при зверненні користувача до сайту
  4. Подія 2. Видача сторінки
  5. Подія 3. Запис в лог
  6. Приклад записів в лог-файлі.
  7. Як прочитати та інтерпретувати записи лог-файлу веб сайту
  8. Аналіз лог-файлів сайту
  9. Програми для аналізу лог-файлів сайту

Лог-файл   Лог-файл (або просто лог) - це головне джерело інформації про поведінку відвідувача на вашому Web-сайті

Лог-файл

Лог-файл (або просто лог) - це головне джерело інформації про поведінку відвідувача на вашому Web-сайті. Кожне звернення до сайту фіксується сервером і про нього залишається запис в лог-файлі. За цим записам можна дізнатися величезну кількість інформації про відвідувачів. Лог-файл сервера являє собою текстовий файл, в якому в особливому форматі записані всі дані про звернення до сайту.

Формат лог-файлів

Лог-файли серверів Apache мають формат Common Log Format (CLF). При цьому кожен рядок є записом окремого запиту, що складається з декількох полів, розділених пробілами.

Події, що відбуваються при зверненні користувача до сайту

Подія 1. Запит сторінки

Браузер відвідувача передає на сервер (на якому знаходиться сайт) запит на видачу сторінки. При цьому на сервері стає відомою наступна інформація:

  • IP-адреса відвідувача
  • запитуваний URL
  • Дата і час запиту
  • Географічне положення клієнта
  • Використовуваний користувачем браузер
  • Адреса сторінки, з якої зайшов відвідувач і т.д.
  • Використовувана операційна система і ін.

Подія 2. Видача сторінки

Сервер повертає клієнту запитаний документ (сторінку, картинку, файл та ін.).

Подія 3. Запис в лог

Сервер записує дані про що сталася транзакції в журнал подій (лог-файл).

Приклад записів в лог-файлі.

213.180.195.231 - - [29 / Jan / 2007: Додати 00: 07: 17 +0000] "GET /excel/lsn015.html HTTP / 1.1" 200 18918 "-" "YaDirectBot / 1.0"

74.6.71.37 - - [29 / Jan / 2007: Додати 00: 13: 03 +0000] "GET / eralash HTTP / 1.0" 301 317 "-" "Mozilla / 5.0 (compatible; Yahoo! Slurp; http: // help. yahoo.com/help/us/ysearch/slurp) "

74.6.71.37 - - [29 / Jan / 2007: Додати 00: 13: 06 +0000] "GET / eralash / HTTP / 1.0" 200 12234 "-" "Mozilla / 5.0 (compatible; Yahoo! Slurp; http: // help .yahoo.com / help / us / ysearch / slurp) "

213.186.116.166 - - [29 / Jan / 2007: Додати 00: 26: 51 +0000] "GET /eralash/soft/speed.zip HTTP / 1.0" 200 217872 "-" "Wget / 1.10.2 (Red Hat modified) "

213.180.207.25 - - [29 / Jan / 2007: Додати 00: 27: 14 +0000] "GET /robots.txt HTTP / 1.1" 200 54 "-" "Yandex / 1.01.001 (compatible; Win16; I)"

Лог-файли являють собою сирі дані, які необхідно обробити. Якість обробки і визначає якість статистики.

В лог-файлах сайту міститься вся необхідна інформація, якої цілком достатньо, щоб знати все про аудиторію, яка відвідує сайт.

Слід мати на увазі, що абсолютно "реальну" статистику отримати практично неможливо, в силу ряду технічних причин. Не існує якихось коректних способів оцінити величину відхилення "реальності" від виміряних показників, однак прийнято вважати, що ці відхилення в середньому не перевищують 5-10%. Якщо сайт живе "розміреним життям" (не проводяться активні рекламні кампанії та ін.), То можна вважати помилку вимірювання постійної і успішно порівнювати між собою дані по сусіднім днями, тижнями та місяцями.

Існують спеціалізовані програми для роботи з лог-файлами - це, так звані, аналізатори лог-файлів. Найбільш відомі - Analog, Webalizer, Webtrends, NetPromoter, WebAnalizer.

Як прочитати та інтерпретувати записи лог-файлу веб сайту

Наприклад, запис в лог-файлі

78.123.67.3 - - [21 / Jul / 2009: Додати 01: 01: 34 +0400] "GET http: // <адрес_ресурса> /news.xml" 304 0 "http: // <адрес_ресурса>" "Mozilla / 4.0 ( compatible; MSIE 8.0; Windows NT 6.0; Trident / 4.0; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; InfoPath.2; .NET CLR 3.5.30729; OfficeLiveConnector.1.4; OfficeLivePatch.1.3; .NET CLR 3.0 .30729) "127.0.0.1

означає, що 21 липня 2009 року о 1:01:34 (за місцевим часом хостинг-провайдера) з ip-адреси 78.123.67.3 до RSS -стрічка news.xml сайту http: // <адрес_ресурса> звертався вбудований RSS -рідер браузера Internet Explorer 8 (при цьому, операційна система - Windows Vista). Код 304 означає, що записів про нові веб-сторінках сайту http: // <адрес_ресурса> в RSS -стрічка не з'явилося, тому браузер не завантажував файл news.xml (про що красномовно свідчить 0).

Число унікальних ip адрес - кількість унікальних звернень до сервера.

Число відвідувачів - людей, які запитують будь-яку інформацію з сайту. До інформаційних файлів можна адресувати html сторінки (з різними розширеннями htm, html, asp і т.д.), а також файли з даними (exe, zip і т.д.). Картинки і елементи оформлення до таких ресурсів не належать.

Перегляди сторінок (Impressum Page) - сумарне число завантажень html сторінок сайту.

Заходи з пошукових систем. Враховується за якими словами і фразами відвідувач зайшов на сайт. Зазвичай такі дані представлені окремим звітом, як в цілому, так і по кожній пошуковій машині.

Статистика реферерів. Реферер, або посилається ресурс, показує звідки відвідувач прийшов на ваш сайт.

Географія. При кожному зверненні до сервера в лог-файлі залишається запис, що містить ip-адреса цього звернення. Аналізуючи ip можна визначити країну запиту.

точки входу

точки виходу

Найбільш часті шляху по сайту

Візити пошукових роботів. Як відомо, перш ніж потрапити в видачу пошукової системи, сайт повинен бути проіндексовані і доданий в базу пошукової системи. Це роботою займаються пошукові роботи - шукають нові сторінки, відсутні в індексі, і оновлюють інформацію про вже відомих. В даному звіті ви можете бачити інформацію про відвідування пошуковими роботами вашого сайту.

Трафік - який трафік згенерувала дана сторінка.

Як правило, на кожному сайті встановлюється зовнішній безкоштовний (рідше - платний) лічильник. Ресурс, який надав лічильник, веде розширену статистику відвідування ресурсу (включаючи всю вищевказану інформацію), з якою можна ознайомитися в будь-який час. Особливо з такими лічильниками зручно працювати тим, хто розміщує свої сайти на безкоштовному хостингу.

Більшість хостинг-провайдерів (хостерів) платного хостингу пропонують своїм клієнтам можливість використовувати вже встановлені засоби аналізу. Наприклад, для серверів Apache часто використовується програма Webalizer , Яка встановлюється в якості додаткового модуля веб-сервера.

Аналіз лог-файлів сайту

Всебічний аналіз логів сайту допомагає зрозуміти, як використовується сайт і яке напрям його подальшого розвитку.

Що можна з'ясувати, аналізуючи логи веб-сайту

Відвідуваність. Звичайно, цей показник відображає і простий лічильник, який встановлюється на кожній сторінці, але лог-файли дозволяють аналізувати відвідуваність більш детально, наприклад, по місяцях (Monthly Statistics), по днях (Daily Statistics), по годинах (Hourly Statistics). Цей показник дозволяє виявляти годинник сплеску відвідуваності (піки відвідуваності) і години затишшя, що дуже важливо знати при обслуговуванні сайту.

Трафік - сумарний і окремо по сторінках.

Рівень конверсії. Показує, як відвідувачі переміщуються по сайту, тобто чи дивляться вони одну сторінку або декілька. Рівень конверсії дозволяє побічно оцінювати якість сайту.

Точки входу (Entry, Entry Pages) - це веб-сторінки, з яких користувачі починають роботу з сайтом. Це дуже цінна інформація! Наприклад, якщо 80% відвідувачів не «бачать» головну сторінку вашого сайту, чи є сенс витрачати час і кошти для її прикраси і поліпшення? Крім того, точки входу показують найбільш значущі сторінки вашого сайту. Точки входу, як правило, відповідають найбільш популярним сторінках сайту.

Точки виходу (Exit, Exit Pages) - це веб-сторінки, з яких користувачі залишають ваш сайт. Дозволяють аналізувати ситуацію: добре, якщо користувач знайшов те, що шукав і тому йде (задоволений!), А якщо ні? Є привід замислитися!

«Покинуті» сторінки - це веб-сторінки, відвідувані дуже-дуже рідко. Потрібно ретельний аналіз ситуації: може бути, сторінки нецікаві або їх важко відшукати на вашому сайті (наприклад, вони не вказані на карті сайту або не пов'язані посиланнями з іншими сторінками сайту).

Популярні сторінки (URLs) - це веб-сторінки, відвідувані найбільш часто. Можна використовувати їх як зразок при створенні інших сторінок сайту. Можна також направляти користувачів з цих сторінок до інших, менш популярним або «покинутим» сторінок.

Пошуковики (Searches). Показує, з яких пошукачів прийшло найбільше відвідувачів.

Пошукові запити, що призводять на сайт (Search String). Цей показник демонструє ефективність використовуваних вами назв веб-сторінок, метатегов, ключових слів ...

Реферери (Referrers) - посилаються на сайт ресурси.

Географія відвідувачів. Показує якими операційними системами приходять відвідувачі до вашого сайту.

Інформація про відвідувачів: IP-адреса відвідувача, використовувані браузер і операційна система і т.д.

• ...

Програми для аналізу лог-файлів сайту

Лог сайту - це текстовий файл, тому можна працювати з ним, відкривши вручну в текстовому редакторі. Однак переглядати логи вручну - досить утомливо, так як лог-файли дуже об'ємні: наприклад, якщо сайт відвідують близько 6 тис. Відвідувачів щодня, які переглядають близько 10 тис. Сторінок, то обсяг лог-файлу за день становить св. 9 МБ!

Для роботи з лог-файлами призначені спеціальні програми - аналізатори лог-файлів. Наприклад, Analog, AWStats , loganalyzer , NetPromoter, Webalizer , WebAnalizer, WebHound , Webtrends і ін.

***

Примітки

1. За підрахунками дослідницької компанії Netcraft , В червні 2009 р в Інтернеті налічувалося 238 027 855 сайтів. При цьому частка веб-серверів Apache склала близько 47%, Microsoft IIS - 24,80%, qq, com - 12,79%, Google - 4,98%, nginx - 3,69%, Sun - 0,30%.

Наприклад, якщо 80% відвідувачів не «бачать» головну сторінку вашого сайту, чи є сенс витрачати час і кошти для її прикраси і поліпшення?
Дозволяють аналізувати ситуацію: добре, якщо користувач знайшов те, що шукав і тому йде (задоволений!), А якщо ні?
IRC (Internet Relay Chat)