Одно из определений термина «бот», приводимое в Википедии связано с широким кругом программ, выполняющих автоматически и/или по заданному расписанию какие-либо действия. При этом подчеркивается, что данные действия имеют определенное сходство с человеком. В нашем случае речь идет о действиях роботов на библиотечном сайте. Проблема идентификации ботов и дальнейшего отделения их трафика от «ручного» трафика пользователей сайтов становится все более насущной. Поиск необходимых решений позволит сделать библиотечную веб-статистику более взвешенной и адекватной. Очевидно, что полное исключение трафика автоматизированных средств из статистики библиотечных сайтов лишено всякого смысла и противоречит главным трендам инновационного развития. При посещении сайтов боты выполняют массу полезных функций, которые служат продвижению ресурсов. Многие посетители библиотек все чаще используют разного рода технические усовершенствования - модули к браузерам, утилиты, линк-валидаторы, чекеры и прочие продукты. Нередко и сами пользователи создают скрипты для того, чтобы индексировать ресурсы, проверять HTTP-статус страниц, «живость» ссылок, проводить массовое копирование и обработку библиотечных материалов. В этих условиях правильная постановка задачи заключается в том, чтобы найти такие подходы к сбору и анализу веб-статистики, которые давали бы наиболее точную картину происходящего на библиотечном сайте. В качестве экспериментальной площадки для выработки таких подходов использовался сайт Отделения ГПНТБ СО РАН - www.prometeus.nsc.ru, имеющий достаточно продолжительную историю обслуживания пользователей и устойчивые показатели веб-статистики. Основным инструментом мониторинга на сайте является система лог-анализа AWStats (Advanced Web Statistics 7.3). В годовом отчете за 2014 г. она отразила следующие ключевые показатели: уникальных посетителей - 503 853, визитов - 1 040 506, страниц (обращений) - 4 170 223, хитов (т.е. отдельных веб-элементов доступов) - 9 445 947. Кроме того, отдельной строкой приводится «неотображаемый трафик» ботов, вирусов и других автоматических средств, а именно: 7 342 062 страниц (обращений) и 11 015 305 хитов. Уже из этих цифр хорошо видно, что технологический трафик одних только зарегистрированных ботов примерно в 1,2 - 1,75 раза превышает трафик «отображаемый». Но опыт показывает, что значительное количество незарегистрированных роботов, маскирующихся под «уникальные хосты», присутствует и внутри «отображаемого» трафика. На основании годового отчета www.prometeus.nsc.ru за 2014 г. сделана попытка приблизительно оценить этот трафик. Применялась следующая методика. После генерации отдельного отчета «список хостов» из него отфильтровывались строки с теми IP, у которых наблюдалась необычайная близость или полная тождественность показателей по страницам и хитам. Очевидно, что такая тождественность, в первую очередь, характерна для ботов. Годовой отчет AWStats выводит только 1000 строк (хостов). В результате анализу подверглось 2 678 189 страниц (64% от общего годового показателя сайта - см. выше) и 4 506 192 хитов (48%). Из этого количества на долю «очевидных» ботов пришлось 884 хоста (88,4% от проанализированных), 2 321 604 хита (51,5%) и 2 249 304 страницы (84%). Нетрудно заметить, что в этой группе на одно обращение (страницу) приходится 1,03 хита. Во вторую группу вошли отсеянные 116 хостов (11,6%), у которых наблюдались значительные расхождения между показателями страниц и хитов, что, возможно, подтверждает их «ручное» или «не вполне автоматизированное» происхождение (это могут быть и прокси-сервера, и отдельные пользователи). Здесь были следующие показатели: 2 184 588 хитов (48,5%) и 428 885 страниц (16%) или 5,1 хита на одну страницу. Таким образом, не подлежит никакому сомнению, что боты формируют весь неотображаемый трафик библиотечного сайта (100%) и превалирующую часть отображаемого - никак не меньше 85%.
|
[О библиотеке
| Академгородок
| Новости
| Выставки
| Ресурсы
| Библиография
| Партнеры
| ИнфоЛоция
| Поиск
| English]
| |||
| |||