Канн С.К. Трафик ботов к библиотечному сайту (приблизительная оценка)
Навигация
НАУКА И ОБРАЗОВАНИЕ В ЖИЗНИ СОВРЕМЕННОГО ОБЩЕСТВА*30.04.2015  
 
Обложка

КАНН С.К. (ГПНТБ СО РАН, Новосибирск)
 
ТРАФИК БОТОВ К БИБЛИОТЕЧНОМУ САЙТУ (ПРИБЛИЗИТЕЛЬНАЯ ОЦЕНКА)

Одно из определений термина «бот», приводимое в Википедии связано с широким кругом программ, выполняющих автоматически и/или по заданному расписанию какие-либо действия. При этом подчеркивается, что данные действия имеют определенное сходство с человеком. В нашем случае речь идет о действиях роботов на библиотечном сайте. Проблема идентификации ботов и дальнейшего отделения их трафика от «ручного» трафика пользователей сайтов становится все более насущной. Поиск необходимых решений позволит сделать библиотечную веб-статистику более взвешенной и адекватной.

Очевидно, что полное исключение трафика автоматизированных средств из статистики библиотечных сайтов лишено всякого смысла и противоречит главным трендам инновационного развития. При посещении сайтов боты выполняют массу полезных функций, которые служат продвижению ресурсов. Многие посетители библиотек все чаще используют разного рода технические усовершенствования - модули к браузерам, утилиты, линк-валидаторы, чекеры и прочие продукты. Нередко и сами пользователи создают скрипты для того, чтобы индексировать ресурсы, проверять HTTP-статус страниц, «живость» ссылок, проводить массовое копирование и обработку библиотечных материалов. В этих условиях правильная постановка задачи заключается в том, чтобы найти такие подходы к сбору и анализу веб-статистики, которые давали бы наиболее точную картину происходящего на библиотечном сайте.

В качестве экспериментальной площадки для выработки таких подходов использовался сайт Отделения ГПНТБ СО РАН - www.prometeus.nsc.ru, имеющий достаточно продолжительную историю обслуживания пользователей и устойчивые показатели веб-статистики. Основным инструментом мониторинга на сайте является система лог-анализа AWStats (Advanced Web Statistics 7.3). В годовом отчете за 2014 г. она отразила следующие ключевые показатели: уникальных посетителей - 503 853, визитов - 1 040 506, страниц (обращений) - 4 170 223, хитов (т.е. отдельных веб-элементов доступов) - 9 445 947. Кроме того, отдельной строкой приводится «неотображаемый трафик» ботов, вирусов и других автоматических средств, а именно: 7 342 062 страниц (обращений) и 11 015 305 хитов. Уже из этих цифр хорошо видно, что технологический трафик одних только зарегистрированных ботов примерно в 1,2 - 1,75 раза превышает трафик «отображаемый».

Но опыт показывает, что значительное количество незарегистрированных роботов, маскирующихся под «уникальные хосты», присутствует и внутри «отображаемого» трафика. На основании годового отчета www.prometeus.nsc.ru за 2014 г. сделана попытка приблизительно оценить этот трафик. Применялась следующая методика. После генерации отдельного отчета «список хостов» из него отфильтровывались строки с теми IP, у которых наблюдалась необычайная близость или полная тождественность показателей по страницам и хитам. Очевидно, что такая тождественность, в первую очередь, характерна для ботов. Годовой отчет AWStats выводит только 1000 строк (хостов). В результате анализу подверглось 2 678 189 страниц (64% от общего годового показателя сайта - см. выше) и 4 506 192 хитов (48%). Из этого количества на долю «очевидных» ботов пришлось 884 хоста (88,4% от проанализированных), 2 321 604 хита (51,5%) и 2 249 304 страницы (84%). Нетрудно заметить, что в этой группе на одно обращение (страницу) приходится 1,03 хита.

Во вторую группу вошли отсеянные 116 хостов (11,6%), у которых наблюдались значительные расхождения между показателями страниц и хитов, что, возможно, подтверждает их «ручное» или «не вполне автоматизированное» происхождение (это могут быть и прокси-сервера, и отдельные пользователи). Здесь были следующие показатели: 2 184 588 хитов (48,5%) и 428 885 страниц (16%) или 5,1 хита на одну страницу.

Таким образом, не подлежит никакому сомнению, что боты формируют весь неотображаемый трафик библиотечного сайта (100%) и превалирующую часть отображаемого - никак не меньше 85%.

 

Опубликовано в сборнике:Юком НАУКА И ОБРАЗОВАНИЕ В ЖИЗНИ СОВРЕМЕННОГО ОБЩЕСТВА: сборник научных трудов по материалам международной научно-практической конференции 30 апреля 2015 г.: в 14 томах. Том 4 / Министерство образования и науки РФ. - Тамбов: Изд-во ООО «Консалтинговая компания Юком», 2015. - С.63-64. - ISBN 978-5-990685-42-0 (Том 4)
 
 ПубликацииПубликации С.Канна
[О библиотеке | Академгородок | Новости | Выставки | Ресурсы | Библиография | Партнеры | ИнфоЛоция | Поиск | English]
© 1997–2024 Отделение ГПНТБ СО РАН

Документ изменен: Thu Oct 3 13:39:19 2024. Размер: 13,024 bytes.
Посещение N 1557 с 02.06.2015