Библиотечный сайт Отделения ГПНТБ СО РАН (www.prometeus.nsc.ru) ежедневно посещают тысячи пользователей, но в последнее время приходится сталкиваться со значительным завышением показателей библиотечной веб-статистики. Речь идет о так называемом «фроде» (англ. fraud) - мошенничестве в сфере информационных технологий. По данным «Википедии», в 2005 году сотовые операторы потеряли от подобного жульничества 25 млрд. долларов [1]. Примерно тогда же с подделкой реферального веб-трафика, то есть трафика, полученного от перехода по ссылкам со сторонних сайтов, из групп в социальных сетях и пр., столкнулся и сайт Отделения. В 2006 г. доступ к одному из документов www.prometeus.nsc.ru превысил 200 тысяч обращений, а в 2007 г. он же превзошел статистику и титульной страницы сайта.
Таблица. Источники трафика к сайту www.prometeus.nsc.ru за время с 30.08.2014 по 31.08.2015 г. (по данным Яндекс-Метрики)
№ | Источник | Количество визитов | Доля от общего количества |
1 | доступы из поисковых систем | 336 916 | 80,5 % | 2 | прямые заходы | 58 689 | 14,0 % |
3 | переходы по ссылкам (рефереры) | 11 480 | 2,74 % |
4 | внутренние переходы | 7 878 | 1,88 % |
5 | переходы из социальных сетей | 2 589 | 0,62 % |
6 | переходы с сохраненных страниц | 767 | 0,18 % |
|
Именно реферальный трафик, как правило, не играющий главной роли в источниках доступа (см. таблицу), превратился в подлинную головную боль многих веб-мастеров [2-5]. За формулировкой о «неправомочном использовании ресурсов и услуг в сетях связи» скрываются не только экономические угрозы разорения компаний на рекламных «кликах», но и откровенно вредоносные действия - воровство контента, слежка, построение ботнетов, etc. Оказывается, что 30-40% рекламного трафика - это полная фикция, порожденная ботами.
Лучший способ борьбы со «спамом статистики» - наложение фильтров и блокирование адресов разносчиков мусора, хотя сделать это очень непросто. В библиотечной практике требуется постоянная и согласованная деятельность библиотечных специалистов с администраторами сетей и серверов.
В Отделении ГПНТБ СО РАН выработаны подходы, направленные на обнаружение «фейкового трафика», загрязняющего библиотечную статистику. Использование системы лог-анализа AWStats позволяет эффективно выявлять IP-адреса спам-ботов, генерирующих поддельные заголовки реферера, и исключать эти доступы из общей статистики сайта. Как правило, в отчетах AWStats за большие промежутки времени у спам-ботов полностью совпадает количество пройденных страниц и хитов. Другими словами, боты делают к каждой html-странице лишь один доступ, не захватывая все файлы, с ней ассоциированные. Впоследствии детальное изучение лог-файла показывает, что в поле реферера выявленные боты оставляют веб-адреса интернет-магазинов детской и женской одежды, фармацевтических сайтов и пр. И эти же веб-адреса спам-ботов «всплывают» в отчетах AWStats в разделе источников трафика.
...
|