Библиотечный сайт Отделения ГПНТБ СО РАН собрал обширный массив данных, позволяющий проанализировать многолетнюю активность и поведение ботов за большой промежуток времени с 2002 по 2015 г. С помощью системы лог-анализа AWStats 7.3, в годовом отчете которой присутствует выборка из тысячи наиболее активных хостов (IP-адресов и имен), была отфильтрована группа хостов с практически идентичным количеством обращений и хитов, что с большой долей вероятности указывает на их принадлежность к автоматам. В результате получилась следующая картина (см. Табл.1 и Рис.1).
Таблица 1. Доля бот-трафика в ежегодных отчетах AWStats «Полный список хостов»
годовой отчет | выборка из отчетов AWStats | отфильтровано из выборки | хостов | обращений | хитов | ботов | обращений | хитов | всего | в % | всего | в % |
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
2002* | 1 000 | 200 487 | 463 847 | 59 | 121 888 | 61% | 121 958 | 26% |
2003 | 1 000 | 598 361 | 1 743 490 | 115 | 322 788 | 54% | 323 038 | 19% |
2004 | 1 000 | 785 598 | 3 285 621 | 105 | 101 301 | 13% | 101 537 | 3% |
2005 | 1 000 | 1 053 802 | 3 513 756 | 166 | 453 092 | 43% | 453 338 | 13% |
2006 | 1 000 | 826 565 | 3 262 835 | 304 | 339 443 | 41% | 339 777 | 10% |
2007 | 1 000 | 743 808 | 3 507 324 | 188 | 246 755 | 33% | 247 101 | 7% |
2008 | 1 000 | 1 850 956 | 5 570 612 | 171 | 1 073 697 | 58% | 1 074 088 | 19% |
2009 | 1 000 | 2 625 604 | 8 417 409 | 126 | 1 467 372 | 56% | 1 467 642 | 17% |
2010 | 1 000 | 2 870 678 | 8 649 569 | 237 | 1 601 406 | 56% | 1 655 483 | 19% |
2011 | 1 000 | 2 642 662 | 6 797 718 | 279 | 1 407 724 | 53% | 1 407 929 | 21% |
2012 | 1 000 | 2 543 808 | 5 267 368 | 360 | 1 246 034 | 49% | 1 246 866 | 24% |
2013 | 1 000 | 2 315 160 | 4 668 699 | 726 | 1 648 876 | 71% | 1 650 351 | 35% |
2014 | 1 000 | 2 678 189 | 4 506 192 | 849 | 1 901 154 | 71% | 1 902 031 | 42% |
2015 | 1 000 | 1 816 943 | 2 908 654 | 768 | 1 476 258 | 81% | 1 478 349 | 51% |
итого | 14 000 | 23 552 621 | 62 563 094 | 4 453 | 13 407 788 | 57% | 13 469 488 | 22% |
|
| * | В отчете за 2002 год отражены только имеющиеся данные с сентября по декабрь. |
В выборке, представленной в отчетах AWStats, присутствует всего лишь 14 тыс. хостов - менее 0,17% от общего количества, составившего в 2002-2015 гг. примерно 8,3 млн уникальных посетителей. Но на долю этой выборки приходится до 57% всех обращений к сайту, что означает, что цифры, приведенные в таблице, достаточно показательны. На их основе можно сделать следующие выводы.
Во-первых, совершенно очевидной представляется тенденция к резкому увеличению бот-трафика, особенно после 2008/09 гг. Структура этого трафика носит сложный характер. Среди множества автоматов, «гуляющих» по сети, выделяют ботов разовых и регулярных, «плохих» и «хороших», шпионов, ботов поисковых систем, RSS-рассылок, ботов-скреперов (scrapers), имперсонаторов (impersonators), etc. [1]. Боты могут скачивать тексты, делать в них правки и сохранять в вики-проектах, могут делать заготовки списков литературы и даже статей. Последним достижением стал пройденный ботом тест Тьюринга [2].
| Рис. 1. Доля бот-трафика в веб-статистике сайта Отделения ГПНТБ СО РАН (по обращениям и хитам) за 2002-2015 гг. |
Второй вывод, который следует из представленных материалов, связан с динамикой самого процесса ежегодного увеличения бот-трафика. Обе кривые, описывающие изменения по бот-обращениям и бот-хитам (Рис. 1), наглядно демонстрируют, что экспансия ботов носит циклический характер и, как и все другие веб-процессы на библиотечном сайте, не лишена подъемов и спадов. При увеличении доли роботов в трафике сайта, естественно, снижается доля «живых» потребителей информации, и наоборот. Сближение кривых в 2004, 2007, 2012 и 2014 гг. свидетельствует об относительном снижении активности автоматов и увеличении относительной доли реальных пользователей.
Если исключить из графика недостаточно репрезентативные и неполные данные за 2002-2003 гг., то можно констатировать, что за двенадцать лет с 2004 по 2015 гг. доля ботов в веб-статистике сайта www.prometeus.nsc.ru возросла с 3 до 51% по хитам и с 13 до 81% по обращениям. К этому надо обязательно добавить то, что речь идет о сугубо приблизительных оценках, далеко не исчерпывающих всю активность ботов на библиотечном сайте. При выдаче отчета с «Полным списком хостов» AWStats показывает общее количество (total) по трем группам хостов («известные», «неизвестные» и «уникальные посетители»), но далеко не всегда сгенерированные цифры сходятся, и это тоже указывает на возможную погрешность.
Так или иначе, значение полученных результатов заключается в том, что появляются ориентиры для более адекватной оценки веб-показателей (метрик) библиотечного сайта. В настоящее время наибольшую угрозу для искажения открытой библиотечной веб-статистики и неправильной оценки поведенческих факторов несут так называемые спам-боты. Даже продвинутые системы, такие как Яндекс-Метрика или Google Analytics, не всегда точно идентифицируют рефспамеров. Боты имитируют «жирные» (то есть дающие много посетителей) внешние ссылки на сайт библиотеки, но на самом деле стремятся жульничать и придавать фиктивный «вес» продвигаемым коммерческим ресурсам. Данное исследование позволяет более объективно смотреть на цифры библиотечной веб-статистики и вносить необходимые поправки в достигнутые результаты.
...
Опубликовано в журнале: | | ВЕСТНИК НАУЧНЫХ КОНФЕРЕНЦИЙ. - Тамбов, 2016. - N 1-1(5): Наука и образование в XXI веке: по матер. междунар. науч.-практ. конф. 29.01.2016 г.: в 5 частях. Часть 1. - С.52-54: ил., табл. - Библиогр.: с.54 (2 назв.). - ISSN 2412-8988. - DOI: 10.17117/cn.2016.01.01 |
|