Канн С.К. Анализ статистики доступов как средство управления библиотечным сайтом
Навигация
НТИ-2000: Материалы 5-й междунар. конф., Москва, ВИНИТИ, 22-24 нояб. 2000 г. С.185-187
Материалы конференций НТИ Канн С.К. Отделение ГПНТБ СО РАН, Новосибирск, Россия

Анализ статистики доступов
как средство управления библиотечным сайтом

Access Statistics Analysis
as a Tool for Web-site Management

Scope of items related with the analysis of access statistics of the library web-site in the Branch of the SPSTL SB RAS has been considered. Specific features of Internet users work with electronic resources and the role of statistical monitoring for the site development management has been shown.

Виртуальная жизнь Отделения ГПНТБ СО РАН сопоставима с реальной деятельностью библиотеки, но в отличие от нее ведется круглосуточно. Еще 3 года назад на сайте был минимум материалов, электронный каталог и навигатор по ресурсам Интернета. В настоящее время 1900 электронных страниц содержат многоотраслевую библиографию, выставку новых поступлений, полнотекстовые материалы по науковедению и библиотековедению, патентные базы данных, дайджесты прессы, работы сотрудников библиотеки и многое другое. Сайт аккумулирует более 16 тыс. библиографических записей с аннотациями и рефератами. Благодаря поисковой системе сервера этот массив работает как единая база данных. Ежедневное число посетителей сайта (уникальных хостов) приближается к 300, в то время как реальных ("живых") читателей в научном зале редко бывает более 120 за день.
Работа сайта опирается на мониторинг доступов к серверу, для чего используется ряд инструментов. Статистический контроль прошедших суток основан на обработке лог-файлов доступов (access.log) и ошибок (error.log) программой AccessWatch. Каждое утро выясняется, были ли сбои и зависания сервера, всплески активности роботов-индексаторов.
Дополнительную информацию помогает получить проект Актуальные ресурсы nsc.ru (tower.ict.nsc.ru) Института вычислительных технологий СО РАН, где ранжируются 545 ресурсов сети Интернет Академгородка. Здесь применяется методика оценки посещаемости, основанная на закачке баннера со страниц участников проекта. Вместе с собственными данными Отделения сведения ИВТ рисуют виртуальный портрет потребителя библиотечной информации.
Несколько косвенных инструментов способны расширить эту картину. Отслеживая ошибки в логах сервера, выданных на запрос файла favicon.ico, можно оценить, какие ресурсы сайта заинтересовали группу пользователей, оперирующих браузером MS Internet Explorer 5. Этот оригинальный метод показывает, что в августе-феврале 1999/2000 г. на ресурсы Отделения было сделано 1040 закладок (Favorites). 60% пришлось на входную страницу (Homepage), 17% - на различную библиографию, включая 2% закладок на электронный каталог, и 13% - на линк-листы ИнфоЛоции. Количество сделанных закладок с определенной задержкой во времени мультиплицирует число доступов к серверу.
Среди других инструментов анализа используется косвенный способ определения тематики запросов к поисковой машине Яндекса. Рикошет на web-страницы Отделения фиксируется проектом Актуальные ресурсы nsc.ru и позволяет видеть поисковые термины запросов и предпочтения читателей.
Несмотря на преимущества, польза от анализа статистики очевидна далеко не всем администраторам. Нередко приходится слышать известное изречение о генетическом родстве лжи и статистики. Между тем, назначение статистического контроля состоит как раз в том, чтобы иметь правдивую обратную связь не только через E-mail и получение всякого рода пожеланий, но и по факту доступа.
Сайт Отделения изначально базировался на принципе функционального подхода, предполагавшего единство содержания и оформления с полноценными возможностями поиска (навигации) и обязательным наличием эффективной программы обработки статистической информации. Для анализа траффика на сервере установлена свободно распространяемая утилита AccessWatch v1.33 (netpressence.com/accesswatch) , генерирующая следующие данные (current data):
    1) общее количество доступов (i.e., количество посещенных страниц);
    2) минимальное и максимальное количество доступов в час (i.e., нагрузка на сервер), раскладка по времени суток, среднее за каждый час работы и предполагаемое количество доступов на конец дня, прогнозируемое на основе темпа текущих доступов;
    3) количество отдельных "хитов" (тождественно элементам страниц, состоящим из HTML-основы, баров, фона и рисунков);
    4) объем перекачанной информации;
    5) количество уникальных хостов (i.e., посетителей сайта), раскладка по доменам, процентное соотношение внешних и внутренних доступов (от клиентских машин Отделения, домена prometeus.nsc.ru);
    6) раскладка посещений отдельных страниц (файлов HTML);
    7) сводка самых активных посетителей (most frequent accesses by host), детальная информация о движении каждого пришедшего хоста по страницам сайта (list of individual accesses, sorted by host).
Некоторые недостатки сводных отчетов AccessWatch были устранены и отлажены и появилась возможность обрабатывать данные в незагруженное время суток (напр., ночью). Результат генерируется в отдельный файл, представленный для публичного доступа.
Обращаясь к анализу цифр, нужно иметь в виду, что объективным может быть лишь комплекс показателей. Сопоставление параметров предупреждает ошибки и гармонично описывает работу сайта. Из опыта видно, что в статистических выкладках много тонких нюансов, требующих трезвых оценок.
Три года работы обозначили ряд устойчивых закономерностей в деятельности библиотечного сайта:
    1) Число уникальных хостов - это ключевой показатель для ориентировки. Он подвергается волнообразным колебаниям. Пик посещаемости приходится на середину недели, а к выходным идет плавное снижение. В рабочий период (осень - весна) всплеск посещаемости приходится на вторник.
    2) Сезонный приход хостов усиливается с ноября по апрель, а в июле наблюдается спад. Подобные приливы и отливы спроса, с точностью до времени суток, отмечаются и в реальной библиотеке, поэтому можно говорить о корреляции данных и закономерностях читательского поведения.
    3) По времени суток особенности работы сайта таковы:
      а) Ночная посещаемость составляет примерно треть от дневной. Она резко усиливается по числу и темпу доступов при ночном индексировании сайта программами-роботами.
      б) Пик нагрузки выпадает на 14-16 часов местного времени, когда происходит наложение запросов из Новосибирска с приходами пользователей Европы и Дальнего Востока. В этот момент количество обращений к серверу достигает 200 доступов в час при среднесуточной цифре 35-40, установившейся в январе - августе 2000 г.
    4) Ежедневное количество хостов довольно стабильно и определяет степень раскрученности сайта в Сети. Независимо от ежесуточной динамики к 24.00 достигается средняя цифра, устойчиво характеризующая данный период года. Поэтому число уникальных хостов может рассматриваться как ключевой показатель для оценки текущей работы. По нему можно говорить о прогрессе сайта или отсутствии такового. У Отделения число ежедневных посетителей за последний год выросло в два раза (на 150 хостов).
Устойчивая работа сервера тормозится постоянными техническими сбоями. Ненадежность программного обеспечения, нехватка памяти и высокие нагрузки вызывают зависание сервера и большие потери времени (307 часов в августе). Источник большинства проблем - материальные и финансовые трудности библиотеки, к которым добавляется общая неустойчивость сети nsc.ru. Из отчетов AccessWatch видно, что пользователи сайта испытывают сложности доступа.
Самый непредсказуемый характер носит взаимодействие сервера с программами - роботами. Эти ночные гости совершают от 200 до 500 доступов в час, вызывая серьезные расстройства маломощного оборудования. Робот наносит визит в файл robots.txt, после чего методично и интенсивно "обрабатывает" ресурсы с интервалом в 3-5 секунд и двойным посещением каждой страницы. Логика этого движения, как правило, ведома только хозяевам данного чуда.
Большинство роботов посещают сайт уже несколько лет. Их присылают AltaVista (роботы: scooter, brillo, soap, etc.), HotBot, Infoseek, Excite для "подработки" ранее проиндексированных ресурсов. Некоторые корпорации помимо роботов привлекают к систематизации ресурсов квалифицированные команды специалистов. Время от времени возникают роботы-новички (Alexa, Alltheweb, NorthernLight, Googlebot, FastSearch), которые набрасываются на индексацию как голодные существа. Например, Alltheweb в ноябре - январе 1999/2000 г., сделал к страницам Отделения 5292 доступа (из них 76% - в декабре).
Внимательно отслеживая маршруты перемещения и глубину проникновения роботов на разные уровни сайта, можно руководить процессом индексирования, увеличивая количество гипертекста и перекрестных ссылок в регулярно посещаемых секторах. После подготовки очередного ресурса поисковой машине отправляется сообщение на страницу добавления адресов (Add URL) и, таким образом, назначается свидание роботу.
В случае, если требуется маскировка временно неготовых страниц, организуется политика "дефицитности ссылок". Суть ее в том, что ресурс устанавливается на сервер, наращивается и совершенствуется, но к нему ведет только узкая тропинка из 1-2 ссылок. Процесс раскрутки как бы запускается, но сдерживается до полной готовности страниц. Затем число ссылок нарастает, и ресурс встраивается в систему навигации. Опыт показывает, что даже известному сайту на раскрутку ресурса, проанонсированного по всем правилам, требуется не меньше 2-3 месяцев, а поток спроса приходит спустя полгода.
Для ускорения интеграции ресурсов необходимо следовать правилам информационного сообщества. И тут приходится признать, что для Рунета нет правил. На российских просторах царят хаос, несерьезность, неряшливость и упрямая нешаблонность. Ходить дважды по одному месту считается плохим тоном, а езда по кривым колеям вызывает восторг. Где они, образцы, на которые стоит равняться? У нас их осмеивают и занимают ненормальное положение относительно поверхности Земли, демонстрируя как не надо жить. Приходится утверждать банальные истины, что простота и понятность - это не грех, а только способ привлечь новых пользователей.
Внешнее оформление web-документов серьезно влияет на их использование. Заголовок (тэг <title>) должен формулироваться сжато и точно, максимально информативно, без растянутых фраз и сокращений, т.к. он откладывается в закладках и ссылках, возникает в результатах поиска, попадает в рейтинги и хранится в архивах. Мета-тэг ключевых слов в начале документа (<head>) заполняется на нескольких языках, повышая степень захвата роботами. Имена файлов и директорий входят в URL (web-адрес) ресурса, поэтому способны многое сообщить как роботам, так и искушенным пользователям Сети.
Роботы отличаются повышенной чувствительностью к словоформам некоторых типов (info, search, data, guide, resource, news, science, patent, etc.), к участию этих терминов в заголовках, частоте их употребления и близости к началу файлов. Словари управляющей лексики у поисковых машин могут составлять тысячи слов. AltaVista делает упор на актуальность информации (news, hits, headlines, etc.), Infoseek восприимчив к научной терминологии, а NorthernLight - к бизнес-ресурсам. Все эти особенности можно выявить через тестирование словарей, направляя разным поисковикам запросы с лексикой собственного сайта.
Аналогично, свою специализацию имеют и отечественные порталы. Яндекс - российский аналог АльтаВисты - ценит новизну информации. С начала года его роботы сделали к сайту (win+koi) 23831 доступов (2979 в месяц). Осуществляя переиндексацию, Яндекс способен совершать до 2000 доступов в сутки. В меньшем масштабе работают Апорт, Рэмблер и др., но также со своей спецификой, делая упор на англоязычные ресурсы, страницы технической поддержки, etc.
Что касается оценки тематики, видов и качества ресурсов, установленных на сайт, то здесь анализ доступов играет неоценимую роль. Принципиальный подход состоит в том, что ориентируясь только на посещаемость, строители виртуальных библиотек очень скоро придут к одинаковым результатам - соберут привлекательные образцы масс-культуры в характерном российском исполнении. Необходимо использовать преимущества информационных учреждений для того, чтобы на профессиональной основе обобщать и систематизировать информацию, отсеивать лишнее, обучать и ориентировать пользователей. Будущий век станет веком упорядочивания знаний и их эффективного использования.

Другие работы С.К.КаннаДругие работы
[О библиотеке | Академгородок | Новости | Выставки | Ресурсы | Библиография | Партнеры | ИнфоЛоция | Поиск | English]
© 1997–2024 Отделение ГПНТБ СО РАН

Документ изменен: Wed Nov 6 14:46:33 2024. Размер: 26,880 bytes.
Посещение N 3104 с 24.01.2001