С.К. КАНН В ЗЕРКАЛЕ ПОИСКОВЫХ ЗАПРОСОВ Веб-сайты похожи на обычные книги, где на смену обложкам, титулам и оглавлениям пришли «домашние» страницы, а отдельные разделы и главы стали называться «виртуальными ресурсами». Как и любое хранилище информации, сайты имеют целостное, созданное авторами и издателями (часто в одном лице), единство наполнения, оформления и навигационных средств. Очевидным новшеством в данном случае является непостоянство электронных документов, позволяющих «улучшать» их форму и содержание до бесконечности. Вместе с тем, виртуальные публикации уже не пишутся пером, а, значит, освободились от постоянной боязни «топора» - теперь им ничего не угрожает, можно не «рубить», а только редактировать. Изменчивость веб-сайтов (как внешняя, так и внутренняя) обусловила непостоянство их образов у тех, кто с ними работает, то есть у пользователей Интернета. Обобщенное отражение представленных материалов в сознании посетителей формирует образ конкретного сайта из суммы компонентов, обусловленных его тематикой, информативностью страниц, актуальностью и достоверностью приводимых сведений. Этот образ дополняется этическими, эстетическими, социологическими, культурологическими и прочими не менее важными составляющими. В каком-то смысле, можно говорить об «имидже» сайта, но это понятие слишком поверхностное, не затрагивающее глубинной сути информационных процессов. Понятие «информационный образ сайта» включает и его целеполагание, и популярные ныне указания на его «миссию». Целенаправленное формирование виртуальных библиотек подразумевает сознательное следование критериям, которые, в конечном счете, превращают образы сайтов - в образцы. Знание того, каким видят библиотечный сайт его потребители, можно получить разными методами, включая электронную почту, анализ ссылок на ресурсы веб-сайта из «внешней» сети, сбор оценок и отзывов в печати, СМИ, интернет-блогах и форумах, проведение традиционного анкетирования пользователей (разными способами). Так или иначе, все эти методы не свободны от субъективных взглядов, личного опыта и жизненных пристрастий. Инструментальные средства библиотечной веб-статистики дают более адекватные оценки, но и здесь нельзя уповать на полную «объективность», понимая разницу между правдой (которая «у каждого своя») и истиной (в качестве единственного и недостижимого идеала). Как ни крути, статистические механизмы считают так, как они настроены. Следовательно, назначая опции, вы влияете на результат. Дальше перед вами неизбежно встанет вопрос о сопоставимости данных, полученных из разных источников (от разных статистических систем и сайтов). Наконец, сама трактовка показателей будет далеко не однозначной и спорной. Приведем один пример. Начиная с декабря 2004 г. второе место по посещаемости страниц Отделения ГПНТБ СО РАН прочно удерживал ничем не примечательный файл prometeus.nsc.ru/contents/books/0d.ssi, весом всего в 7 килобайт, содержащий список (индекс) оглавлений 9 книг на букву «Д». В 2007 г. количество обращений к нему превысило показатели главной (домашней) страницы сайта prometeus.nsc.ru (см. рис.1).
Абсолютно очевидно, что объяснение этому феномену следовало искать в названиях книг, вызывающих такой повышенный спрос, но так казалось лишь в начале. Многолетний и чрезвычайно устойчивый характер весьма странного интереса заставил не только придать этой загадке собственное имя («проблема файла 0d.ssi»), но и подробно изучить вопрос «кто, зачем и почему» испытывает тягу к этой странице. Долгое наблюдение и анализ визитов указали на отметку «Mozilla/3.0 (compatible; Indy Library)» в поле «User-Agent» лог-файла сервера. Это позволило классифицировать большую часть посетителей файла Od.ssi по классу обычных «спам-ботов» (роботов), собирающих e-mail адреса для рассылки спама (утверждается, что почти все они имеют китайское происхождение) [1]. Скорее всего, рядовая страница была «облюбована» роботами из-за того, что на главной странице prometeus.nsc.ru отсутствует электронный адрес библиотеки. Приведенный пример научил нас с большой осторожностью подходить к объяснению, казалось бы, очевидных фактов веб-статистики. Видимое могущество Сети ежесекундно подвергается значительному сомнению, а опыт работы в Интернете постоянно опровергает мнение о том, что «все данные, которые в нем хранятся, поддаются мгновенной статистической обработке» [2]. Изучение явлений виртуального мира требует непрерывной и четкой локализации объекта исследований и отхода от глобальных оценок и обобщений, хотя бы и в силу быстрой изменчивости WWW. К стремительной эволюции Сети наилучшим образом приспособились глобальные поисковые машины Google, Yahoo, Яндекс, Рэмблер. По меткому замечанию одного из авторов, «мир стал устроен так, что все, что не находится поисковыми машинами, просто не существует» [3]. Попадая в Интернет, большинство людей, желая сэкономить личное время, обращается к поисковикам, получая от них ссылки на документы различных сайтов. Служебная информация серверов, отдающих документы, записывается в лог-файл, который хранит ссылки и на поисковые запросы (в закодированном виде). После декодирования запросов можно составить представление о том, какие поиски проводили пользователи сайта, какие документы они получили в результате поисковых операций. Так как речь идет об очень больших массивах информации, то для их обработки применяются статистические системы веб-мониторинга, такие как программа AWStats (Advanced Web Statistics). Она способна аккумулировать данные и создавать ежегодные отчеты о ключевых словах и целых фразах, использованных поисковыми машинами для поиска документов на сайте библиотеки. Анализ этой чрезвычайно ценной статистики позволяет получить «обратную связь» и повысить качество информационных услуг. В 2009 г. рейтинг самых популярных запросов, выполненных поисковыми машинами по сайту Отделения, выглядел следующим образом (см. табл.1).
Разумеется, все поисковые фразы, включенные в таблицу, коррелируют с ресурсами, размещенными на сайте - справками, выставками, указателями. В силу возможностей программы AWStats, в таблице учтены сведения лишь о 15% поисковых операций (примерно о 217 тыс.), тогда как их общее количество в 2009 г. превысило 1,37 млн (или более 766 тыс. вариантов поисковых фраз). Даже полученной выборки достаточно, чтобы получить представление о характере информационных запросов посетителей сайта. «Верхушка» рейтинга поисковых запросов носит устойчивый характер - она остается неизменной на протяжении многих лет. Приблизительный суммарный подсчет результатов поисковых операций за 2002-2009 гг. подтверждает сложившуюся последовательность доминирующих поисковых фраз, в которой вслед за «глобальными проблемами современности» (55 948 поисков), идут «налоги и налогообложение» (24 725) и т.д. В упорядоченном виде поисковые выражения формируют «семантическое ядро» сайта, которое характеризует его тематическую направленность и указывает потенциальные возможности для продвижения ресурсов в будущем (см. рис.2).
С учетом ранее приведенных замечаний о качестве веб-статистики, излишне говорить о том, что на поверку собранные данные могут оказаться далеко не идеальными. Например, одно лишь количество вариантов по запросу «глобальные проблемы современности» превышает 250 штук, а учесть всю синонимию по каждой фразе попросту нереально. Но возможные погрешности нисколько не умаляют главных тенденций развития ресурсов. Формирование информационного облика универсальной электронной библиотеки, «нагруженной» массой разнообразных задач - дело не одного месяца, и даже не одного года. На этот процесс влияют не только факторы длительного существования ресурсов, но и «презентабельности» всего сайта, его репутации, степени «раскрученности» поисковыми машинами. Большое количество обращений к библиотечным ресурсам по одним и тем же устойчивым поисковым выражениям свидетельствует о том, что в выдачах поисковых машин эти словосочетания занимают достаточно высокие места - в пределах первых двух десятков, что уже само по себе говорит об их качестве и релевантности. Нацеленность на такой результат представляется весьма эффективным путем развития виртуальной библиотеки.
|
[О библиотеке
| Академгородок
| Новости
| Выставки
| Ресурсы
| Библиография
| Партнеры
| ИнфоЛоция
| Поиск
| English]
| |||
| |||