Мировой рынок информационных услуг: Вопросы эффективности поиска информации в Интернете и профессиональных базах данных
Одними из наиболее важных показателей эффективности информационных систем, содержащих текстовую информацию, являются семантические показатели. Семантические показатели основаны на оценке релевантности между документами и запросами. Релевантность – объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса. Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум). Введем следующие обозначения:
Другой группой показателей оценки эффективности документальных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационных систем. Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов. Пертинентность – это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пертинентности, как правило, отличаются от результатов, полученных на основе оценок релевантности. Рассмотрим вопросы оценки эффективности поиска в профессиональных базах и информационных ресурсах Интернета. Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации в профессиональных базах. Если в 1985 г. Доля текстовой информации составляла 47%, то в 2000 г. эта доля составляла уже 84%. Представляется, что основная информация в Интернете также является текстовой. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распространяются и на профессиональные базы и на информационные ресурсы Интернета. Информационные ресурсы Интернета и имеющиеся в среде Интернет поисковые средства обладают определенной спецификой, которая оказывает существенное влияние на эффективность поиска в этой среде. Основными поисковыми средствами в Интернете являются поисковые системы и каталоги. Поисковые системы состоят из трех частей:
В каталогах имеются иерархические тематические рубрики. Отнесение серверов к тем или иным рубрикам каталога осуществляется человеком. Пользователь ищет информацию в каталоге вручную, используя рубрики. В связи с тем, что в средствах поиска в Интернете не используются информационно-поисковые языки, на которых могли бы быть описаны исходные документы и запросы, полнота поиска в Интернете с учетом указанных выше поисковых средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков. В 2000 году специалисты компаний AltaVista, IBM и Compaq исследовали ресурсы и гиперсвязи существующего информационного пространства WWW. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн. web-страниц и 1,5 млрд. ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компонентов:
Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними. Проведенный анализ позволяет сделать вывод о том, что информационное пространство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины не имеют доступа. У каждой поисковой машины свой процент индексирования документов и своя стратегия выбора, – какие из ресурсов индексировать. Анализ доли документов, заиндексированных крупнейшими зарубежными поисковыми системами, от общего числа документов в Интернете, проведенный в 1999 году показал, что доля заиндексированных документов у лидеров в этой области не превышает 30%. Следует отметить, что количество документов в Интернете значительно увеличивается с каждым годом, при этом доля просмотренных и заиндексированных документов уменьшается. Информационные ресурсы Интернета делятся на «видимую» и «невидимую» части сайтов:
Американской фирмой Bright Planet проведено исследование и получены результаты, что в Интернете число документов невидимой части сайтов более чем в 500 раз превышает видимую часть. Организация информации в профессиональных базах отличается от организации информации в Интернете. Это отличие заключается в том, что информация постоянно накапливается и обновляется. Отбор достоверных источников и накопление информации ведут информационные агентства-генераторы, они же поддерживают эти базы данных в актуальном состоянии. Получение информации из баз обеспечивают агентства-поставщики. Потребителю предоставляется язык запроса и документация, характеризующая базу данных, которая включает в себя название, отражающее вид информации, с какого времени ведется база данных, объем накопления информации, период обновления, источники информации. Указанные особенности обеспечивают высокие показатели о достоверности, полноте и точности предоставляемой информации.
Назад | Содержание | Вперед