На главную
На предыдущую

Вопросы эффективности поиска информации в Internetе и профессиональных БД

Одними из наиболее важных показателей эффективности ИС, содержащих текстовую информацию, являются семантические показатели. Семантические показатели основаны на оценке релевантности между документами и запросами.

Релевантность - это объективно-существующее смысловое соответствие между содержанием документа и запроса.

Объективность оценки релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса.

Семантическим показателем является полнота выдачи (потерии информации) и точность выдачи (информационный шум).

Введем следующие обозначения:

а - множество релевантных и выданных системой документов;

б - множество нерелевантных, но выданных системой документов;

в - множество релевантных, но не выданных системой документов.

Полнота выдачи = а/а+в*100%

Точность выдачи = а/а+б*100%

Потери информации = в/а+в*100%

Информационный шум = б/а+б*100%

Другой группой показателей оценки эффективности документальных ИС является прагматические показатели. Эти показатели могут определять только в процессе эксплуатации ИС. Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов.

Пертинентность - это субъективно-оцениваемое соотвествие содержания документов или текстов информационным интересам потребителя.

Пертинентность может оценить только автор запроса, работающий в ИС. Оценки пертинентности отличаются от результатов, полученных на основе ценок релевантности. Рассмотрим вопросы оценки эффективности поиска в профессиональных базах и информационных ресурсах Интеренета. Анализ содержимого профессиональных баз за последние полтора года показывает неуклонный рост доли текстовой информации в общем объеме информации в профессиональных базах. Если в 1985 г. доля текстовой информации была 47%, то в 2000 г. эта доля составляла уже 84%. Представляется, что основная информация в интернете также является текстовой. Эти обстоятельства позволяют сделать вывод о том, чтоподходы к оценке эффективности поиска в документальных системах в полной мере распространяется и на профессиональные базы, и на информационные ресурсы Интернета. Информационные ресурсы Интернета и имеющиеся в среде Интернет поисковые средства обладают определнной спецификой, которая оказывает существенное влияние на эффективность поиска в этой среде.

Основными поисковыми средствами в Интернете являются поисковые системы и каталоги. Поисковые системы состоят из трех частей:

а) робот - программа, которая посещает web-серверы, считывает или индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Просмотры серверов осуществляются периодически, например, раз в месяц или раз в 2 недели;

б) индексные массивы и копии текстов просмотренных страниц, хранящиеся в поисковой системе;

в) программа, которая просматривая в соотвествии с запросом пользователя индексные массивы, отбирает и выдает потребителю найденные документы.

В каталогах имеются иерархические, тематические рубрики. Отнесение серверов к тем или иным рубрикам каталога осуществляется человеком. Пользователь ищет информацию в каталоге вручную, используя рубрики.

В связи с тем, что в средствах поиска а Интернете не используются информационно-поисковые языки, на которых могли бы быть описаны исходные документы и запросы, полнота поиска в Интернете с учетом указанных выше поисковых средств будет значительно ниже, чем в документированных системах, построенных на базе информационно-поисковых языков.

В 2000 г. специалисты компаний AltaVista, IBM и Compag исследовали ресурсы и гиперсвязи существующего пространства WWW. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн. web-страниц и полтора млрд. ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое простанство состоит из следующих компонентов:

1. Центральное ядро - это тесно связанное между собой web-страницы, с каждой из которых можно попасть на любую другую (27%);

2. Отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22%);

3. Оконечные web-страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22%);

4. Полностью изолированные от центрального ядра страницы (22%);

5. web-страницы, не пересекающиеся с остальными ресурсами Интернета (7%).

Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними. проведенный анализ позволяет сделать вывод о том, что информационное простанство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковой машины не имеют доступа.

У каждой поисковой машины свой % индексирования документов и своя стратегия выбора - какие из ресурсов индексировать. Анализ доли документов, заиндексированных крупнейшими зарубежними поисковыми системами, от общего числа документов в Интернете, проведенный в 1999 г. показал, что доля заиндексированных документов у лидеров в этой области не превышает 30%. Следует отметить, что количество документов в Интернете значительно увеличивается с каждым годом, при этом доля просмотренных и заиндексированных документов уменьшается.

Информационные ресурсы Интернета делятся на "видимую" и "невидимую" части сайтов.

Видимая часть сайта представляет собой ту часть, которая обрабатывается поисковыми системами и индексируется. Невидимая часть сайта - это та часть сайта, которая не предназначена для обработки поисковыми системами.

Американской фирмой Bright Planet проведено исследование и получены результаты, что в Интернете число документов невидимой части сайтов более, чем в 500 раз превышает видимую часть.

Организация информации в профессиональных базах отличается от организации информации Интернет. В первую очередь это отличие заключается в том, что информация постоянно накапливается и обновляется. Отбор достоверных источников и накопления информации ведут информационные агенства-генераторы. Они же поддерживают эти БД в актуальном состоянии. Получение информации из баз обеспечивают агенство-поставщики. Потрбителю предоставляется язык запроса и документация, характеризующая БД, которая включает в себя:

- название, отражающая вид информации, с какого времени ведется информация

- объем накопления информации

- период обновления

- источники информации

Указанные источники обеспечивают высокие показатели по достоверности, полноте и точности предоставляемой информации.

На главную
На следующую
Hosted by uCoz