Оглавление

На главную

На предыдущую

На следующую

Мировой рынок информационных услуг

Тема1.Мировой рынок информационных услуг

1.1 Основные понятия

1.2 Этапы развития мирового рынка информационных услуг

1.3 Профессиональные базы данных

1.4 Информационные ресурсы сети Интернет

1.5 Виды информации, хранимой в Интернете и профессиональных базах данных

1.6 Вопросы эффективности поиска информации в Интернете и профессиональных базах данных

1.7 Технология поиска информации в Интернете и профессиональных базах данных

1.1.Основные понятия

Рынок информационных услуг определяется как совокупность экономических, правовых и информационных отношений по торговле между поставщиками и потребителями и характеризуется определенной номенклатурой услуг, а также условиями механизмов их предоставления и ценами.

Товаром на рынке информационных услуг является информация.Информация - сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от форм их представления. Информация – сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от форм их представления. Информация, зафиксированная на материальных носителях и хранящаяся в информационной системе, образует информационные ресурсы.

Под информационной системой понимается организационно-упорядоченная совокупность документов и информационных технологий, в т.ч. с использованием средств вычислительной техники и связи, реализующих информационные процессы.

Информационные ресурсы являются продуктом деятельности наиболее квалифицированной части общества. Мировые информационные ресурсы подразделяются обычно на 3 сектора:

  1. сектор деловой информации;
  2. сектор научно-технической и специальной информации;
  3. сектор массовой потребительской информации.

Сектор деловой информации подразделяется:

  1. Биржевая и финансовая информация – информация о котировках ценных бумаг, валютных курсах, учетных ставках, рыках товара и капитала. Данная информация предоставляется биржами, специальными службами биржевой информации и брокерскими конторами.

  2. Статистическая информация – числовая экономическая , демографическая, социальная информация. Она предоставляется в виде рядов динамики, прогнозных моделей и оценок. Предоставляется государственными службами, а также компаниями, занятыми исследованиями, разработками и консалтингом;

  • коммерческая информация – это информация о компаниях, фирмах, корпорациях, направлениях их работы, финансовом состоянии, ценах на продукцию и услуги, связях, сделках, руководителях;

  • деловые новости в области экономики и бизнеса.

Биржевая и финансовая информация изменяется постоянно, следовательно, ее предоставление должно осуществляться в реальном масштабе времени. Требования к оперативности предоставления коммерческой информации ниже, чем к биржевой. Обычно она изменяется ежедневно или еженедельно, но важность коммерческой информации в условиях рынка и конкуренции весьма высока. Она используется непосредственно бизнесменами и предпринимателями при решении следующих задач:

  • выбор поставщиков, партнеров и размещение заказов;
  • выход на рынок с новым товаром;
  • поиск покупателей;
  • слияние и приобретение компаний;
  • маркетинговые исследования по анализу рынка. Сектор научно-технической и специальной информации включает документальную, библиографическую, реферативную и полнотекстовую информацию о фундаментальных и прикладных исследованиях, а также профессиональную информацию для юристов, врачей, инженеров и т.д. Сектор массово-потребительской информации включает новости, справочную информацию, потребительскую и развлекательную (погода, расписание транспорта и т.д.).

Виды деятельности, связанные с формированием информационных ресурсов, поддержанием их в актуальном состоянии, созданием средств связи, обработки и копирования информации, объединяют в понятие информационная индустрия. Способность решать задачи информационного обслуживания на уровне максимальных возможностей, определяемых достигнутым на данный момент состоянием развития вычислительной техники, называют информационным потенциалом. Структура, которая работает на информационном рынке, предлагает потребителям следующие виды информационных услуг:

  1. непосредственный доступ к базе данных в режиме on-line;
  2. пакетный доступ к базе данных в режиме off-line;
  3. базы данных на дискетах и компакт-дисках;
  4. консультации, оказываемые специалистами в области Информационных Ресурсов;
  5. обучение доступу к Мировым Информационным Ресурсам.

Указанные виды услуг имеют свои области эффективного использования и могут взаимодополнять друг друга. В качестве поставщиков информации на рынке информационных услуг выступают коммерческие организации и частные лица. Обычно они именуются информационными корпорациями, агентствами, службами, центрами. Классификация пользователей может проводиться по различным основаниям, к примеру, можно разбить на следующие группы:

  1. специалисты промышленных предприятий и предприятий торговли;
  2. специалисты маркетинговых и консалтинговых информационных агентств;
  3. работники научно-исследовательских учреждений и учебных заведений;
  4. работники государственных учреждений;
  5. работники общественных организаций;
  6. индивидуальные пользователи.
В начало

Мировой рынок информационных услуг

1.2. Этапы развития мирового рынка информационных услуг

Рынок информационных услуг имеет многолетнюю историю. Качественные изменения произошли в середине 1960-х годов с появлением вычислительной техники и ее использованием в области обработки и передачи информации. В этот период основными источниками информации являлись государственные информационные службы, учебные заведения, различные общественные организации, занимающиеся сбором информации в определенной области, и библиотеки. Пользователям предоставлялась библиография, реферативная и аналитическая информация. Обслуживание производилось на коммерческой основе. Первые автоматизированные информационные системы (АИС) получили название информационно-поисковые системы (ИПС). В связи с крайне ограниченными возможностями первых ЭВМ в ИПС хранились вторичные документы (поисковые образцы документов). Первичные документы по-прежнему хранились в библиотеках и архивах. Такие системы работали в двух режимах:

  • избирательного распространения информации;
  • ретроспективного поиска.

При избирательном распространении информации обеспечивались периодические поиски в массиве в соответствии с постоянно действующими запросами и производились оповещения пользователя о найденных документах. При ретроспективном поиске осуществлялся просмотр всего массива по разовому запросу. Следующим шагом, который стал возможным в связи с развитием вычислительной техники, явилось возникновение фактографических ИС. Эти системы содержали формализованную информацию в виде значений свойств различных объектов (лиц, организаций, событий и т.д.). С расширением рынка электронной информации наблюдается уменьшение доли государственных служб на информационном рынке.

ДИАГРАММЫ (Доли государственных и негосударственных служб на информационном рынке)

Необходимо учитывать, что определенная доля государственных информационных служб сохранится и в дальнейшем, т.к. они обеспечивают органы власти информацией, необходимой для принятия государственных решений в области экономики, политики, социальных процессов, образования и т.д. Становление рынка электронной информации сопровождалось разделением труда организаций, занимающихся информационным обслуживанием. Сформировались три группы информационных служб:

  1. центры-генераторы (производители информации) – специализируются на добыче информации, формировании БД и поддержании их в актуальном состоянии;

  2. центры распределения (поставщики информации, вендоры) – занимаются информационным обслуживанием пользователей на основе БД, поставляемых им центрами-генераторами на коммерческой основе;

  3. информационные агентства – помимо функций сбора информации, формирования и ведения БД осуществляют функции обслуживания пользователей.

К концу 2000 года в мире функции центров-генераторов выполняли 3500 компаний, а функции центров-поставщиков 4220 компаний. Большое влияние на развитие рынка информационных услуг оказало создание национальных и мировых сетей передачи данных, а также рост возможностей вычислительной техники, что породило появление принципиально новых информационных технологий. Одно из главных достижений в этой сфере – появление возможности диалогового доступа пользователей к удаленным БД (режим on-line). Отметим, что первопричиной скачка в развитии сферы информационного обслуживания явился резкий рост потребностей пользователя, связанный с ростом производства, развитием науки и техники. Данное обстоятельство определило выгодность вложения денежных средств в эту отрасль и создание свыше 7,5 тыс. крупных информационных корпораций.

В начало

Мировой рынок информационных услуг

1.3. Профессиональные базы данных

Одной из форм предоставления информационных услуг потребителю является обеспечение его доступа к профессиональным базам данных, научно-технической, деловой, правовой и другой информации. Развитие международного экономического сотрудничества определило потребность в создании мировых информационных систем. Рассмотрим тенденции развития баз данных и их объема за последнее двадцатилетие.

ГРАФИК (Динамика изменения количества информационных агентств и баз данных на мировом информационном рынке)

Содержание баз данных отражает потребности пользователей. Если первоначально потребители запрашивали научно-техническую информацию, то в настоящий момент их основной интерес направлен на информацию, касающуюся бизнеса, торговли, промышленности, а также патентной и правовой информации. По форме информационные ресурсы могут быть разделены на числовые (фактографическая информация) и текстовые. Объемы текстовых баз данных значительно превышают объемы числовых, и этот разрыв со временем увеличивается.

ГРАФИК (Динамика отношения объема числовых баз к общему объему баз данных на мировом информационном рынке в %)

Рассмотрим распределение мировых информационных ресурсов по мировым регионам.

ГРАФИК (Доля региона в общем объеме мировых баз данных на 2000 год в %)

Рассмотрим возможности удовлетворения потребностей пользователей, занимающихся предпринимательской деятельностью на примере ведущих мировых информационных корпораций. Информационная корпорация «Dun & Bradstreet» - крупнейшая в мире американская многопрофильная информационная корпорация, возникшая более 150 лет назад. Обеспечивает клиентов деловой информацией на всех этапах принятия решений. В корпорации занято свыше 60 тыс. сотрудников, работающих в разветвленной сети ее региональных представительств по всему миру. Предоставляет своим клиентам следующие информационные продукты и услуги:

  1. информация, освещающая финансовое состояние и кредитоспособность около 70 млн. компаний во всех странах мира;
  2. маркетинговые исследования;
  3. справочники «страна-фирма-продукт»;
  4. регулярные обзоры таможенного, налогового и инвестиционного климата в 180 странах мира;
  5. справочники-рейтинги долговых обязательств;
  6. международная программа подготовки специалистов в области финансов, маркетинга и информационного обеспечения.

Основными видами продукции корпорации являются аналитические справочники и деловая справочная литература. Бизнес-справка содержит необходимые сведения о финансовом положении потенциальных партнеров, а также сведения о степени коммерческого риска при ведении дел с ними. Кредитно-аналитическая справка – аналитический документ, характеризующий финансовые показатели фирмы за период до трех лет в сравнении с данными по отрасли, к которой относится эта фирма. Платежно-аналитическая справка – характеризует практику и сроки исполнения платежей интересующих вас партнеров. Деловая справочная литература. Компания «Dun & Bradstreet» выпускает ежегодные справочники для самостоятельного поиска партнеров в различных странах мира. Также выпускает ежемесячный бюллетень «Международный обзор коммерческих рисков и платежей», который содержит сжатую информацию о текущей экономической ситуации в различных странах мира. Цены на услуги, предоставляемые «Dun & Bradstreet»:

  1. разовая справка по компании – 200$;
  2. стоимость абонентского обслуживания – зависит от количества предоставляемых справок:

цена контракта(в$)1000300050007000100002000030000
количество справок620355075160250
цена за одну справку(в$)167150143140133125120

Информационная корпорация «Dialog» основана в 1972 году, является одной из крупнейших универсальных ИС в мире с числом клиентов свыше 20 тыс. и объемом продаж более 280 млн. $. Система Dialog включает в себя около 250 баз данных объемом свыше 12 Терабайт распределенных по следующим тематикам: бизнес, общая информация, правительственные и законодательные акты, новости и текущие события, конференции, наука, социальная сфера, статьи и т.д. В группе «бизнес» содержится информация о компаниях, организациях, патентах, торговых марках, данные финансового промышленного анализа, деловые новости. Корпорация Dialog предлагает своим пользователям несколько типов цен:

  1. плата за время подключения к системе в режиме on-line (за минуту от 25 центов до 6 долларов, за час от 10 до 250 долларов);
  2. плата за печать записей из базы данных системы в режиме off-line (от 25 центов до 100 долларов за каждую полную запись).
Каждый пользователь должен уведомить корпорацию о том типе, который он выбрал.

В настоящее время в состав корпорации входит компания «Data-Star». Она считается европейским лидером среди служб on-line доступа к БД. Данная фирма основана в 1981 году в Швейцарии. Наиболее важные разделы:

  1. деловые новости;
  2. финансовая информация;
  3. маркетинговые исследования;
  4. статистика торговли;
  5. экономический анализ;
  6. здоровье и фармацевтика;
  7. химия и нефтехимия;
  8. экологическая индустрия;
  9. биомедицина;
  10. наука;
  11. биотехнология и технология;
  12. новости.

Также в состав корпорации входит компания «TredStat», публикующая информацию о ценах в различных странах мира по 60 тыс. видов товаров.

Информационная корпорация «Questel-Orbit» включает в себя две подсистемы: Questel (Франция) и Orbit (США). Корпорация является одним из лидеров на рынке информации, характеризующей интеллектуальную собственность (патенты, товарные знаки и т.д.). Она существует более 20 лет и обеспечивает белее 35 тыс. потребителей по всему миру. В системе размещены 267 баз данных, которые разбиты по предметным группам:

  • бизнес;
  • химия;
  • энергетика и наука о земле;
  • инженеринг;
  • здоровье, здравоохранение и окружающая среда;
  • гуманитарные и социальные науки;
  • материаловедение;
  • медицина;
  • новости;
  • патенты;
  • наука и технология;
  • торговые марки.

В этих базах данных по компаниям содержатся сведения о европейских компаниях и 36 тыс. компаниях США, занимающихся разработками новых технологий или производством высокотехнологичных продуктов в области компьютерного производства и программного обеспечения. В группе баз данных «патенты» размещена международная информация по патентам, патентная информация по отдельным странам, патентная информация по отраслям и юридическая информация по патентам. Информационное агентство «Lexis-Nexis». On-line система Lexis создана для американских юристов и содержала правовую информацию. В ответ на положительную реакцию общественности в 1979 году появилась система Nexis, представляющая собой постоянно обновляющуюся электронную библиотеку газет, журналов и других информационных изданий. Корпорация Lexis-Nexis крупнейшая в мире полнотекстовая онлайновая ИС, предоставляющая пользователям юридическую, политическую, коммерческую и др. информацию и содержит более 33 тыс. информационных источников, в том числе 19 тыс. полнотекстовых, включая такие как New-York Times, Washington Post, News Week, Financial Times и т.д. Система обслуживает около 2 млн. клиентов, в базах системы содержится более 3 млрд. документов объемом более 27 Терабайт. Ежедневный поток поступающей информации составляет 2 млн. документов. Оплата работы в режиме on-line и получение информации производятся по трем схемам. Это дает подписчикам возможность подобрать вариант оплаты более предпочтительный для их бюджета и объема работ. Постоянно обновляющаяся система баз данных включает в себя:

  1. около 800 газет и журналов и других источников информации, содержащих большинство европейских и мировых новостей;
  2. финансовые документы, отчеты общественных и частных компаний со всего мира;
  3. аналитические отчеты крупных букмекерских фирм со всего мира;
  4. юридические и законодательные документы Франции, Великобритании, Северной Ирландии, Канады, Новой Зеландии, Китая, США и СНГ.
  5. полный текст (1,5 млн. патентных документов) патентного бюро США с 1975 года;
  6. аналитические отчеты по странам и регионам, составленные частными и государственными организациями.

В начало

Мировой рынок информационных услуг

1.4. Информационные ресурсы сети Internet.

Классификация источников информации в Интернете может производиться по разным основаниям:

  1. Веб-страницы – наиболее распространенный и используемый из информационных ресурсов. Представляет собой страницы, связанные гипертекстом. Страницы, наряду с текстом, могут содержать графическую, видео и звуковую информацию;

  2. файловые серверы – представляют собой реализацию в Интернете традиционного способа предоставления информации;

  3. телеконференции – являются важным источником информации и разбиваются на группы (рубрики) по различным тематикам;

  4. базы данных – в них часто содержится кроме текстовой информации также другие виды информации.

Информационные ресурсы также могут быть разделены по языковому признаку. В Интернете представлены практически все основные языки, но превалирующим является английский. Многие сайты публикуются на нескольких языках. Имеет место классификация по территориальному признаку, ряд сайтов представляет информацию для потребителей определенного региона, хотя доступ к ней возможен с любой точки мира. Наиболее важным аспектом классификации информационных ресурсов сети является содержание информации. Деловая информация, необходимая предпринимательской деятельности, по этому критерию может быть разделена на следующие группы:

  1. сведения о фирмах и организациях – различают три типа серверов данной группы:

    • серверы присутствия в Интернете делятся на рекламные и информирующие. Рекламные обычно содержат 1 – 2 страницы, когда информирующие содержат более подробную информацию о фирме, о производимой ей продукции и услугах;

    • информационные серверы – их ведут информационно-аналитические агентства, в том числе государственные, чья деятельность связана с предоставлением различного рода информации потребителям;

    • предоставление клиенту необходимой информации о товаре и услуге;

    b)оформление заказа;

    c)оплата заказа (при использовании онлайновых платежных систем);

    d)отправка заказа, если товаром является информация.

  2. сведения о состоянии мировой экономики и экономики отдельных стран – данная информация представлена в профессиональных базах крупнейших информационно-аналитических агентств мира. Срверы этих агентств входят в состав информационных ресурсов Интернета. Информация о состоянии национальной экономики обычно размещается на серверах государственных структур, отвечающих за государственную поддержку экономики, также государственных статистических органов и различных экономических институтов;

  3. сведения о состоянии отраслевых рынков – анализ отраслевых рынков осуществляют специализированные маркетинговые и консалтинговые агентства, а также маркетинговые службы различных фирм и организаций. Результаты этих исследований можно получить:

    • из профессиональных баз крупнейших информационных агентств;
    • в самих агентствах, чьи сайты представлены в Интернете;
    • в многопрофильных и отраслевых журналах, регулярно публикующих обзоры рынков (Эксперт, Профиль и т.д.).
    • деловые новости – подавляющее большинство мировых информационных агентств предоставляют потребителям доступ к деловым новостям, из которых можно выделить:

      • зарубежные (Lexis-Nexis, Dialog и т.д.);
      • отечественные (Интегрум-Техно, предоставляющий доступ к материалам 250 центральных и крупнейших региональных газет, РИА-Новости – государственное информационно-аналитическое агентство РФ, ИТАР-ТАСС – государственное информационное агентство РФ, ИНТЕР-ФАКС – агентство, входящее в состав международной информационной группы INTER-FAX INFORMATION SERVICE). В Интернете также имеются электронные версии различных изданий, которые могут быть как платными, так и бесплатными (газеты Коммерсант, Аргументы и Факты и т.д.).

    • справочная информация – списки веб-сайтов компаний, отобранных по определенному принципу, а также телефонно-адресный справочник (желтые страницы) с возможностью поиска информации по названию фирмы и виду деятельности. Также в Интернете представлены телефонные справочники городов России, стран СНГ и Балтии. Имеется информация о расписании движения поездов, авиарейсов, погоде и т.п.

В начало

Мировой рынок информационных услуг

1.5.Виды информации, хранимой в Интернете и профессиональных базах данных.

В соответствии с законом от 20.02.1995 года № 224-ФЗ «Об информации, информатизации и защите информации» под термином «информация» понимаются сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от форм их представления. Специалисты в области теории познания утверждают, что человек познает реальный мир через объекты, свойства и отношения. Лица, предметы, факты, события, явления и процессы являются классами объектов. Предметная область – это классы объектов, информация о которых необходима в данном виде деятельности человека. В каждой предметной области потребителей интересует четко определенный перечень свойств и глубина описания этих свойств. Информация о предметной области, то есть об объектах и их связях, может быть представлена в двух видах: формализованном и в виде текста на естественном языке. Формализованное описание конкретного объекта включает имя свойства (характеристики) и значение этого свойства для данного объекта. Имя свойства отражает ту грамматическую роль, которую играет значение этого свойства по отношению к данному классу объектов. Значение свойства (характеристики) может задаваться нормированным словарем или произвольно. Формализованное описание объекта во многом схоже с анкетной формой описания объекта. Названия классов объектов, свойств и областей возможных значений этих свойств (характеристик), то есть язык формализованного описания для каждой предметной области, разрабатывают квалифицированные специалисты данного вида деятельности. С помощью отдельных свойств устанавливаются связи между объектами. Так, например, если описаны два объекта: фирма и товар, - то между ними устанавливается связь – отношение, указывающее, что данная фирма выпускает этот товар. Описание такого формализованного языка после согласования с источниками и потребителями информации в данной предметной области издается в виде нормативного документа, и на основе его создаются базы данных формализованной информации. Описание информации в таких базах в максимальной степени приближено к представлению специалиста о предметной области, в которой он работает. Формализованный язык описания предметной области выполняет следующие основные функции:

  • позволяет источнику отбирать лишь ту информацию и описывать ее так, как это необходимо потребителю;
  • позволяет в базах данных отражать информацию в том же виде, в каком она отражена в сознании специалиста в данной предметной области;
  • позволяет в информационной системе по указанию потребителя производить автоматическую обработку формализованной информации;
  • существенно облегчает поиск необходимой информации в базах данных.

Другим видом информации о предметной области является информация, представленная в виде текста на естественном языке. Для того чтобы понять, в какой степени информация на естественном языке, накапливаемая в информационной системе, подходит для удовлетворения информационных потребностей пользователя, рассмотрим в самых общих чертах природу восприятия человеком реальной действительности и отражение этой действительности на естественном языке. Индивидуальное знание предметной области источником и потребителем информации складывается из совокупности представлений и понятий. Представления – это чувственно наглядные образы объектов реального мира. Источником формирования представлений являются психологические процессы ощущения и восприятия, а также информация, получаемая от других членов общества в процессе общения. В результате создается представление об объектах реального мира. Представления носят субъективный характер, который определяется внутренним психологическим миром данного человека. Хотя у разных людей создаются разные представления о реальном мире, в них присутствует элемент общности, который позволяет использовать представления в процессе общения. Понятия образуются в результате логического осмысления представлений об объектах реального мира и являются формой абстрактного мышления, отражающей и фиксирующей существенные признаки данных объектов. Понятия более объективны и в большей степени отражают коллективный опыт. Понятия и представления тесно связаны друг с другом и являются формой отражения реальной действительности в мышлении. Язык – это средство, с помощью которого люди передают друг другу информацию о реальном мире. Словарные выражения являются материальной формой понятий и представлений. Естественный язык сформировался в результате длительного развития общества. Поскольку для различных слоев общества характерна разная степень общности представлений, возникла многозначность слов естественного языка: одно и то же слово приобретало множество различных значений, и для одного и того же слова использовалось несколько словесных выражений. Таким образом, общими недостатками естественного языка с позиции оценки эффективности поиска являются избыточность и недостаточность. Избыточность проявляется в следующем:

  1. активную роль в процессе передачи содержания текста играют только некоторые слова или словосочетания, так называемые ключевые слова. Другие можно отбросить практически без ущерба для понимания смысла;
  2. в естественном языке используются синонимы, то есть слова, различающиеся по звучанию и написанию, но тождественные или близкие по смыслу;
  3. имеет место неоднозначность выражения, то есть возможность выразить одну и ту же мысль словами, не являющимися синонимами (например, уменьшение сопротивления – увеличение проводимости).
Недостаточность выражения на естественном языке проявляется в следующем:
  1. многозначность отдельных слов – омонимия (совпадение по звучанию и написанию разных по значению слов). Например, «ключ» (для двери) и «ключ» (источник);
  2. эллипсность естественного языка. Под эллипсностью понимается пропуск в тексте подразумеваемых слов. Например, я (пошел) на работу.

Если рассматривать процесс отражения объектов реального мира текстом на естественном языке, то в нем можно выделить план содержания – смысл сообщения, то есть результат процесса мышления, и план выражения - произвольный текст на естественном языке. Таким образом, тексты на естественном языке, хранящиеся в информационных системах, находятся на уровне плана выражения и характеризуются всеми недостатками естественного языка, которые были отмечены выше. Для того чтобы решить задачу поиска необходимой потребителю информации, необходимо смоделировать (представить) – о каком фрагменте предметной области потребитель хочет получить информацию. Далее необходимо просмотреть хранящиеся документы – планы выражения, составленные источниками, представить (смоделировать), что хотел сказать источник о предметной области, и на основе научно обоснованной методики отобрать те из документов, которые отвечают на поставленный вопрос полностью или частично. Работы в области машинного перевода и теории построения документальных информационных систем, проводимые в течение последних 50 лет в нашей стране и за рубежом, показали, что процесс выявления смысла произвольного текста на естественном языке не подлежит автоматизации и может быть реализован лишь человеком, обладающим глубокими знаниями в данной предметной области. Однако общество нуждалось в построении документальных информационных систем, в первую очередь в области научно-технической информации. Для того чтобы облегчить поиск в больших массивах текстовой информации, стали строить информационно-поисковые системы, в которых документы описывались с помощью специальных поисковых языков. С помощью элементов этих же языков описывались и запросы. Для отбора документов в ответ на запрос осуществлялось сравнение поисковых образов запросов и поисковых образов документов, которые проводились на одном и том же искусственном языке. Такой подход является вынужденным. Из-за недостатков естественного языка, отмеченных выше, документальные информационные системы не дают ответа на вопрос потребителя, а выдают ему документы, в которых может содержаться ответ на его запрос, предоставляя потребителю самому выявить смысловое содержание этих документов.

В начало

Мировой рынок информационных услуг

1.6.Вопросы эффективности поиска информации в Интернете и профессиональных базах данных.

Одними из наиболее важных показателей эффективности информационных систем, содержащих текстовую информацию, являются семантические показатели. Семантические показатели основаны на оценке релевантности между документами и запросами. Релевантность – объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса. Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум). Введем следующие обозначения:

А – множество релевантных и выданных системой документов;

Б – множество нерелевантных, но выданных системой документов;

В – множество релевантных, но не выданных системой документов.

Полнота выдачи ПВ=а/(а+в)*100%;

Точность выдачи ТВ=а/(а+б)*100%;

Потери информации ПИ=в/(а+в)*100%;

Информационный шум ИШ=б/(а+б)*100%.

Другой группой показателей оценки эффективности документальных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационных систем. Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов. Пертинентность – это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пертинентности, как правило, отличаются от результатов, полученных на основе оценок релевантности. Рассмотрим вопросы оценки эффективности поиска в профессиональных базах и информационных ресурсах Интернета. Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации в профессиональных базах. Если в 1985 г. Доля текстовой информации составляла 47%, то в 2000 г. эта доля составляла уже 84%. Представляется, что основная информация в Интернете также является текстовой. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распространяются и на профессиональные базы и на информационные ресурсы Интернета. Информационные ресурсы Интернета и имеющиеся в среде Интернет поисковые средства обладают определенной спецификой, которая оказывает существенное влияние на эффективность поиска в этой среде. Основными поисковыми средствами в Интернете являются поисковые системы и каталоги. Поисковые системы состоят из трех частей:

  • робот – программа, которая посещает web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Просмотры серверов осуществляются периодически, например, раз в месяц, раз в две недели;
  • индексные массивы и копии текстов просмотренных страниц, хранящиеся в поисковой системе;
  • программа, которая, просматривая в соответствии с запросом пользователя индексные массивы, отбирает и выдает потребителю найденные документы.

В каталогах имеются иерархические тематические рубрики. Отнесение серверов к тем или иным рубрикам каталога осуществляется человеком. Пользователь ищет информацию в каталоге вручную, используя рубрики. В связи с тем, что в средствах поиска в Интернете не используются информационно-поисковые языки, на которых могли бы быть описаны исходные документы и запросы, полнота поиска в Интернете с учетом указанных выше поисковых средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков. В 2000 году специалисты компаний AltaVista, IBM и Compaq исследовали ресурсы и гиперсвязи существующего информационного пространства WWW. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн. web-страниц и 1,5 млрд. ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компонентов:

  • центральное ядро – тесно связанные между собой web-страницы, с каждой из которых можно попасть на любую другую (27%);
  • отправные страницы – в них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22%);
  • оконечные web-страницы – к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22%);
  • web-страницы, не пересекающиеся с остальными ресурсами Интернета (7%).

Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними. Проведенный анализ позволяет сделать вывод о том, что информационное пространство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины не имеют доступа. У каждой поисковой машины свой процент индексирования документов и своя стратегия выбора, – какие из ресурсов индексировать. Анализ доли документов, заиндексированных крупнейшими зарубежными поисковыми системами, от общего числа документов в Интернете, проведенный в 1999 году показал, что доля заиндексированных документов у лидеров в этой области не превышает 30%. Следует отметить, что количество документов в Интернете значительно увеличивается с каждым годом, при этом доля просмотренных и заиндексированных документов уменьшается. Информационные ресурсы Интернета делятся на «видимую» и «невидимую» части сайтов. «Видимая» часть сайта – это та часть, которая обрабатывается поисковыми системами и индексируется. «Невидимая» часть – это часть сайта, которая не предназначена для обработки поисковыми системами. Американской фирмой Bright Planet проведено исследование и получены результаты, что в Интернете число документов невидимой части сайтов более чем в 500 раз превышает видимую часть. Организация информации в профессиональных базах отличается от организации информации в Интернете. Это отличие заключается в том, что информация постоянно накапливается и обновляется. Отбор достоверных источников и накопление информации ведут информационные агентства-генераторы, они же поддерживают эти базы данных в актуальном состоянии. Получение информации из баз обеспечивают агентства-поставщики. Потребителю предоставляется язык запроса и документация, характеризующая базу данных, которая включает в себя название, отражающее вид информации, с какого времени ведется база данных, объем накопления информации, период обновления, источники информации. Указанные особенности обеспечивают высокие показатели о достоверности, полноте и точности предоставляемой информации.

В начало

Мировой рынок информационных услуг

1.7.Технология поиска информации в Интернете и профессиональных базах данных.

Наилучшим вариантом работы с информационными ресурсами Интернета является вариант, когда пользователь знает адрес сайта и получает возможность ознакомиться с его содержимым. Адрес сайта может быть получен из любых источников (например, рекламные объявления, желтые страницы и т.д.). Также на сайт можно прийти с помощью гиперссылок, просматривая другие сайты. Опытный специалист в области информации всегда должен иметь список интересующих его сайтов. В этом случае ему придется только отслеживать появление новых интересующих его сайтов. Если пользователь исследует новую проблему в бизнесе, ищет информацию среди ресурсов, которые он еще не освоил, одним из основных методов является использование поисковых машин и каталогов. В этом случае может быть предложена следующая технология подготовки и проведения поиска:

  1. определение общей направленности запроса, т.е. его содержания;
  2. определение географических регионов поиска (т.к. для практических задач ценность информационного ресурса может зависеть от его географического положения);
  3. отбор поисковых машин – качество выполнения этого этапа будет зависеть от опыта работы пользователя с поисковыми машинами;
  4. составление запросов к поисковым машинам – наиболее сложный этап и для эффективного использования поисковых машин запрос составляется таким образом, чтобы область поиска была сужена в максимальной степени. Предпочтение должно отдаваться не одному расширенному запросу, а нескольким узким. Необходимо по ключевым словам составить тезаурус запроса, для чего необходимо хорошее знание предметной области, по которой выдается запрос;
  5. выполнение запроса и его уточнение – анализ полученных результатов позволяет корректировать запрос с целью сужения области поиска.
В начало
Hosted by uCoz