1.5 Виды информации, хранимой в Интернете и профессиональных базах данных

В соответствии с законом от 20.02.1995 года № 224-ФЗ «Об информации, информатизации и защите информации» под термином «информация» понимаются сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от форм их представления. Специалисты в области теории познания утверждают, что человек познает реальный мир через объекты, свойства и отношения. Лица, предметы, факты, события, явления и процессы являются классами объектов.
Предметная область – это классы объектов, информация о которых необходима в данном виде деятельности человека. В каждой предметной области потребителей интересует четко определенный перечень свойств и глубина описания этих свойств.
Информация о предметной области, то есть об объектах и их связях, может быть представлена в двух видах: формализованном и в виде текста на естественном языке.
Формализованное описание конкретного объекта включает имя свойства (характеристики) и значение этого свойства для данного объекта. Имя свойства отражает ту грамматическую роль, которую играет значение этого свойства по отношению к данному классу объектов. Значение свойства (характеристики) может задаваться нормированным словарем или произвольно. Формализованное описание объекта во многом схоже с анкетной формой описания объекта.
Названия классов объектов, свойств и областей возможных значений этих свойств (характеристик), то есть язык формализованного описания для каждой предметной области, разрабатывают квалифицированные специалисты данного вида деятельности. С помощью отдельных свойств устанавливаются связи между объектами. Так, например, если описаны два объекта: фирма и товар, - то между ними устанавливается связь – отношение, указывающее, что данная фирма выпускает этот товар. Описание такого формализованного языка после согласования с источниками и потребителями информации в данной предметной области издается в виде нормативного документа, и на основе его создаются базы данных формализованной информации. Описание информации в таких базах в максимальной степени приближено к представлению специалиста о предметной области, в которой он работает. Формализованный язык описания предметной области выполняет следующие основные функции:

Другим видом информации о предметной области является информация, представленная в виде текста на естественном языке.
Для того чтобы понять, в какой степени информация на естественном языке, накапливаемая в информационной системе, подходит для удовлетворения информационных потребностей пользователя, рассмотрим в самых общих чертах природу восприятия человеком реальной действительности и отражение этой действительности на естественном языке. Индивидуальное знание предметной области источником и потребителем информации складывается из совокупности представлений и понятий.
Представления – это чувственно наглядные образы объектов реального мира. Источником формирования представлений являются психологические процессы ощущения и восприятия, а также информация, получаемая от других членов общества в процессе общения. В результате создается представление об объектах реального мира. Представления носят субъективный характер, который определяется внутренним психологическим миром данного человека. Хотя у разных людей создаются разные представления о реальном мире, в них присутствует элемент общности, который позволяет использовать представления в процессе общения.
Понятия образуются в результате логического осмысления представлений об объектах реального мира и являются формой абстрактного мышления, отражающей и фиксирующей существенные признаки данных объектов. Понятия более объективны и в большей степени отражают коллективный опыт. Понятия и представления тесно связаны друг с другом и являются формой отражения реальной действительности в мышлении.
Язык – это средство, с помощью которого люди передают друг другу информацию о реальном мире. Словарные выражения являются материальной формой понятий и представлений. Естественный язык сформировался в результате длительного развития общества. Поскольку для различных слоев общества характерна разная степень общности представлений, возникла многозначность слов естественного языка: одно и то же слово приобретало множество различных значений, и для одного и того же слова использовалось несколько словесных выражений. Таким образом, общими недостатками естественного языка с позиции оценки эффективности поиска являются избыточность и недостаточность.
Избыточность проявляется в следующем:

  1. активную роль в процессе передачи содержания текста играют только некоторые слова или словосочетания, так называемые ключевые слова. Другие можно отбросить практически без ущерба для понимания смысла;

  2. в естественном языке используются синонимы, то есть слова, различающиеся по звучанию и написанию, но тождественные или близкие по смыслу;

  3. имеет место неоднозначность выражения, то есть возможность выразить одну и ту же мысль словами, не являющимися синонимами (например, уменьшение сопротивления – увеличение проводимости).

Недостаточность выражения на естественном языке проявляется в следующем:
  1. многозначность отдельных слов – омонимия (совпадение по звучанию и написанию разных по значению слов). Например, «ключ» (для двери) и «ключ» (источник);

  2. эллипсность естественного языка. Под эллипсностью понимается пропуск в тексте подразумеваемых слов. Например, я (пошел) на работу.

Если рассматривать процесс отражения объектов реального мира текстом на естественном языке, то в нем можно выделить план содержания – смысл сообщения, то есть результат процесса мышления, и план выражения - произвольный текст на естественном языке. Таким образом, тексты на естественном языке, хранящиеся в информационных системах, находятся на уровне плана выражения и характеризуются всеми недостатками естественного языка, которые были отмечены выше.
Для того чтобы решить задачу поиска необходимой потребителю информации, необходимо смоделировать (представить) – о каком фрагменте предметной области потребитель хочет получить информацию. Далее необходимо просмотреть хранящиеся документы – планы выражения, составленные источниками, представить (смоделировать), что хотел сказать источник о предметной области, и на основе научно обоснованной методики отобрать те из документов, которые отвечают на поставленный вопрос полностью или частично.
Работы в области машинного перевода и теории построения документальных информационных систем, проводимые в течение последних 50 лет в нашей стране и за рубежом, показали, что процесс выявления смысла произвольного текста на естественном языке не подлежит автоматизации и может быть реализован лишь человеком, обладающим глубокими знаниями в данной предметной области. Однако общество нуждалось в построении документальных информационных систем, в первую очередь в области научно-технической информации. Для того чтобы облегчить поиск в больших массивах текстовой информации, стали строить информационно-поисковые системы, в которых документы описывались с помощью специальных поисковых языков. С помощью элементов этих же языков описывались и запросы. Для отбора документов в ответ на запрос осуществлялось сравнение поисковых образов запросов и поисковых образов документов, которые проводились на одном и том же искусственном языке. Такой подход является вынужденным.
Из-за недостатков естественного языка, отмеченных выше, документальные информационные системы не дают ответа на вопрос потребителя, а выдают ему документы, в которых может содержаться ответ на его запрос, предоставляя потребителю самому выявить смысловое содержание этих документов.

Hosted by uCoz