En


Ольга Лавренова
0 2013
Ольга Лавренова

Тезаурус информационно-поисковый

Ранее обсуждались вопросы о существенных потерях при поиске информации в электронных библиотеках как разновидностях в автоматизированных информационных систем (АИС) без учета смысловых связей между поисковыми признаками. Одним из самых лучших способов представления таких смысловых связей в АИС являются тезаурусы.

Под информационно-поисковым тезаурусом (ИПТ) понимается словарь лексических  единиц  информационно-поискового  языка (ИПЯ), в  котором заданы парадигматические (базисные) смысловые отношения   между этими единицами.

Дескриптор –  это ключевое слово,  выбранное из группы условно эквивалентных ключевых слов  и  представляющее  данную  группу при индексировании и поиске информации. Ключевые слова, не являющиеся таким представителем группы, называют аскрипторами.

Ключевое слово (КС) – отдельное слово  или  словосочетание  естественного языка, выделяемое из текста информационного документа и отражающее его основное содержание при индексировании.

Группа условно эквивалентных КС объединяет не только те слова и словосочетания, которые признаются  синонимами в естественном языке (например, языкознание и лингвистика), но и такие, которые можно считать условно равнозначными с точки зрения информационного поиска в рамках данного ИПЯ (например, в тезаурусе по гражданской авиации КС погода, погодные условия, метеорологические условия, метеоусловия, метеорологическая обстановка, метеообстановка, синоптические условия, явления погоды можно считать условно эквивалентными, выбрать метеоусловия в качестве имени этой группы –  дескриптора – и считать остальные слова и словосочетания в группе аскрипторами). При этом ввод пользователем любого из приведенных КС обеспечит поиск в базе данных по всем словам из группы.

Парадигматические (базисные, аналитические) отношения выражают постоянные связи между ЛЕ ИПЯ, не зависящие от текста. Они являются стабильными для каждой предметной области и могут быть зафиксированы в словаре. Например, фундук, фисташки, миндаль, арахис – всегда относятся к категории «орехи», т.е. отношение «род-вид» между дескрипторами орехи и фундук не зависит от контекста, в котором эти понятия употребляются. Это парадигматическое отношение. Напротив, отношение «деятельность – предмет деятельности» между  дескрипторами выращивание и фундук формируется только в контексте (в некотором тексте) и является синтагматическим (текстуальным) отношением.

В ИПТ обычно  фиксируются  следующие парадигматические отношения (связи):

  • род-вид (выше-ниже, шире-уже);
  • отношение синонимии (условной эквивалентности);
  • ассоциативные отношения различного вида.

Отношение “род-вид” связывает  два  дескриптора,  если объем понятия,  соответствующий одному из дескрипторов, включается в объем понятия другого дескриптора. Примеры: орехи – фундук, физиотерапия – светолечение, воздушные суда – самолеты. Наличие иерархических связей из тезауруса АИС, обеспечивает возможность автоматического учета при поиске по заданному поисковому признаку  всех дескрипторов, расположенных ниже соответствующего.

Отношение синонимии означает, что поиск по одному из условных или истинных синонимов позволит найти в базе данных АИС и те документы, которым приписаны  в качестве КС  остальные (см. выше пример  группы условно эквивалентных КС).

Ассоциативные отношения устанавливаются между КС  любых категорий и уровней иерархии. Они аналогичны ассоциативным связям, возникающим в сознании человека, когда представление об одном объекте вызывает представления о других. При поиске в АИС ассоциативные отношения позволяют найти по одному дескриптору документы по связанным с ним дескрипторам. Пример: при поиске по дескриптору безопасность полетов АИС, используя тезаурус, автоматически проводит дополнительные поиски по ассоциативным дескрипторам авария, молния, обледенение, опасное сближение, отказ, ошибочное действие, повреждение, пожар, полное разрушение, столкновение, и т.д. Ассоциативные связи, как правило, не различают ИПТ по их семантике. Однако, следует упомянуть, следующие виды ассоциаций: «целое – часть», «причина – следствие»,  «антонимия», «предмет – обычная область его применения» и т.д.

Нетрудно найти в сети стандарты на тезаурус информационно-поисковый одноязычный (ГОСТ 7.25-2001) и многоязычный (ГОСТ 7.24-90). В настоящее время подготовлен и обсуждается интересный современный проект ISO на многоязычные тезаурусы в электронной среде.


Оставить комментарий

Скрыто от всех