En


Ольга Лавренова
0 2493
Ольга Лавренова

Тематический (предметный) поиск. Информационно-поисковые языки. Проблема выбора.

Языковые способы передачи знаний (информации) в процессах человеческого общения   моделируются в автоматизированных информационно-поисковых системах (АИС), в том числе  в электронных библиотеках (ЭБ),  с помощью информационно-поисковых языков (ИПЯ). Они специально создаются уже более пяти десятилетий с целью  представления информации в удобном для машинной обработки виде.

Как и в естественных языках, в них используется некая лексика ИПЯ, т.е. свой словарный состав. Лексические единицы (слова) ИПЯ могут быть простыми (элементарными) или сложными, т.е. ИПЯ может иметь или не иметь свои средства  «словообразования»  – формирования более сложных лексических единиц из простых. Например, ключевые слова, даже если они имеют вид словосочетаний естественного языка, представляют собой простые единицы лексики языка свободных ключевых слов, дескрипторы – простые лексические единицы дескрипторного ИПЯ  (компьютер, соляная кислота, легкая промышленность, экологическая психология). В то же время, индексы в классификационных таблицах  ББК или УДК представляют собой сложные лексические единицы, построенные по правилам образования индексов соответствующей классификации (например, в таблицах ББК для массовых библиотек: 2 – Естественные науки, 22 –  Физико-математические науки, 22.1 – Математика, 22.14 – Алгебра,  22.144 – Общая алгебра и т.д.). Можно считать, что это морфология ИПЯ.

Кроме того, в ИПЯ может быть предусмотрен свой синтаксис, т.е. средства формирования «фраз» на данном ИПЯ (в частности, правила соединения в классификационном индексе ББК основного индекса и типового деления при описании конкретной книги можно считать средством формирования «фразы» на данном ИПЯ, если такое присоединение осуществляется при создании индекса непосредственно в процессе описания содержания документа при обработке для каталога). Морфология и синтаксис ИПЯ составляют его грамматику.

Однако, вопрос о сложности  грамматики ИПЯ не столь важен для информационного поиска, как богатство его семантических средств, т.е. средств выражения смысловых (семантических) связей между лексическими единицами ИПЯ.


Основные средства тематического поиска, которые используются в ЭБ отдельно или в различных сочетаниях:

  • Свободные ключевые слова (КС), выбираемые человеком или программно.
  • Тезаурусы.
  • Онтологии.
  • Иерархические классификации (индексы, наименования делений).
  • Предметные рубрики (предметные классификации).
  • Рубрикаторы (коды, наименования рубрик).
  • Имитация тематического поиска – поиск по ключевым словам во всех элементах библиографических записей.
  • Полнотекстовый поиск с лингвистическими процессорами и без них.

При выборе комплекса средств тематического поиска (состава ИПЯ), прежде всего, следует решить, каковы информационные потребности (поисковые намерения) основных пользователей данной электронной библиотеки.

Можно выделить следующие типы поисковых намерений пользователей ЭБ при поиске по теме [конференции КРЫМ – 2008]:

  • «найти хоть что-то, но в точном соответствии с предметом поиска» (для такого поиска достаточно свободных КС или предметных рубрик, возможен простой полнотекстовый поиск);
  • «подобрать максимально полную информацию по теме, но желательно без лишних документов» (необходимы классификации, тезаурусы);
  • «найти все, что касается темы поиска; допустима выдача документов, не точно соответствующих запросу» (обязательны тезаурусы и классификации в сочетании со свободными КС, предметными рубриками или полнотекстовым поиском);
  • «требуется сначала определиться, какова тематическая структура ЭБ по интересующей области знания, разобраться со связями между темами, областями знаний» (необходима иерархическая классификация, подробный рубрикатор).

Оставить комментарий

Скрыто от всех