En


Ольга Лавренова
0 2097
Ольга Лавренова

Тематический (предметный) поиск. Основы.

В международной практике создания информационных систем, в том числе – библиотечных, поиск по темам и предметам выделяется в отдельный вид, который, по сути, означает смысловой поиск или, точнее, поиск по содержанию текстов. При этом четкого различия между понятиями «тема» и «предмет» поиска не существует.

Задача тематического поиска в электронных библиотеках (ЭБ) отличается от таковой в сфере создания электронных каталогов (ЭК) не столь принципиально, как представляется многим, тем более что поиск в ЭБ преимущественно основан на тех же библиографических записях (БЗ) в ЭК или соответствующих им по содержанию метаданных, структурированных иными способами (например, с помощью языков разметки текстов XML или HTML). Правда, иногда к библиографическим данным добавляются для поиска некоторые дополнительные части документа (например, оглавление).

Теоретическое объяснение того, что свободный поиск по ключевым словам (КС) в ЭК или по словам в полных электронных текстах документов не может обеспечить высокие показатели полноты, заключается в следующих непреложных законах языкового общения:

  • языковые способы передачи знаний (информации) устроены так, что обеспечивают экономию используемых средств; ограничение передаваемой каждым сообщением (текстом) информации позволяет людям сообщать друг другу сведения в приемлемые отрезки времени; отсюда – ограничение передаваемой каждым сообщением информации;
  • следовательно, передача и восприятие информации невозможна без восстановления;
  • получателем (адресатом) информации, не отраженной непосредственно в тексте, на основе фонда общих знаний коммуникантов;
  • вывод – невозможна передача информации в автоматизированной информационной системе без создания в системе фонда общих знаний.

Если у автора статьи и читателя недостаточно общих структур знаний, происходит непонимание текста, т.е. читатель не может адекватно интерпретировать его содержание. Спрашивается, почему разработчики систем нередко полагают, что некая совокупность технических устройств и программных продуктов без обеспечения ее фрагментами «знаний о мире» для интерпретации передаваемой в текстах информации сможет адекватно обнаруживать необходимые человеку данные?

Технологически тематический поиск в электронных библиотеках (ЭБ) реализуется:

  • по обычным электронным каталогам ЭБ с использованием принятых в них средств;
  • по метаданным, представленным не в форме записей ЭК (XML, HTML – разметка);
  • по полным текстам документов с лингвистическими процессорами, «базами знаний» и без них;
  • по частям полных текстов (например, оглавлениям, рефератам, аннотациям, наиболее информативным разделам).

Полнота и точность поиска информации зависят от разработанности лингвистических средств системы вне зависимости от способа его реализации.

Неплохие результаты дают статистические методы обработки текстов, использование оценки значимости терминов в тексте путем ранжирования их в соответствии с некоторыми показателями “веса”. Однако в больших массивах полнотекстовых данных проверить качество этих средств чрезвычайно трудно, приходится полагаться на некоторые вероятностные оценки результатов поиска.

Для реализации требований к характеристикам тематического (предметного) поиска используются различные информационно-поисковые языки (ИПЯ) – искусственные языки, специально разработанные с целью представления информации для машинной обработки и поиска этой информации в АИС.

Разумеется, элементы данных для тематического поиска в автоматизированной информационной системе получают свои метки формата или языка разметки текста.


Оставить комментарий

Скрыто от всех