
Тематический (предметный) поиск. Основы.
В международной практике создания информационных систем, в том числе – библиотечных, поиск по темам и предметам выделяется в отдельный вид, который, по сути, означает смысловой поиск или, точнее, поиск по содержанию текстов. При этом четкого различия между понятиями «тема» и «предмет» поиска не существует.
Задача тематического поиска в электронных библиотеках (ЭБ) отличается от таковой в сфере создания электронных каталогов (ЭК) не столь принципиально, как представляется многим, тем более что поиск в ЭБ преимущественно основан на тех же библиографических записях (БЗ) в ЭК или соответствующих им по содержанию метаданных, структурированных иными способами (например, с помощью языков разметки текстов XML или HTML). Правда, иногда к библиографическим данным добавляются для поиска некоторые дополнительные части документа (например, оглавление).
Теоретическое объяснение того, что свободный поиск по ключевым словам (КС) в ЭК или по словам в полных электронных текстах документов не может обеспечить высокие показатели полноты, заключается в следующих непреложных законах языкового общения:
- языковые способы передачи знаний (информации) устроены так, что обеспечивают экономию используемых средств; ограничение передаваемой каждым сообщением (текстом) информации позволяет людям сообщать друг другу сведения в приемлемые отрезки времени; отсюда – ограничение передаваемой каждым сообщением информации;
- следовательно, передача и восприятие информации невозможна без восстановления;
- получателем (адресатом) информации, не отраженной непосредственно в тексте, на основе фонда общих знаний коммуникантов;
- вывод – невозможна передача информации в автоматизированной информационной системе без создания в системе фонда общих знаний.
Если у автора статьи и читателя недостаточно общих структур знаний, происходит непонимание текста, т.е. читатель не может адекватно интерпретировать его содержание. Спрашивается, почему разработчики систем нередко полагают, что некая совокупность технических устройств и программных продуктов без обеспечения ее фрагментами «знаний о мире» для интерпретации передаваемой в текстах информации сможет адекватно обнаруживать необходимые человеку данные?
Технологически тематический поиск в электронных библиотеках (ЭБ) реализуется:
- по обычным электронным каталогам ЭБ с использованием принятых в них средств;
- по метаданным, представленным не в форме записей ЭК (XML, HTML – разметка);
- по полным текстам документов с лингвистическими процессорами, «базами знаний» и без них;
- по частям полных текстов (например, оглавлениям, рефератам, аннотациям, наиболее информативным разделам).
Полнота и точность поиска информации зависят от разработанности лингвистических средств системы вне зависимости от способа его реализации.
Неплохие результаты дают статистические методы обработки текстов, использование оценки значимости терминов в тексте путем ранжирования их в соответствии с некоторыми показателями “веса”. Однако в больших массивах полнотекстовых данных проверить качество этих средств чрезвычайно трудно, приходится полагаться на некоторые вероятностные оценки результатов поиска.
Для реализации требований к характеристикам тематического (предметного) поиска используются различные информационно-поисковые языки (ИПЯ) – искусственные языки, специально разработанные с целью представления информации для машинной обработки и поиска этой информации в АИС.
Разумеется, элементы данных для тематического поиска в автоматизированной информационной системе получают свои метки формата или языка разметки текста.