En


Ольга Лавренова
0 1850
Ольга Лавренова

Полнотекстовый поиск

Большой успех в обществе имеет иллюзия относительно того, что поиск в полнотекстовых базах данных электронных библиотек сам по себе достаточен, так как все слова в нем могут быть поисковыми. Это означает, что достаточно вести поиск прямо по текстам без дополнительных средств учета грамматики и семантики конструкций текста на естественном языке. Предлагаем развенчать эту иллюзию с теоретической точки зрения.

Итак, при поиске в электронной библиотеке программный продукт отыскивает в электронных текстах указанные в запросе последовательности знаков и, соответственно, выдает те документы, в которых они найдены. Рассмотрим возникающие при этом сложности.

Проблемы полнотекстового поиска заключаются в следующем:

  1. Текст состоит из словоформ: физика – в физике – физики. Поэтому нужен машинный грамматический словарь, в котором содержатся парадигмы склонения и спряжения слов и т.п., т.е. требуется лингвистический процессор. Словарь должен включать как общеязыковую лексику, так и терминологию соответствующей области знания. Что это означает для универсальной библиотеки? Словарь должен содержать хотя бы основную терминологию практически всех областей знаний одновременно. Насколько это реально выполнить? Для этого конструируются обучающиеся системы.
  2. Требуется учитывать особенности словообразования: физика – физический – физико-химический, программа – программировать – программный. Нужен словарь.
  3. Лексические единицы обладают свойствами синонимии, омонимии и полисемии (многозначности). Естественно, при использовании в тексте только одного из них, электронный документ не будет найден по запросам, в которых используются другие слова с эквивалентным значением (по слову лингвистика не найдешь слово языкознание). Требуются машинные семантические словари.
  4. Автор экономит силы и использует только слова и словосочетания, необходимые для понимания текста адресатами с соответствующим фондом общих с ним знаний (в частности, автор может не фиксировать в тексте иерархические связи между понятиями и отношения синонимии). Никто не может поручиться, что в своем тексте автор использует все слова и словосочетания, обозначающие более широкие понятия по отношению к тем, которые непосредственно требуются для изложения смыслового содержания работы. Автор далеко не всегда расписывает в тексте иерархическую структуру области знания, полагая, что она знакома будущим читателям (они знают, что бортмеханик и пилот относятся к летному составу, карельский язык – к финно-угорским языкам, а экологическая физиология к биологическим наукам). Таким образом, автор предполагает наличие некоторого общего фонда знаний с читателем, необходимого и достаточного для понимания, т.е. адекватной интерпретации смысла текста. Можем ли мы как специалисты, создающие электронные каталоги и электронные библиотеки, полагаться на случай (авось, автор обеспечит иерархический поиск в нашей системе)? Логичнее создать в ней «общий фонд знаний о мире», т.е. сформировать иерархическую классификацию, информационно-поисковый тезаурус или, как теперь стало популярным в сфере электронных библиотек, построить онтологию.
  5. Ассоциативные связи между понятиями – свойство мышления человека. Ассоциативные связи, отображаемые в тексте, целиком зависят от способа мышления автора, что не находит прямого вербального выражения. Требуется сформировать в системе ассоциативные связи, общие для некоторого круга специалистов, что и делается в тезаурусах и хороших классификациях.

Следовательно, полнота полнотекстового поиска в электронных библиотеках при всей его несомненной красоте также зависит от дополнительного использования сильных лингвистических средств: грамматических словарей, тезаурусов, классификаций.


Оставить комментарий

Скрыто от всех