En


Ольга Лавренова
0 979
Ольга Лавренова

Технология компьютерного поиска по текстам

Технологическая задача компьютерного поиска по текстам, в принципе, проста: идентифицируются последовательности знаков в текстах, соответствующие запросу пользователя.

Что значит – «идентифицируются»?

Это означает, что в текстах программно отыскиваются последовательности знаков, закодированные в двоичном коде (и не более того):

  1. полностью совпадающие с введенными пользователем (языкознание – языкознание, Пушкин – Пушкин, но не Пушкино, Пушкину, Пушкина, пушкинист);
  2. совпадающие с учетом специально оговоренных в системе условий (например, с отсечением конца слова: языкознание – языкознанием, языкознанию, Пушкин – Пушкину, Пушкино, Пушкина, Пушкинский); без различения прописных и строчных букв: Пушкин-пушкин; с учетом взаимного расположения в тексте последовательностей знаков, составляющих запрос пользователя, и т.д.);
  3. выполняющие в структуре текста определенную роль (например, принятую в библиографической деятельности: автор, редактор, заглавие, место издания : так, последовательность знаков Пушкин, в принципе, может выступать в любой из этих ролей; вид носителя информации, электронный адрес и т.д.);
  4. 4) связанные с введенной пользователем последовательностью знаков некоторыми отношениями, которые позволяет учитывать система (например, последовательность, находящаяся на определенном «расстоянии» в тексте; являющаяся его синонимом или неким условным эквивалентом: языкознание – лингвистика; имеющая более узкое по смыслу значение: языкознание – синтаксис, морфология, фонетика).

Качество поиска информации в электронной библиотеке, как и в любой другой автоматизированной информационной системе (АИС), зависит именно от возможностей идентификации тех последовательностей знаков в текстах, которые наилучшим образом характеризуют соответствие документа данному запросу пользователя, т.е. обеспечивают полноту и точность поиска.

Таким образом, простой поиск в массиве документов полнотекстового электронного ресурса проходит по технологиям (1) и (2). При библиографическом поиске по формальным признакам добавляется технология (3). Тематический (предметный) поиск может условно проводиться по технологиям из (1) и (2), для него безусловно полезна технология (3), но хорошего качества тематического поиска можно достичь только при реализации технологии (4).

Поиск по формальным характеристикам документа (автору, заглавию, году или месту издания и т.д.) требует одинаковой интерпретации пользователем и системой указанных понятий, определяющих роль каждого фрагмента текста в данном документе в библиографическом аспекте. Для этого создаются более или менее сложные системы меток (тэгов), обозначающих роли фрагментов текста.

Необходимость программного определения роли отдельных элементов текста очень быстро была осознана специалистами по поиску в электронных ресурсах, чего не скажешь о проблемах тематического (предметного) поиска, т.е. поиска по содержанию документа. Тексты создаются на естественных языках, функционирующих по собственным законам, формализация которых уже много десятилетий остается сложной задачей, решаемой только приблизительно.

Формальные и содержательные характеристики документа как точки доступа при поиске в системе могут быть контролируемыми. Для контроля библиотеки используют нормативные/авторитетные данные (Authority data). Деятельность библиотек в данном направлении неплохо упорядочена и чрезвычайно полезна для электронных библиотек.


Оставить комментарий

Скрыто от всех