En


Ольга Лавренова
0 1338
Ольга Лавренова

Тематический (предметный) поиск. Анализ средств поиска на примерах из одного электронного каталога

Для демонстрации важности использования семантических (смысловых) связей между словами и словосочетаниями, которые используются  при тематическом поиске в электронных каталогах и электронных библиотеках, проанализируем на этот раз результаты поиска по одному запросу в одном из электронных каталогов. Такую работу может провести каждый желающий убедиться в серьезности высоких требований к лингвистическому обеспечению информационных систем, если до сих пор не был убежден в их необходимости.

Рассмотрим ПРИМЕР  обработки (в 2008 г), запроса в электронном каталоге  РГБ, на котором основан  поиск документов как в традиционном фонде, так и в электронной библиотеке. Проведем поиск авторефератов по финно-угорским языкам. Выберем базу данных «Авторефераты».

Введем

ЗАПРОС: <финно угорск? язык?>

Результат – 164 библиографические записи  (БЗ).

Из них 86 БЗ последних лет – со словесными формулировками индексов (далее  – СФИ), а до 2003 года индексы ББК в БЗ на авторефераты не вносились.

Анализ всех этих записей показал, что без СФИ можно было бы найти только 5 БЗ из 86-ти. Таким образом,   потери при поиске составили бы 81 БЗ, т.е. 94 %  (!) записей из имеющихся в ЭК авторефератов по заданной теме, начиная с 2003 г. Кстати, это означает, что и в электронной библиотеке диссертация и авторефератов потери информации были бы такими же недопустимыми.

Остальные 78 БЗ из выданных не имеют словесных формулировок индексов и найдены по полям <заглавие> и <специальность ВАК>. Разумеется, те БЗ, введенные в ЭК до 2003 года, которые  были защищены по другим специальностям ВАК и не имели в заглавии соответствующих поисковых признаков, просто  затерялись в базе данных. Кстати, данная специальность ВАК  отменена с 2000 года, так что и эта возможность поиска теперь закрыта. Для справки: диссертации, посвященные  финно-угорским языкам, защищались более чем по 12-ти разнообразным специальностям ВАК и не обязательно в области филологии.

Следует подчеркнуть, что и поиск  по заглавиям не даст высокого результата. Они содержат, как правило, названия конкретных языков или их подгрупп: финский, карельский, коми-пермяцкий, удмуртский, марийский, хантыйский, венгерский, мордовские (мокшанский и эрзянский) языки, волжская группа языков и т.д.

Что касается поиска по полному тексту в электронной библиотеке без таблиц классификации или тезауруса пользователю приходится уповать на автора, который должен, описывая в автореферате работу по конкретному языку, догадаться упомянуть в тексте всю иерархию терминов из соответствующей ветви дерева классификации языков.

Контрольные  поиски в ЭК авторефератов по отдельным финно-угорским языкам показали, что в ЭК авторефератов должно быть найдено намного больше записей.

Удмуртский язык – 96 библиографических записей (БЗ).

Мордовские языки – 86 БЗ, причем дополнительно по  отдельным поискам: мокшанский язык – 21 БЗ,  эрзянский язык – 38 БЗ.

Марийский язык  –  84 БЗ

Финский язык – 16 БЗ

Карельский язык – 19  БЗ

Венгерский язык – 17  БЗ

Ханты язык – 19  БЗ

Саамский язык – 2  БЗ             и т.д.

Итого: найдено почти 400 БЗ по перечисленным языкам. Количество авторефератов только по удмуртскому и мордовским языкам больше, чем 164 найденных записи.

 Можно провести еще дополнительные поиски по группам финно-угорских языков.  Пользователь, увидевший на экране 164 записи, будет пребывать в уверенности, что нашел все авторефераты, имеющиеся в фонде РГБ (т.е. появившиеся в стране) по финно-угорским языкам. Нелепо было бы предлагать пользователю вспоминать все языки данной семьи или группы для проведения поиска. Таким образом, по поводу величины потерь при поиске авторефератов с 1986 по 2002 г. (без цепочек словесных формулировок индексов ББК) по упомянутому  запросу пользователь останется в полном неведении.

Понятно, что 86 БЗ последних лет были найдены, так как  в цепочках словесных формулировок индексов ББК, которые систематизаторы  РГБ вносят в БЗ, содержатся формулировки всех уровней иерархии соответствующей ветки иерархического дерева таблиц ББК. Такая цепочка, расшифровывающая индекс классификации, построенный для документа, предоставляет возможность искать в ЭК по словам  из формулировок индексов ББК на всех уровнях иерархии данной ветви дерева. Это означает, что система автоматически учитывает иерархические связи между делениями классификации при обычном поиске по ключевым словам. Кроме этого, в отдельных случаях обеспечивается и поиск по синонимам.

Рассмотрим дополнительные примеры

заглавий диссертаций, кодов специальностей и цепочек словесных формулировок индексов в БЗ ЭК РГБ.

(1) Подлежащее в мокшанском языке. 10.02.03
Цепочка СФИ (тема): Филологические науки. Художественная литература — Языкознание — Финно-угорские языки — Волжская группа языков — Мордовские языки — Мордовско-мокшанский (мокша-мордовский) язык — Грамматика — Синтаксис — Предложение — Члены предложения
КС: подлежащее

(2) Вокалическая система кильдинского диалекта саамского языка в свете русско-саамской интерференции. 10.02.19

Тема:   Филологические науки. Художественная литература — ЯзыкознаниеФинно-угорские языки — Саамская (лопарская) группа языков — Саамский (лопарский) язык — Диалектология и диалектография — Местные (территориальные) диалекты

(3) Модальные слова и словосочетания в современном марийском языке.10.02.22

Темы:   Филологические науки. Художественная литература — ЯзыкознаниеФинно-угорские языки — Волжская группа языков — Марийские (мари, черемисский) язык — Грамматика — Синтаксис — Словосочетание
             Филологические науки. Художественная литература — ЯзыкознаниеФинно-угорские языки — Волжская группа языков — Марийские (мари, черемисский) язык — Грамматика — Морфология — Части речи — Модальные слова

(4) Топонимия бассейна реки Казым. 10.02.02

Тема:   Филологические науки. Художественная литература — ЯзыкознаниеФинно-угорские языкиУгорская группа языков — Обско-угорские языки — Хантыйский (остяцкий) язык — Лексикология — Словарный состав языка

В приведенных выше примерах цепочки содержат также синонимы основных поисковых признаков (в скобках). Это позволяет, в частности, найти документ по саамскому языку на запрос по лопарскому языку или документ по марийскому языку на запрос по черемисскому языку.

 

(5) Зоонимическая лексика карельского языка. 10.02.22

Тема:   Филологические науки. Художественная литература — ЯзыкознаниеФинно-угорские языки — Прибалтийско-финская группа языков — Карельский язык — Лексикология — Термин и терминология

(6) Реконструкция праобско-угорского вокализма. 10.02.20

Тема:   Филологические науки. Художественная литература — ЯзыкознаниеФинно-угорские языкиУгорская группа языков — Обско-угорские языки — Фонетика

Вывод прост, но, к сожалению, не для всех очевиден: без учета смысловых связей  в электронных каталогах и электронных библиотеках неизбежны огромные потери данных при поиске, причем скрытые от пользователя. Учет иерархических связей и отношений синонимии при поиске в ЭК возможен только с использованием структур типа классификаций, рубрикаторов или тезаурусов.


Оставить комментарий

Скрыто от всех