En


Ольга Лавренова
4 2933
Ольга Лавренова

Для чего нужны библиотечно-библиографические классификации при поиске в электронных библиотеках?

Речь идет о наиболее развитых классификациях: УДК, ББК (отечественная национальная классификация), Десятичная классификация Дьюи, классификация Библиотеки Конгресса США. Может быть, они излишни в век расцвета полнотекстового поиска?

В одной из статей о тематическом поиске данного блога на основе анализа примеров продемонстрировано обоснование того непреложного факта, что без учета смысловых связей при поиске в электронных библиотеках неизбежны огромные потери данных при поиске, причем скрытые от пользователя. Учет иерархических связей и отношений синонимии при поиске в ЭК возможен только с использованием структур типа классификаций, рубрикаторов или тезаурусов. Рубрикаторы, как правило, ориентированы на построение иерархических деревьев смысловых связей типа «шире-уже» только на 2-4  уровня, что неприемлемо для поиска в больших объемах данных. Информационно-поисковые тезаурусы до сих пор не удалось создать для документальных фондов универсального содержания в силу необычайной трудоёмкости этой задачи. Они разрабатываются для отдельных областей знаний.

На этом фоне библиотечные классификации занимают выигрышное положение: они уже существуют, постоянно совершенствуются специальными службами, их поисковые функции отлаживались многими десятилетиями использования при тематическом поиске в электронных каталогах не только традиционных библиотек, но и в системах, называемых электронными библиотеками (ЭБ). Давно доказано, что они существенно повышают полноту поиска документов.

Почему же полнотекстовый поиск не компенсирует функций классификаций? В документах ЭБ так соблазнительно много слов…, но нет гарантированного  успеха отыскания документов, содержащих более узкие понятия при поиске по более широкой теме.

Эта ситуация имеет простое объяснение:  существует закон экономии использования языковых средств в речи (и письменной, и устной). В статье, диссертации, книге, предназначенной для определенного круга лиц, владеющих общими с автором знаниями,  человек не станет останавливаться на понятиях, ими априорно знакомых, и если и употребит соответствующие слова, то при необходимости пояснения новых. Зачем указывать в тексте, что марийский язык относится к волжской группе финно-угорских языков,   если пишешь работу для лингвистов?

Соответственно, ЭБ как система должна «знать» иерархию «тем», по которым происходит поиск, и уметь дополнять при поиске запросы более узкими «темами». Использование в ЭБ иерархических классификаций как раз позволяет учесть при поиске не только непосредственно указанную в запросе тему, но и все более узкие темы (стоящие ниже по иерархии) в её структуре. Это и повышает полноту поиска.

Проверим на примере, найдется ли полный текст автореферата диссертации Игнатьевой Е.И., описание которого в электронном каталоге (ЭК) РГБ /ссылка http://aleph.rsl.ru/F/?func=file&file_name=find-a/ приведено ниже, на запрос   «Авторефераты по волжской группе языков».

Ø      В заглавии нет слов «волжская группа».

Ø      В тексте автореферата в ЭБ диссертаций РГБ тоже нет таких слов.

Ø      Библиографическая запись  в ЭК РГБ содержит, кроме индекса ББК, его словесную формулировку. При этом расшифрован каждый уровень иерархии основного индекса и иерархия специального типового деления (часть индекса после дефиса – дерево разделов языкознания).

Запрос в ЭК РГБ: волжск? групп? язык? (с отсечением окончаний слов).

Документ удалось найти только по словесной формулировке индекса ББК, где зафиксированы иерархические связи между темами. Вывод: если не использовать классификацию, пользователь может не узнать, что по его запросу имеется в ЭБ и данный автореферат.

Неполная БИБЛИОГРАФИЧЕСКАЯ ЗАПИСЬ в ЭК РГБ

Индекс ББК |Ш166.32-211,0 |2 rubbk

Автор

|Игнатьева, Елизавета Ивановна
Заглавие |Деривация отрицания в марийском языке : |автореферат дис. … кандидата филологических наук : 10.02.22  Марийс. гос. ун-т
Место издания Йошкар-Ола 2004
Словесная

формулировка

индекса ББК

|Филологические науки. Художественная литература — Языкознание — Финно-угорские языки — Волжская группа языков — Марийские (мари, черемисский) языки — Грамматика — Морфология — Словообразование  rubbk
Эл. адрес в ЭБ http://dlib.rsl.ru/rsl01002000000/rsl01002732000/rsl01002732180/rsl01002732180.pdf

Потери при поиске без учета иерархических связей могут достигать 90 %.

Пользователь поисковой системы Yandex может легко убедиться в том, что по нашему запросу тексты будут выданы в ней только хотя бы при одном из двух условий: 1) слова имеются в этом тексте, 2) для них созданы метаданные, содержащие соответствующие более широкие темы.  Это естественно, так как в данной системе не используются семантические иерархические деревья.

Хотя в серьёзных поисковых системах сети Интернет  учитывается синонимия (языкознание=лингвистика), используются мощные грамматические средства (например, парадигмы склонения существительных), строятся  сложные алгоритмы вычисления близости расположения слов в текстах и оценки их частотности, на выходе пользователь видит, как правило, огромное количество страниц (текстов), которые с уменьшающейся вероятностью должны соответствовать его запросу. При этом никто и не обещает полноты выдачи информации. При поиске в глобальной сети человек ищет хоть что-то по заданному запросу в слабо неорганизованном массиве данных.

Электронные библиотеки потому и называются «библиотеками», что они хранят вполне определённые фонды и должны обеспечивать вполне определённые характеристики полноты и точности поиска в них, предоставляя пользователю (читателю)  вполне определённые гарантии получения документов по своему запросу. Следовательно, в них необходимо применять соответствующие средства представления данных. Однако поиск словоформ в полных текстах  ЭБ  полезен как дополнительная возможность найти «хоть что-нибудь» в дополнение к организованному поиску. Решение об использовании в этом режиме грамматических словарей или других методов анализа текста принимается, разумеется, в зависимости от экономических возможностей организации.

Что касается форм представления семантических связей в классификациях для ЭБ, то они могут быть реализованы весьма разнообразными способами и совсем не обязательно должны выглядеть так же, как на бумаге. Программистам – и «карты в руки». У нас есть идеи и некоторые их решения, а у вас?


Комментарии

Поросенкок

Уважаемая Ольга Александровна!
Понимаю. что это ваше хобби или даже смысл жизни, но, может быть, Вы хотя бы частично согласитесь, что интернет намного уменьшил значение библиографии вообще и каталогов в частности?

Ольга Лавренова

Спасибо за вопрос. Позвольте заметить, что в отношении информационного поиска мой настрой не столь романтичен, как у Вас. В силу профессиональной деятельности приходится смотреть на задачу «с холодным вниманьем» и в проектных решениях ориентироваться не на смысл жизни, а на смысловое содержание и структуру информационных ресурсов, а также на специальные исследования.
Согласна, что значение каталогов в целом при поиске в сетях становится менее существенным. Однако библиографические данные как таковые исправно работают при любых условиях; не стоит отождествлять их с карточками или записями в каталогах. Обратите внимание, в частности, на принятое Интернет-сообществом средство представления данных в сети под названием Dublin Core («Дублинское ядро») – оно структурирует именно библиографические данные.
Электронные ресурсы, в своём большинстве, представляют собой различного рода произведения индивидуального или коллективного автора, представленные (публикуемые) в электронной форме. Электронные библиотеки содержат произведения в форме электронных документов. Таким образом, библиографические объекты – произведение, автор, заглавие, год (дата) публикации, электронный адрес, предмет (тема) произведения и т.д. – еще долго останутся актуальными, как их ни структурируй.

Посмотрим на объект «предмет (тема) произведения», опубликованного в электронной библиотеке как оригинальный документ или как копия книги, диссертации, статьи или нотного издания, это не суть важно. Согласитесь, тематический поиск наиболее распространен как в традиционных или электронных библиотеках, так и в сетях в целом, и здесь во весь рост встает проблема качества тематического поиска.

В мировой практике создания электронных библиотек всё больше специалистов занимаются так называемыми системами представления знаний (KNOS), анализируют и совершенствуют использование в сетях ключевых слов, тезаурусов, классификаций, предметных рубрик и сочетаний этих средств поиска, а также более сложных онтологий.
Согласитесь, чтобы представить знания в некой системе, их сначала требуется описать в содержательном плане. Что мы имеем в этом аспекте? Универсальные классификации в библиотеках, тезаурусы по отдельным отраслям знаний и более сложные онтологии по достаточно узким областям знаний.
Посмотрим, например, на современный способ пространственного представления ключевых слов для электронных ресурсов, названный «облако тегов». Назвать можно любым полюбившимся словом, но достаточно начать построение семантических (смысловых) связей между «тегами» для повышения полноты поиска – получим те же структуры – тезаурус, классификацию, онтологию… При этом создание новых семантических структур такого рода требует многолетней работы больших профессиональных коллективов.
Сейчас важно поделиться идеями рациональной, продуктивной реализации в электронном пространстве имеющихся разработок. У Вас есть такая идея?

Боровинский Арсен Исаевич

Здесь есть что обсудить. Во-первых, переписывание поискового запроса – задача не электронной библиотеки, а поискового движка, вернее, стоящего перед ним анализатора запроса.

Действительно, в описанном примере можно сказать, что да, полнотекстовый поиск не решает всех проблем.

Но и библиотечные классификаторы не решают всех проблем.

Дальше я бы не стал недооценивать теги. Сейчас мир перешел в ситуацию, когда проще построить какие-то системы навигации исходя из пользовательских тегов, не принуждая их знать какую-то определенную систему, включая библиотечную и предоставив им возможность вбивать ключевые слова как им самим в голову взбредет. Некоторые систему (пример: youtube), впрочем, “подсказывают” тематически-близкие теги.

Уже потом можно пытаться выстраивать те или иные иерархии. В данном случае ситуация упрощается в том, что вместо того, чтобы садить библиографа и описывать каждый попадающий в интернет документ, садиться библиограф и создает иерархию уже исходя из вводимых пользователем тегов, что требует меньший объем работы, но требует большей квалификации.

Дальше еще одно уточнение: вот пользователь ввел свой термин и анализатор запросов переписал его, заменив “волжская группа языков” на “волжская группа языков” ИЛИ “марийские языки” ИЛИ …
и вот так в эти ИЛИ запихнет все поддерево классификатора.

Я думаю, уже понятно, что это весьма плачевно скажется на производительности поиска т.к. под такой запрос попадет большое количество документов. Вернее, если бы у нас был поиск только по метаданным, то еще как-то можно было пережить, но в случае полнотекстового…

К слову, Алеф РГБ отрабатывает указанный запрос от 11 до 20 секунд при использовании простого поиска, а при использовании поиска по всем базам данных результатов выполнения запросов просто не получается дождаться…

Ну а раз будет много ИЛИ, то и результатов тоже будет очень много, что означает, что человеку все равно придется уточнить свой запрос.

Боровинский Арсен Исаевич

Ну и сейчас поисковики умеют выстраивать “семантическое ядро”. Т.е. понять о чем идет речь в документе можно с некоторой точностью алгоритмически.

Какие-то классификации при этом полезны, как вы правильно заметили, но вот ручной “росписи” можно избежать.


Оставить комментарий

Скрыто от всех