En


Ольга Лавренова
0 57
Ольга Лавренова

Публикация в среде Linked Open Data классификационной системы организации знаний

Тема 32. Публикация  в среде Linked Open Data классификационной системы организации знаний (часть 1).

Рассматриваются способы обогащения (enrichment) запросов пользователей электронных библиотек на основе формирования классификационных метаданных и предлагается вариант размещения этой модели в среде открытых связанных данных (LOD, Linked Open Data).

Введение

Сетевые cистемы организации знаний (Networked Knowledge Organization Systems, NKOS) играют ключевую роль в управлении информационными ресурсами и создании различных приложений для обработки информации. Они создаются, как известно, в форме классификационных систем, тезаурусов, лексических баз данных, онтологий и таксономий. Такие модели знаний предоставляют семантические средства описания информационных  ресурсов в контролируемом и документированном виде и поэтому выполняют следующие функции:
– служат средствами представления и описания семантики информационных ресурсов, в том числе, документов,
– обеспечивают поддержку пользователей при поиске на основе организованных знаний,
– позволяют формировать семантические «дорожные карты» (semantic road maps) к определённым областям  знаний или деятельности,
– служат концептуальной основой систем, основанных на моделях знаний, и средством взаимодействия пользователей с информационными системами.

В частности, всё сказанное касается автоматизированных классификационных систем.

Возвращение к  внимательному отношению к системам представления знаний объясняется определённым разочарованием серьёзных пользователей способами и результатами поиска информационных ресурсов в сети Интернет, которые вначале казался решением всех информационных проблем. Огромное количество получаемых страниц не гарантирует полноты выдачи информации. Главное, пользователь в состоянии оценить только точность результата поиска и изменить структуру запроса. Поиск для научных исследований или проектных работ требует высокого показателя полноты, но её оценить в сети немыслимо.

Полнота сбора и хранения документальной  информации, а также её доступность – две основные задачи библиотек. Они же имеют наибольший опыт структурирования   семантических средств описания документов. Поиск в фондах крупнейших библиотек не может компенсироваться глобальной сетью до тех пор, пока метаданные для изданий и рукописей, особенно семантические, не будут доступны для обработки сетевыми средствами.

Далее использованы материалы из собственного доклада Лаврёновой О.А. «Классификационная модель знаний для обогащения запросов пользователей электронных библиотек» на Третьем международном форуме «Крым-20017».

Проблемы тематического поиска

1.1. Рассмотрим следующие вопросы, касающиеся тематического поиска в электронных библиотеках (ЭБ):
На что рассчитывает современный пользователь ЭБ при тематическом поиске текстов публикаций?
Какие возможности тематического поиска в ЭБ он хочет получить в результате развития технологий ЭБ?

Эти вопросы могут показаться тривиальными, но, на самом деле, ответы на них должны определять развитие автоматизированных информационных систем (АИС).

Обогащение запроса, в принципе,  происходит за счёт присоединения к заданным пользователем словам их грамматических вариантов, а затем – дополнения найденного классификационного индекса  или дескриптора нижестоящими индексами или дескрипторами, а также элементов, связанных с ними отношением синонимии (эквивалентности) или ассоциативными отношениями («смотри также»).

При работе в системах Яндекс или Гугл пользователь не рассчитывает на  гарантированную полноту результатов поиска, хотя  на него обрушивается несколько миллионов сайтов в виде результата его изысканий. Обращаясь в ЭБ серьёзной библиотеки, пользователь полагает, что создатели систем и библиотекари – это добросовестные и квалифицированные специалисты, которые подготовили условия для получения ими достаточно полного результата. Вписывая в поисковую строку слова и их словосочетания, якобы отражающие его информационную потребность,  он подспудно надеется на высокие показатели полноты результатов поиска. Точность поиска  легко определяется при анализе результатов. Если человек получил 100 документов, а представляются соответствующими запросу  70, то, с точки зрения человека, точность поиска – 70%, а информационный шум – 30%.  Полноту поиска пользователь на практике не может установить, так как для этого нужно проверить на соответствие данному запросу документы из всей базы данных библиотеки или хотя бы из статистически обоснованной выборки, что тоже для него немыслимо.

Пользователю в голову не придёт, что совершенно не обязательно по запросу «глаголы тюркских языков» он получит в ЭБ публикации  по глаголам  татарского, якутского,  чувашского, тувинского, хакасского,  киргизского, камасинского, башкирского,  азербайджанского и других  языков, поскольку иерархические связи в системе не предусмотрены. Странно было бы ожидать от обычного человека, что он станет  вносить в запрос все тюркские языки через логический знак ИЛИ. В результате он не обнаружит в  выдаче публикации о большинстве языков и, что самое печальное, может не догадаться о размере поисковых потерь.

Многие думают, что такая проблема касается только поиска по библиографическим записям электронных каталогов, но не в полнотекстовых базах данных. Однако вряд ли кто-то возьмётся со всей уверенностью утверждать, что авторы всех документов по указанной в запросе теме обязательно приведут в текстах всю иерархию вышестоящих терминов или разделов. В результате, такого рода поисковую систему и основанную на ней ЭБ нельзя признать надёжной с точки зрения полноты обеспечения пользователей информацией по заданной теме или предмету.  При этом неизвестны случаи, когда библиотеки предупреждали бы об этом  читателей.

Проблема решается  с помощью так называемого обогащения (enrichment) запросов на базе различных систем (моделей) организации знаний: тезаурусов, классификаций, таксономий, онтологий.

Современный пользователь привык к работе в открытом пространстве Интернет и поэтому ожидает, что в скором времени поиск в электронных каталогах и электронных библиотеках также будет осуществляться в аналогичной среде.

Он считает слишком  обременительным выбор конкретных библиотек с различными ЭК и ЭБ, с необходимостью изучения структуры и правил каждой информационной системы. Спасением могут быть сводные каталоги, но пока их возможности поиска по темам трудно назвать удовлетворительными. Кроме того, в технологии каждого из них придётся заново разбираться.

В нашем проекте предлагается одно из возможных решений  данной проблемы на основе формирования классификационных метаданных в среде открытых связанных данных в Семантической паутине (Семантическом вебе, Semantic Web) .

Средства обогащения тематических запросов пользователей

2.1. Наиболее мощным методом моделирования  знаний являются онтологии, но их разработка представляет собой сложнейшую задачу, решаемую в наше время только для отдельных областей знаний, в основном, хорошо структурированных. Тезаурусы и классификации иногда называют простыми онтологиями. Информационно-поисковые тезаурусы широко распространены в информационных системах, но достаточно развитый универсальный тезаурус до сих пор никому не удалось создать. Представляется, что одна из основных тому причин – отсутствие организационной основы и сотрудничества специалистов различных областей знаний. Библиотекари как наиболее серьёзные и опытные специалисты в области формирования метаданных смогли создать несколько универсальных классификационных систем, которым уделяется большое внимание в сфере использования моделей организации знаний для обогащения запросов.

2.2. Для наглядности предлагается рассмотреть технологию обогащения поисковых запросов на примере одного документа (автореферата диссертации), произвольно выбранного в ЭБ РГБ. При выборе выполнялось единственное требование:  рассмотреть публикацию научного содержания, так как при анализе популярных текстов значение классификационной модели кажется не столь убедительным.

Проектные решения РГБ для обогащения запросов

3.1. Пользуясь одним из имеющихся в ЭБ Российской государственной библиотеки (РГБ) средств тематического поиска, находим полный текст автореферата диссертации, который  и послужит нам примером для анализа принципов автоматического обогащения запросов. Библиографическая запись (БЗ) приводится в сокращённом виде.

Пример  БЗ на автореферат.

Изучение механизма сопряжения синтеза АТФ и протонного транспорта АТФ-синтазой из бактерии RHODOBACTER CAPSULATUS : автореферат дис. … кандидата биологических наук : 03.00.04 / МГУ . –   Москва, 1998 . –  21 с.
ББК:     Е472.311.5,0
Е072.511.271-31,0
Адрес текста: http://dlib.rsl.ru/rsl01000000000/rsl01000277000/rsl01000277109/rsl01000277109.pdf

Запрос формулировался следующим образом:  «обмен веществ микроорганизмов».

Понятно, что данный документ не может быть найденным напрямую по имеющимся в БЗ элементам, которые дают некую информацию о его смысловом содержании. В заглавии нет ни одного слова из запроса, а индекса ББК представляют собой некие коды (индексы), которые расшифровываются только в классификационных таблицах, причём нередко по частям (основные деления, специальные типовые деления, типовые деления общего применения и т.д.). Многие возразят, что в ЭБ автореферат может быть найден по словам из полного текста. В принципе, это возможно, но не в данном случае. Проверено, что автор рассматриваемого научного труда использует в тексте только более узкие термины, непосредственно описывающие его исследования.

Мало что даёт название специальности ВАК:

03.00.04 Биохимия (Биологические, химические, технические, сельскохозяйственные,
медицинские, ветеринарные)
Следует отметить, что данный автореферат не будет найден пользователем и по другим вышестоящим элементам иерархии тем, закодированных в индексе Е472.311.5,0:

Е472.311.5 Биологические науки — Микробиология — Физиология, биофизика и биохимия микроорганизмов — Биохимия микроорганизмов — Обмен веществ и энергии у микроорганизмов. Питание микроорганизмов — Анаболизм (ассимиляция) — Биосинтез — Фотосинтез. Фотосинтезирующие микроорганизмы

Расшифровка второго индекса ББК показывает иерархическое описание автореферата в другом аспекте. Понятно, что и по этим темам он без классификационного индекса найден не будет.

Е072.511.27 Биологические науки — Общая биология — Общая физиология, общая биофизика и общая биохимия — Общая биохимия — Химический состав и химические превращения отдельных веществ живых организмов. Обмен веществ — Органические вещества — Азотсодержащие органические соединения. Азотистый обмен — Нуклеиновые кислоты. Нуклеиновый обмен — Предшественники и продукты распада нуклеиновых кислот

Приведённые «расшифровки» индексов  представляют собой полные иерархические цепочки их  словесных формулировок.  В тексте автореферата почти все слова из цепочек словесных формулировок индексов  отсутствуют, так как автор не посчитал целесообразным показать своим читателям структуру отрасли науки, к которой относится его диссертация.

Проектное решение РГБ.

Полные цепочки словесных формулировок индексов ББК вносятся в БЗ с самого начала внедрения ЭК на основе оригинальной идеи специалистов РГБ. Все слова в словесных формулировках индексов и их произвольные сочетания являются в ЭК РГБ  поисковыми. В результате расшифровки индексов непосредственно в БЗ иерархические связи между темами работают при поиске автоматически (по умолчанию), так что пользователь (читатель) может не задумываться о способе получения результата. Технологически создаётся впечатление, что поиск идёт просто  по заданным ключевым словам. Таким образом обеспечивается иерархический поиск  для всех документов, метаданные которых содержат словесные формулировки индексов ББК, т.е. обогащение запроса, автоматически осуществляется за счёт включения в поиск слов из цепочек всех более низких уровней иерархии в индексе ББК.

Слова из словесных формулировок работают при поиске в полнотекстовой базе данных  ЭБ РГБ  наравне с другими метаданными.

3.2. Изначально была поставлена и задача формирования классификационной модели организации знаний на основе ББК  поскольку достаточное количество пользователей желают самостоятельно осуществлять навигацию по иерархическим структурам классификаций, т.е. областей знаний, и выбирать требуемые темы. Кроме того, не следует забывать те  документы, для которых индексы в БЗ не были расшифрованы. Их тоже требуется найти.

Откроем секрет. Автореферат, выбранный в качестве примера 1, не был найден по цепочке словесных формулировок, поскольку по какой-то  причине её не ввели в БЗ. Поэтому предполагаемый пользователь о нём не узнал, если бы не специально разработанная Система  навигации (Навигатор), которая имитирует усовершенствованную технологию поиска по систематическому каталогу на основе классификационной системы (модели) представления знаний.

Проектные решения РГБ.

Основа классификационной модели – оцифрованная и отредактированная система разделителей Генерального систематического каталога (ГСК) РГБ (более 130 000 разделов), а не собственно эталон  таблиц для научных библиотек [1].

Работа именно с полными таблицами ББК на фоне появления разделов модернизированных средних таблиц обусловлена необходимостью сохранения и  совершенствования средств обеспечения  доступности бесценного фонда РГБ как культурного достояния страны в плане реализации тематического поиска. Индексы, приписанные миллионам книг, диссертаций, нотно-музыкальных и картографических изданий, сохраняются в том неизменном виде, в котором они применялись и применяются при систематизации. В интересах современного пользователя  модернизирована лексика и некоторые элементы, касающиеся постсоветского пространства. Иерархические деревья строятся, естественно, из индексов ББК и их полных словесных формулировок.

Система навигации позволяет просматривать иерархию разделов классификации как с верхнего, так и с любого другого уровня, который будет найден по словам из словесных формулировок индексов  (с учётом грамматики), а также непосредственно по индексам. При поиске по произвольному сочетанию слов запроса навигатор находит цепочки словесных формулировок. Пользователь отмечает  интересующие его темы, получает информацию о количестве документов для каждой из них, поднимается или спускается по иерархии, выбирает тему, и система передаёт индексы ББК в ЭБ, где отыскиваются библиографические записи  и полные тексты документов.

Учёт грамматики означает, что друг другу приравнены при поиске формы падежей и чисел существительных, прилагательных, причастий, а также некоторые формы словообразования.

Примеры:
Человек=человеком =люди=людей=человеческий=человеческие=человеческими.
Дети=детей=ребёнок=ребёнка=детсткий=детские, детство.
Замораживание=замораживанием=замораживаний=замороженном=заморожен=заморожена=
замороженная=замороженную.

Таким образом, на запрос «морской фитопланктон» будет найден документ по теме:
Е082.351.401 Биологические науки — Общая биология — Общая экология и биогеография. Охрана живой природы — Гидробиология — Приспособление водных организмов к жизни в толще воды и на дне бассейнов — Флора водоемов — Фитопланктон — Моря и океаны.

В сущности, система реализует функции  виртуального систематического каталога, так как она автоматически «выстраивает» библиографические записи, содержащие индексы полных таблиц  ББК за виртуальными разделителями, т.е. индексами и их словесными формулировками. Важно то, что при этом наличие или отсутствие «расшифровки» индекса в БЗ не имеет значения. Навигатор отбирает те записи, в которых индекс запроса совпадает  с искомым или хотя бы с его начальными знаками.

Вернёмся к нашему первому примеру БЗ. При поиске по словам «обмен веществ микроорганизмов» или  «микроорганизмы, обмен веществ»  по базе данных навигатора в выдаче оказывается и наш автореферат, так как в его метаданных имеется соответствующий индекс ББК, хотя и без словесных формулировок.

Рис.1. Экран результата поиска по словам

Рис1Крым

Рис. 2. Экран вывода фрагмента иерархического дерева для выбранной темы

Рис2Крым

 

Документ может быть найден и при выборе темы путём просмотра в навигаторе с верхнего уровня классификационной модели.

Обогащение запроса происходит за счёт присоединения к заданным словам их грамматических вариантов, а затем – дополнения найденного классификационного индекса  нижестоящими индексами. От второго режима пользователь имеет возможность отказаться и получить только документы с верхним из найденных индексов.

Во второй части статьи будет продемонстрирована готовая форма представления классификационной модели в среде LOD, а также  рассмотрена задача выбора ресурсов, с которыми имеет смысл соединять классификационную модель знаний в Semantic Web.

Ссылка
Лавренова О.А. Семантические средства библиографического поиска в  Российской государственной библиотеке. //  Общетеоретические и футурологические проблемы библиографии. Библиографическая запись как основа формирования библиографических ресурсов : материалы II  Международного библиографического конгресса  «Библиография: взгляд в будущее (Москва,  6-8 октября 2015 г.) /  Рос. гос. б-ка. Москва: Пашков дом, 2016. С.309-323


Оставить комментарий

Скрыто от всех