En


Ольга Лавренова
0 24
Ольга Лавренова

Публикация в среде Linked Open Data классификационной системы организации знаний (часть 2)

Продолжение статьи посвящено конкретной реализации проекта представления классификационной системы в среде LOD, включая описание структуры RDF-высказываний и её анализ на реальном примере.
3.3. Классификационная модель в среде LOD
Настала очередь для выполнения желаний пользователя относительно  вывода ресурсов библиотек в открытое сетевое пространство: для опубликования нашей системы знаний в среде связанных открытых данных. Эта задача заключается, в первую очередь, в формировании отдельных утверждений, построенных в среде описания ресурсов RDF (Resource Description Framework). Ресурсами считаются любые данные, в том числе элементы классификации. Каждый ресурс получает URI (Uniform Resource Identifier, универсальный идентификатор ресурса в сети), т.е. уникальный адрес.  Любое утверждение о ресурсе выглядит как триплет (тройка) «субъект – предикат – объект». Важно, что в технологии LOD требуется обеспечить процессы обогащения запроса поисковыми признаками исключительно с помощью программных средств (без участия человека). Это обстоятельство предъявляет особые требования к качеству структуры данных.

Проектные решения РГБ.

Третий год специалисты РГБ ведут проект «Представление классификационных метаданных электронных библиотек по технологии связанных открытых данных (Linked Open Data)» . Он поддержан грантом РФФИ  № 15-07-05265. Начальный этап работы описан в статье.

Технологии и данные, разработанные для  Навигатора, который реализует функции виртуального систематического каталога, переводятся в пространство Semantic Web. Файлы классификации, полученные в результате преобразования в RDF отредактированных разделителей Генерального систематического каталога РГБ, были загружены в семантическое хранилище для последующего манипулирования данными с помощью языка запросов SPARQL. Программное обеспечение включает программный пакет Apache Jena, который удовлетворяет всем требованиям и является  платформой для создания приложений связанных данных и Семантической паутины. В частности, помимо протокола SPARQL, сервер Fuseki (компонента платформы)  поддерживает полнотекстовые запросы (Jena text query) к встроенному серверу Lucene (подробнее).

На основе анализа зарубежного опыта преобразования в RDF других классификаций и иных семантических структур выработана собственная концепция решения данной задачи. Основное отличие от других проектов состоит в том, что наша модель знаний формируется не на основе некоего эталона классификации со всеми его составляющими и правилами построения индексов персоналом библиотек, а на базе готовых индексов систематического каталога, уже построенных для конкретных документов. Естественно, и основные деления классификации из таблиц в иерархии присутствуют.

Каждый классификационный индекс объявляется концептом и  получает URI. В форме триплетов представляются все связи индекса с теми элементами классификации, которые могут использоваться для программного обогащения запроса человека. Таковыми считаются: эквиваленты слов из формулировок (грамматические формы, результаты словообразования, синонимы и т.д.), иерархические и ассоциативные связи между индексами, ассоциативные связи с другими ресурсами в LOD.

Определены те пространства имён в сети, из которых берутся метки (тэги): RDF, SKOS  http://www.w3.org/TR/skos-primer/. При этом уже имеющихся в SKOS тэгов оказалось достаточно, т.е. не потребовалось формировать собственное пространство имён, как это сделано для УДК в LOD   http://www.xml.com/pub/a/2005/06/22/skos.html.  Достаточно было уточнить требуемую интерпретацию меток, без чего нельзя обойтись, поскольку SKOS разработана для семантических моделей различных типов.

Установлен  следующий состав элементов данных для файлов разделителей систематического каталога, кодируемых в RDF:
– URI – skos:Concept
– индекс ББК – skos:notation
– полная цепочка формулировок индекса – skos:prefLabel
– альтернативная цепочка формулировок индекса – skos:altLabel
– вышестоящий индекс – skos:broader
– нижестоящий индекс – skos:narrower  (формируется автоматически)
– ссылки «смотри также»  и “смотри» – skos:related
– примечание, уточняющее содержание индекса и содержащее примеры (более узкие или равнозначные темы или понятия  по отношению к выраженному в словесной формулировке данного индекса)  – skos:example
– последний элемент цепочки формулировок индекса – skos:hiddenLabel
(вычленяется программно и копируется из полной цепочки формулировок)
– формальные (служебные) элементы для ведения базы данных:
skos:historyNote – описывает существенные изменения смысла или формы концепта
skos:changeNote  – документирует структурные изменения относительно концепта (перенос в другое дерево и т.д.).

Покажем процесс представления  в RDF индекса  Е472.311.5  из примера, рассмотренного в статье ранее (часть1, раздел 3.1).
Вначале указываются  те пространства имён в сети, из которых берутся тэги для описания данных (выделены полужирным шрифтом):
@prefix skos: <http://www.w3.org/2004/02/skos/core#> .

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .

Для каждого индекса автоматически был создан концепт с URI.
Для индекса  Е472.311.5 URI –  http://lod.rsl.ru/bbkgsk/concepts/%D0%95472.311.5.
Для вышестоящего индекса Е472.311 URI – http://lod.rsl.ru/bbkgsk/concepts/%D0%95472.311.

<rdf:RDF xmlns:skos=”http://www.w3.org/2004/02/skos/core# “> – это метка начала  утверждения (записи)  о концепте (индексе классификации) в целом.

Далее указывается, что обозначением на естественном языке (notation) для данного URI является  Е472.311.5:
<skos:notation>  Е472.311.5</skos:notation>.

Здесь <skos:notation> – это метка начала записи в RDF, а </skos:notation> – метка конца записи.

Далее используется аналогичная структура описания.

Затем фиксируется  отношение «Е472.311.5 имеет  полную цепочку формулировок Биологические науки — Микробиология — Физиология, биофизика и биохимия микроорганизмов — Биохимия микроорганизмов — Обмен веществ и энергии у микроорганизмов. Питание микроорганизмов — Анаболизм (ассимиляция) — Биосинтез — Фотосинтез. Фотосинтезирующие микроорганизмы»:

<skos:prefLabel xml:lang=”ru”> Биологические науки — Микробиология — Физиология, биофизика и биохимия микроорганизмов — Биохимия микроорганизмов — Обмен веществ и энергии у микроорганизмов. Питание микроорганизмов — Анаболизм (ассимиляция) — Биосинтез  </skos:prefLabel>.

Далее фиксируем другие отношения данного индекса, в частности, отношение:
« Е472.311.5 имеет вышестоящий  индекс  Е472.311»:
<skos: broader xml:lang=”ru”>  Е472.311</skos: broader>.

<skos: </rdf:RDF>  – метка окончания утверждения относительно данного концепта в целом.

В реальных RDF-записях вместо индексов  Е472.311.5 и Е472.311 указываются их URI, приведённые выше.

В рамках проекта создаются и дополнительные средства обогащения запросов пользователей, например, программно вносятся в RDF-представления индексов поисковые слова из методических указаний к ним, взятых из таблиц ББК. Они связываются с концептом с помощью метки skos:example.

Например, для индекса  Щ314.043 (Искусство. Искусствознание — Музыка — Отдельные виды музыки и музыкального исполнения — Вокальная музыка — Теория вокальной музыки — Виды, жанры и формы вокальной музыки — Вокальные жанры камерного репертуара) вводится с помощью skos:example методическое указание:  «Кантата, вокальный цикл, романс, песня, баллада и т. п.».

Таким образом формируются данные в среде LOD. Это позволяет связать в Семантической паутине что угодно с чем угодно, а также обеспечить поиск связанных открытых данных стандартными программными средствами сети  с обогащением запросов на основе зафиксированных связей.

Пример поиска в ЭК и ЭБ РГБ в среде LOD.

Запрос: морской фитопланктон.
Вывод: конкретное деление с окружением и уровни делений из соответствующей цепочки для индекса ББК:

Биологические науки — Общая биология — Гидробиология —  Приспособление водныхорганизмов к жизни в толще воды и на дне бассейнов
— Флора водоемов — Фитопланктон — Моря и океаны.

mmj

Связанные данные в Semantic web.

Структурированные данные нетрудно преобразовать программно в RDF-представления. Более сложным оказывается выбор ресурсов, с которыми имеет смысл соединять классификационную модель знаний. Эту задачу пробуют решить многие библиотеки в мире.

Рассмотрим применение классификационной модели в технологии LOD  в двух направлениях. С одной стороны, ясно, что публикация классификационной модели в пространстве связанных открытых данных позволит обогатить запросы различных пользователей (организаций и лиц) для программной передачи этих запросов в ЭК и ЭБ РГБ. Если другие библиотеки найдут эту технологию полезной для себя, то они также смогут её использовать для обогащения запросов в своих ЭК.

В рамках проекта рассматривается также перспектива представления в LOD среднего варианта таблиц ББК и  построение (в форме RDF-высказываний) связей индексов полных таблиц из разработанной модели  и индексов средних таблиц. Это позволило бы обогащать запросы пользователей ещё и индексами последних для передачи запросов в ЭК, работающих на среднем варианте таблиц. Разумной, но очень сложной задачей является установление связей с УДК и Десятичной классификацией Дьюи.

Среди различных вариантов использования классификационной модели рассматривается разработчиками проекта двусторонняя связь с Википедией, которая очень популярна практически у всех зарубежных разработчиков LOD для библиотек. С одной стороны, можно предоставлять  пользователям нашей ЭБ возможность вывода статей из Википедии для заданных ими в запросе  терминов или названий. С другой стороны, служба поддержки Википедии  могла бы, если заинтересуется, посылать термины в нашу систему на поиск публикаций по соответствующей теме в ЭК РГБ и сообщать своим пользователям на сайте о наличии книг и диссертаций  по данной теме в Библиотеке. Для многих статей из Википедии имеются очень короткие списки литературы на соответствующие темы. Они формировались, скорее всего, авторами или редакторами. С другой стороны, практически на каждую тему имеются издания в библиотеках, например, в РГБ. Если рассмотрим в Википедии статью “Бриология” (наука о моховидных растениях), то увидим, что в списке литературы указана только одна книга. При этом в ЭК РГБ (включая ЭБ) имеется более 300 записей на книги и диссертации с индексами ББК и их формулировками, содержащими это слово. В Википедии могла бы стоять ссылка, например, следующего вида: «В Российской государственной библиотеке имеются следующие публикации по данной теме».

Собственно, такого рода возможности – предмет дальнейших исследований.


Оставить комментарий

Скрыто от всех