En


Михаил Шварцман
1 2916
Михаил Шварцман

REPOX – инструмент для интеграции электронных библиотек

Желание объединять различные цифровые ресурсы в единую коллекцию, то есть стремление к интеграции возникло сразу после подключения библиотек к Интернет. Поэтому сейчас, в связи с накоплением большого количества цифровых ресурсов и увеличением скорости передачи данных, мы наблюдаем рост количества интегрирующих библиотечных проектов, объединяющих под своей крышей различные библиотечные, музейные, архивные и прочие электронные ресурсы и делающие их доступными в Интернет в едином поисковом интерфейсе.

Методы интеграции бывают различными. Их можно классифицировать по степени централизации данных и метаданных. При работе шлюза Z39.50 и данные, и метаданные остаются у своих владельцев и только в результате распределенного поиска метаданные из различных источников собираются в одной форме выдачи результатов. Следующая степень централизации – это предварительный сбор метаданных на одном сервере и проведение поиска уже единой базе.  И, наконец, максимальная степень централизации – это сбор и данных и метаданных в одном месте.

Сегодня мы поговорим про методы сбора метаданных по протоколу OAI PMH (харвестинг)  и методы их публикации для такого сбора. Хорошим примером организации взаимодействия по OAI является The European Library (TEL) http://search.theeuropeanlibrary.org/portal/ru/index.html .  TEL- это консорциум национальных библиотек Европы. Эта система предполагает централизованное хранение метаданных и децентрализованное хранение цифровых объектов. В центральном индексе системы собираются все библиографические описания в формате Dublin Core, хранящихся в электронных каталогах национальных библиотек. Сбор информации происходит по протоколу OAI PMH. Робот с заданным интервалом обходит все электронные каталоги библиотек-участниц проекта, поддерживающие протокол OAI, и собирает новые библиографические описания. Описания хранятся в формате Dublin Сore на центральном сервере системы. К сожалению, далеко не все библиотечные каталоги в настоящее время поддерживают протокол OAI- MH. Некоторые поддерживают только Z39.50, некоторые только SRU. Поэтому при поиске информации используется гибридная технология объединения результатов полученных из разных источников.

Чем большее количество участников проекта будет использовать протокол OAI- MH, тем более полным будет центральный индекс. Соответственно тем больше сервисов сможет предложить проект своим участникам. Например, результаты, полученные по Z39.50 от разных источников, очень сложно ранжировать, кластеризовать и проводить аналогичные работы. Но, при получении ответов от  центрального хранилища предварительно собранных метаданных, таких проблем не возникает.

Для того чтобы все библиотеки могли отдавать свои библиографические описания в общее хранилище, в рамках проекта было разработано свободно распространяемое программное обеспечение REPOX http://repox.ist.utl.pt/ , позволяющее загружать в свою внутреннюю базу  записи в формате MARC21, UNIMARC или Dublin Core и способное отдавать эти записи по протоколу OAI- MH.  Написано это программное обеспечение  на Java и поэтому может быть использовано в различных операционных системах. В России  REPOX используется в Российской государственной библиотеке  http://195.74.82.104:8085/repox/OAIHahdler для передачи метаданных в рамках проекта «Национальная электронная библиотека».

Интерфейс программы довольно несложный. Вначале задается путь к загружаемому массиву и некоторые его характеристики. Кстати, в качестве источника данных может быть использован  другой OAI провайдер и поэтому REPOX можно использовать и как провайдер, и как харвестер.

Скриншот задания для загрузки

Поскольку у всех библиотек участниц имеется свое понимание того, что считать правильным MARC21, в REPOX предусмотрен механизм визуальной настройки таблиц соответствия при загрузке данных и конвертировании их.

Скриншот визуального конвертера

Таким образом, это может быть хороший инструмент для нормализации входных потоков разнообразных данных из многих источников.

Как это выглядит на практике. Каждая библиотека, которая хочет участвовать в каком-либо интеграционном проекте, выгружает из своего каталога те библиографические записи, которые должны интегрироваться, и загружает их в REPOX, который в данном случае будет выполнять роль OAI-провайдера.  Cборщик (харвестер) OAI записей на интегрирующем сервере (кстати, там в этом качестве тоже может стоять REPOX, соответствующим образом настроенный) в соответствии с заданным расписание обходит всех OAI-провайдеров и собирает метаданные. Далее он их нормализует и загружает в базу данных для проведения поиска. В качестве такой базы может быть например VuFind http://vufind.org, разработанный в Университете Виланова или Open Archives Harvester http://pkp.sfu.ca/?q=harvester , разработанный в Университете Симона Фрезера в Канаде. Можно собирать записи, объединяя институтские коллекции по заданной теме. Можно объединять метаданные из подписываемых онлайновых ресурсов и своего электронного каталога.

Хочу обратить внимание на то, что одни и те же метаданные могут собираться различными сборщиками для различных интегрирующих проектов.

Сотрудниками РГБ ( Н. Козловой и С. Балякиным) были написаны очень подробные  инструкции по установке и  использованию REPOX,  которые Вы можете скачать здесь.

Инструкция по установке

Инструкция по использованию часть 1

Инструкция по использованию часть 2


Комментарии

Арсен Боровинский

Надо заметить, что OAI-PMH опционально умеет MARCXML и, тогда, маппинг MARCXML на DublinCore не требуется.

Кроме того, DublinCore формат заметно проще MARCXML и сборщики метаданных тоже могут по разному интерпретировать информацию в DublinCore и может быть маппинг надо будет настраивать еще и там. Вот пример: http://elibsystem.ru/docs/oai-pmh/worldcat

В ELiS реализован OAI-PMH провайдер http://elibsystem.ru/docs/oai-pmh . Кроме очевидной причины интеграции в WorldCat и другие крупные каталоги, мотивация добавления OAI-PMH – подготовка почвы для интеграции в сторонние электронные каталоги, чтобы можно было загружать книгу в электронную библиотеку ELiS, а в электронный каталог не надо было ничего заносить и он бы сам подтягивал нужную информацию из ЭБ.

Каталоги в таком случае должны реализовать сборщик OAI-PMH. ИРБИС в этом плане высказывал намерения, а МАРК-SQL имеет проект на основе OAI-PMH.


Оставить комментарий

Скрыто от всех