
REPOX – инструмент для интеграции электронных библиотек
Желание объединять различные цифровые ресурсы в единую коллекцию, то есть стремление к интеграции возникло сразу после подключения библиотек к Интернет. Поэтому сейчас, в связи с накоплением большого количества цифровых ресурсов и увеличением скорости передачи данных, мы наблюдаем рост количества интегрирующих библиотечных проектов, объединяющих под своей крышей различные библиотечные, музейные, архивные и прочие электронные ресурсы и делающие их доступными в Интернет в едином поисковом интерфейсе.
Методы интеграции бывают различными. Их можно классифицировать по степени централизации данных и метаданных. При работе шлюза Z39.50 и данные, и метаданные остаются у своих владельцев и только в результате распределенного поиска метаданные из различных источников собираются в одной форме выдачи результатов. Следующая степень централизации – это предварительный сбор метаданных на одном сервере и проведение поиска уже единой базе. И, наконец, максимальная степень централизации – это сбор и данных и метаданных в одном месте.
Сегодня мы поговорим про методы сбора метаданных по протоколу OAI PMH (харвестинг) и методы их публикации для такого сбора. Хорошим примером организации взаимодействия по OAI является The European Library (TEL) http://search.theeuropeanlibrary.org/portal/ru/index.html . TEL- это консорциум национальных библиотек Европы. Эта система предполагает централизованное хранение метаданных и децентрализованное хранение цифровых объектов. В центральном индексе системы собираются все библиографические описания в формате Dublin Core, хранящихся в электронных каталогах национальных библиотек. Сбор информации происходит по протоколу OAI PMH. Робот с заданным интервалом обходит все электронные каталоги библиотек-участниц проекта, поддерживающие протокол OAI, и собирает новые библиографические описания. Описания хранятся в формате Dublin Сore на центральном сервере системы. К сожалению, далеко не все библиотечные каталоги в настоящее время поддерживают протокол OAI- MH. Некоторые поддерживают только Z39.50, некоторые только SRU. Поэтому при поиске информации используется гибридная технология объединения результатов полученных из разных источников.
Чем большее количество участников проекта будет использовать протокол OAI- MH, тем более полным будет центральный индекс. Соответственно тем больше сервисов сможет предложить проект своим участникам. Например, результаты, полученные по Z39.50 от разных источников, очень сложно ранжировать, кластеризовать и проводить аналогичные работы. Но, при получении ответов от центрального хранилища предварительно собранных метаданных, таких проблем не возникает.
Для того чтобы все библиотеки могли отдавать свои библиографические описания в общее хранилище, в рамках проекта было разработано свободно распространяемое программное обеспечение REPOX http://repox.ist.utl.pt/ , позволяющее загружать в свою внутреннюю базу записи в формате MARC21, UNIMARC или Dublin Core и способное отдавать эти записи по протоколу OAI- MH. Написано это программное обеспечение на Java и поэтому может быть использовано в различных операционных системах. В России REPOX используется в Российской государственной библиотеке http://195.74.82.104:8085/repox/OAIHahdler для передачи метаданных в рамках проекта «Национальная электронная библиотека».
Интерфейс программы довольно несложный. Вначале задается путь к загружаемому массиву и некоторые его характеристики. Кстати, в качестве источника данных может быть использован другой OAI провайдер и поэтому REPOX можно использовать и как провайдер, и как харвестер.
Поскольку у всех библиотек участниц имеется свое понимание того, что считать правильным MARC21, в REPOX предусмотрен механизм визуальной настройки таблиц соответствия при загрузке данных и конвертировании их.
Таким образом, это может быть хороший инструмент для нормализации входных потоков разнообразных данных из многих источников.
Как это выглядит на практике. Каждая библиотека, которая хочет участвовать в каком-либо интеграционном проекте, выгружает из своего каталога те библиографические записи, которые должны интегрироваться, и загружает их в REPOX, который в данном случае будет выполнять роль OAI-провайдера. Cборщик (харвестер) OAI записей на интегрирующем сервере (кстати, там в этом качестве тоже может стоять REPOX, соответствующим образом настроенный) в соответствии с заданным расписание обходит всех OAI-провайдеров и собирает метаданные. Далее он их нормализует и загружает в базу данных для проведения поиска. В качестве такой базы может быть например VuFind http://vufind.org, разработанный в Университете Виланова или Open Archives Harvester http://pkp.sfu.ca/?q=harvester , разработанный в Университете Симона Фрезера в Канаде. Можно собирать записи, объединяя институтские коллекции по заданной теме. Можно объединять метаданные из подписываемых онлайновых ресурсов и своего электронного каталога.
Хочу обратить внимание на то, что одни и те же метаданные могут собираться различными сборщиками для различных интегрирующих проектов.
Сотрудниками РГБ ( Н. Козловой и С. Балякиным) были написаны очень подробные инструкции по установке и использованию REPOX, которые Вы можете скачать здесь.