En


Михаил Шварцман
5 788
Михаил Шварцман

Омека как инструмент коллективного создания электронной библиотеки

В рамках работы по созданию Электронной библиотеки произведений великих русских учёных ХVII – XIX веков перед исполнителями проекта ставилась задача разработки такой технологии организации электронной библиотеки, чтобы она могла быть использована небольшим коллективом учёных. Следует отметить, что в настоящее время существует достаточное количество программного обеспечения для создания больших и малых электронных библиотек, среди которых используются как зарубежные (SOLR, Greenstone), так и российские (Tlibra и Ирбис) системы. Однако все они реализуют только библиотечные процессы  каталогизации полных текстов библиотекарями, и организации поиска на сайте электронной библиотеки.  В случае создания электронной библиотеки  специалистами в определённой предметной области и для специалистов возникают дополнительные задачи.  Попробуем на примере нашего проекта выявить круг этих задач и возможные методы их решения.

  1.  Распределение  экспертов во времени и пространстве. Как правило, специалисты по истории науки –  люди занятые во множестве проектов и должны иметь возможность работать  там где им удобно, и тогда когда им удобно. Поэтому система должна иметь достаточно простой WEB интерфейс  для ввода данных. Нужно сказать, что это условие самое простое и ему удовлетворяют почти все системы, но хотелось бы подчеркнуть, что мы планировали работать именно с виртуальным исследовательским коллективом.
  2. Созданная электронная библиотека должна быть вписана в соответствующий сайт, на котором кроме поисковых форм должны присутствовать информация о проекте, система навигации и прочие элементы дизайна. Среди историков немного  ИТ специалистов, способных объединить в одно целое систему для создания сайта (CMS) и электронную библиотеку. Поэтому нам нужна система для создания электронной библиотеки, в которой уже были бы встроены возможности CMS.
  3. Как показывает опыт, каждый эксперт может иметь своё собственное мнение по поводу любого документа, включаемого в электронную библиотеку, поэтому необходимо обеспечить возможность обсуждения каждого документа, а система должна  иметь сервис комментирования.
  4. Очень много информации о российских учёных уже существует в различных базах, каталогах и электронных библиотеках. Поэтому для обогащения нашей библиотеки система должна уметь отправлять запросы по различным протоколам (OAI-PMH, LOD и т.п.) в многочисленные внешние источники для получения дополнительной информации.
  5. Основными объектами, хранящимися в создаваемой электронной библиотеке, являются книги и статьи. Чаще всего они поступают в  виде отсканированных  и нераспознанных образов. Для возможности проведения поиска и частичного их копирования  нужен сервис распознавания. Однако книги ХVII – XIX веков  не очень хорошо распознаются даже средствами FineReader и их результаты нуждаются в корректировке. Процесс этот довольно трудоёмкий и необходимо иметь возможность разделить обязанности по исправлению книги среди нескольких создателей библиотеки. Иными словами, нужен инструмент для коллективной работы по корректировке текста.  Важность коллективной работы в виртуальной среде отмечала Бандурина И.А [1] и авторы совершенно с ней согласны.
  6. Система должна поддерживать полнотекстовый поиск.

Для выбора нужного инструмента было оценено несколько систем.  Поскольку самым существенным и ограничивающим авторов проекта условием было совмещение функций CMS и электронной библиотеки, то анализ начался с портальных систем, для которых разработаны библиотечные модули. На сегодняшний день наиболее распространёнными являются MS SharePoint, к которому можно подключать внешние модули,  Joomlа с модулем BookLibrary и  Drupal с модулем Biblio. Опыт работы с MS SharePoint показал, нецелесообразность рекомендации его коллективу историков для внедрения из-за сложности установки и настройки. Joomlа с модулем BookLibrary довольно успешно применяется в  Российской государственной детской библиотеке для электронного каталога «Детям и о детях: издательства России сегодня»[2]. Опыт использования Drupal имеется в Институте вычислительных технологий СО РАН.  В статье Леоновой Ю. В. И  Федотова А.М.,  [3] приведено сравнение Joomlа с Drupal и дано подробное описание последнего. Отметим, что обе системы имеют очень мощные составляющие для создания сайта и довольно развитые, но типично библиотечные составляющие, которые являются отдельным, закрытым для внешнего разработчика  плагином. Сложность установки, настройки и отсутствие  ряда необходимых функций не позволили выбрать эти системы для решения поставленной задачи. Поэтому авторы остановились на разработке Центра истории и новых медиа Роя Розенцвейга, находящегося в Фаерфаксе, Вирджиния, США(RoyRosenzweigCenterforHistoryandNewMediahttp://chnm.gmu.edu/) OMEKA.

«Омека» – это бесплатная, гибкая и открытая платформа для представления цифровых данных в сети Интернет. Она достаточно проста в использовании и подойдёт для библиотек, музеев, архивов. «Омека» – это слово на суахили означает: «разложить товар для продажи». Система спроектирована с учётом использования её нетехническими специалистами и позволяет сосредоточиться на данных и их представлении, а не на программировании.

Области применения

ОМЕКА рассчитана на различных пользователей и используется во многих проектах (Рис.1). Нередко учёные используют  её для публикации эссе или диссертаций, для совместного использования оригиналов коллекций, а также для совместной работы в создании цифрового контента (например, Digital Worcester http://www.digitalworcester.org/, или  The World at the Fair http://uclawce.ats.ucla.edu/).

Специалисты музейного дела пользуются ей для создания  онлайн коллекций, которые не могут быть показаны в обычных условиях.  Посетители могут проставить метки на образцах или пометить их как «любимые» и отправить информацию о них в различные социальные сети. (например, Inventing Europe: Technology and the Making of Europe http://www.inventingeurope.eu  или Gulag: Many Days, Many Lives  http://gulaghistory.org/ ).

Для библиотекарей целесообразно её использование для представления каталогов онлайн или для публикации цифровых выставок (например, проект The Ringwood Public Library “Upper Ringwood” http://www.upperringwood.org/index.php или проект библиотеки университета Орегона “Fighters on the Farm Front” http://scarc.library.oregonstate.edu/omeka/exhibits/show/fighters ).

Рисунок 1 пользовательская экосистема

Рис. 1. Пользовательская экосистема

Преподавателям она может быть интересна при создании проверочных тестов для студентов, они могут разрабатывать учебные планы и создавать учебные модули.[5] (например, проект  Laurel Grove School в Вирджинии  http://chnm.gmu.edu/laurelgrove или проект Children and Youth in History http://chnm.gmu.edu/cyh/).

Если говорить о технической стороне, то ОМЕКА лежит на пересечении трёх областей:  управление веб сайтом, создание электронных библиотек, создание виртуальных музеев (Рис. 2).

 

рисунок 2 технологическая экосистема

Рис. 2  Технологическая экосистема

Если говорить о конкретном применении ОМЕКА к поставленной авторам задаче, то  у нас было более 300 библиографических записей в формате MARC21 и отсканированные, нераспознанные книги в формате PDF, соответствующие этим записям. Необходимо было разработать и внедрить технологию, при помощи которой силами виртуального научного коллектива можно было бы создать электронную библиотеку, способную интегрироваться в мировое научное пространство и соответствующую основным требованиям к электронной библиотеке изложенным выше. Остановимся на сегодняшних результатах, поскольку говорить об итогах рано – система постоянно дорабатывается. По адресу http://195.74.82.67/omekaPortal/ можно посмотреть, как выглядит  интерфейс электронной библиотеки для читателей (Рис. 3).

В соответствии с идеологией ОМЕКА в системе существует три вида сущностей:

  • Библиографические записи – это описания основных единиц хранения в ЭБ (в нашем случае книги и статьи), в формате Dublin Core  (простом или расширенном).
  • Коллекция – описание совокупности библиографических записей в формате Dublin Core. В каждой записи проставляется признак принадлежности к той или иной коллекции, которые могут иметь отношение «выше – ниже» относительно друг друга, и на главной странице они могут быть представлены в виде дерева  коллекций.
  • Выставка – это совокупность предварительно отобранных библиографических записей и элементы дизайна, в котором они представляются пользователю.

Оценивая поставленные задачи и возможности дальнейшего использования ОМЕКА, мы пришли к выводу, что для разрабатываемого проекта наиболее подходит режим выставки по каждому учёному с возможностью включения туда его трудов и работ о нём. Кроме этого  читателям доступны такие средства навигации как временная лента, в которой отражаются годы создания работ, географическое распределение работ по местам их создания (Рис. 5) и возможности комментирования каждой записи.

рисунок 3 пример описания коллекции

Рис. 3. Пример описания коллекции

рисунок 4 географическое распределение работ Рис. 4. Географическое распределение работ по местам их создания

Понравившиеся записи пользователи могут отметить средствами огромного количества социальных сетей, список которых настраивается дополнительно и/или отправить по почте.

Одно из наиболее полезных и  интересных свойств ОМЕКИ –  возможность организации коллективных работ по распознаванию текста. Для этого, кстати, также, как и для полнотекстового поиска используется MediaWiki, которая устанавливается на том же сервере, что и ОМЕКА и хранит все изменения распознанного текста. Для каждой страницы хранимой книги можно назначить отдельный процесс распознавания. На экран одновременно выводиться изображение и предоставляется окно текстового редактора для ввода (редактирования) текста (Рис. 5).

Рисунок 5 Пример распознования страницы книгиРис. 5. Пример распознавания страницы книги

В любой момент можно посмотреть, кто внёс последние изменения в текст и при случае вернуть изменения назад.

Для ввода информации в ЭБ предусмотрены следующие методы:

  • Заполнение форм в формате Dublin Core. Этот метод довольно стандартный, но следует обратить внимание на интересную возможность: при заполнении ряда полей можно автоматически обратиться в  нормативную базу библиотек Конгресса США для подсказки стандартной формулировки предметной рубрики, наименования места, языка и т.п.
  • Импорт библиографических записей в формате Dublin Core. Следует отметить, что для импорта нужно представить данные в структуре CSV. Это не обычная практика и нам оказалось проще самим написать конвертер из Dublin Core в CSV, чем искать готовый.
  • Получение данных по протоколу OAI-PMH. ОМЕКА может работать как OAI-PMH –Харвестер и как OAI-PMH-Провайдер. Метаданные нашей электронной библиотеки можно получить по адресу http://195.74.82.67/omekaPortal/oai-pmh-repository/request.

Одной из важных задач, которая ставилась перед системой –  возможность обогащения наших метаданных данными из других библиотек. К сожалению, ОМЕКА такую возможность не предоставляет, но у неё есть возможность написания дополнительных плагинов на PHP. Поэтому авторами проекта был разработан дополнительный плагин, который обращается в Europeana с HTTP запросом, и во всем известное хранилище Linked Open Data – Dbpedia на языке SPARQL (текст запроса автоматически составляется на основе содержимого поля Subject). Полученные результаты записываются в библиографические записи в поле «Relation» в виде ссылок на документы в Europeana и Dbpedia (Рис. 6). Пример запроса, отправляемого в Dbpedia, приведен ниже

SELECT ?person

WHERE {

?person <http://xmlns.com/foaf/0.1/surname> ?sName.

FILTER (REGEX(STR(?sName), \”$sName\”)).

?person <http://xmlns.com/foaf/0.1/givenName> ?gName.

FILTER (REGEX(STR(?gName), \”$gName\”)). }

LIMIT 100

 

Результат выглядит следующим образом:

рисунок 6 Обогащение записи

Рисунок  6. Обогащение записи ссылкой на Dbpedia

Подобным образом можно получать информацию из различных источников. Следует отметить, что несмотря на всеобщее обсуждение на международных конференциях Linked Open Data(LOD) и восторгов по поводу его применения, мы столкнулись с тем, что многие источники публикуют далеко не всю информацию по LOD, некоторые периодически отключаются без предупреждений, а в некоторых формат SPARQLзапроса требует особенного синтаксиса, который не очень просто выяснить.

В заключение можно сказать, что ОМЕКА оправдала наши ожидания. Действительно, это простая система, легкая в установке, настройке и эксплуатации. Документация достаточно подробная[6], для испытания этой системы нет необходимости ее устанавливать у себя на сервере. Можно попробовать бесплатно создать свою электронную библиотеку для экспериментов на сервере http://www.omeka.net/. У ОМЕКА нет больших возможностей по конструированию сайтов, но все необходимое для сайта электронной библиотеки присутствует. Создатели ЭБ могут вводить данные, экспортировать и импортировать их, комментировать описания и совместно редактировать плохо распознанные тексты. Они могут обогащать свою коллекцию сведениями из других источников и разделять итог своего труда со всем миром. Не обходится, конечно, и без недостатков. Так мы столкнулись c тем, что ряд готовых плагинов конфликтуют между собой, одна запись может принадлежать только к одной коллекции, большая часть плагинов, которые были сделаны для первой версии ОМЕКА, не совместимы со второй версией. То есть мы еще раз убедились, что нет в мире совершенства.

Литература:

1.  Бандурина И.А. Научная мобильность как фактор профессионального развития ученого в эпоху глобализации [Электронный ресурс] / И.А. Бандурина // «Преподаватель высшей школы в ХХI веке». Юбилейная международная научно-практическая интернет-конференция. Секция «Профессионально-педагогическая культура преподавателя вуза, его компетенции и оценка эффективности педагогической деятельности» (10 ; 2013 ; Ростов на Дону). Материалы. – Режим доступа : http://www.t21.rgups.ru/sections/prof-pedag_kultura_prepod_vuza

2. Сайт проекта «Детям и о детях: издательства России сегодня»http://cat.rgdb.ru/ .

3. Леонова Ю. В., Федотов А.М., Подход к построению электронных библиотек  для поддержки коллективной работы сотрудников // Труды  12 й   Всероссийской  научной  конференции «Электронные  библиотеки:  перспективные  методы  и технологии,  электронные  коллекции»  –  RCDL’2010, Казань, Россия, 2010,

4. Kucsma, J.Reiss, K.,Sidman, A. Using omeka to build digital collections: The METRO case study //D-Lib Magazine   Volume 16, Issue 3-4, 2010. – Режимдоступа:http://www.dlib.org/dlib/march10/kucsma/03kucsma.html

5. Allison C. Marsh, Omeka in the classroom: The challenges of teaching material culture in a digital world// Lit Linguist Computing (2013) 28 (2): 279-282 doi:10.1093/llc/fqs068.

6. Сайт ОМЕКА – http://omeka.org/ 


Комментарии

IdeaFix

Cложилось ощущение что автор всё решил сделать сам, без опоры на чей-то опыт. Список литературы это ощущение только усиливает.
Зачем тут возможность обсуждения – не очевидно. Публичная она или редакторская/закрытая – не понятно. Это «блог с каментами», или «электронное издательство»? Мне кажется что и eprints и dspace/mirage справились бы с этой задачей точно так же. Тема выбора ПО не раскрыта, конкурентные преимущества выбранного ПО не очевидны. Я студентов за это в ВКР ругаю, зачем сравнивать несравнимое и выбирать как-бы в результате сравнения то, что договорились выбрать в самом начале?
Тут по-моему нужно вещи своими именами называть, дескать, мы попробовали это ПО и у нас получилось и нам понравилось. Но, мы загрузили много контента, но так и не приделали имя, мы влезли полным фондом в кэш гугла без доменного имени и не знаем что с этим будем делать.

Михаил Шварцман

Уважаемый IdeaFix, очень жаль, что у Вас сложилось такое впечатление. По-видимому, мне следовало бы больше уделить внимания в статье на критерии выбора ПО. Вы совершенно, правы, dspace и eprints справились бы с этой задачей. Однако, принципиальная разница между Omeka и dspace/eprints в том, что для организации готового сайта электронной библиотеки с приличным оформлением нужно иметь квалифицированного web дизайнера, что далеко не всегда под силу небольшим научным коллективам. В ОМЕКЕ же есть много готовых модулей, которые сильно облегчают жизнь. Например механизм создания выставок. Он, конечно, далек от идеала, но довольно удобен. Недаром он используется, в американской программе DPLA.
Имя мы приделали http://oiks.rsl.ru/omekaPortal, а вот что будем дальше с этим делать – пока вопрос открытый. В этом Вы правы. К сожалению, так бывает часто, пока РФФИ дает грант – работа идет. Как только грант заканчивается – работа останавливается. Будем надеяться, что наш опыт кому то понадобиться.

IdeaFix

Если данный проект задумывался как что-то бессрочно живущее, то с http://195.74.82.67/omekaPortal/ на http://oiks.rsl.ru/omekaPortal редирект бы сделать, в robots.txt директиву host бы прописать и др. и пр. Просто, когда начинаешь оценивать широту, а порой и глубину, стоящих задач при создании популярного в узких кругах, но с нулевым рекламным бюджетом, проекта, то критерии выбора выбора ПО меняются. И главным критерием становится в том числе наличие сильного русскоязычного комьюнити, знающего все проблемы наперед и имеющего готовые решения, а не опыт DPLA :) У DSpace и EPrints такое комьюнити есть, у Invenio и OJS похоже что нет. насчет сабжа не знаю.

Михаил Шварцман

Уважаемый Idealfix, Вы совершенно правы. Если бы мы планировали для нашего проекта долгую жизнь, то наверное все сделали бы так как Вы пишете. Однако основной задачей у нас было оцифровать старые издания великих русских ученых и исследовать различные методы создания электронных библиотек для виртуальных научных коллективов. Эти задачи мы выполнили. Оцифрованные книги вошли в электронную библиотеку РГБ, нужное программное ПО мы подобрали, испытали и даже отослали авторам перевод интерфейса на русский язык. Рекламный бюджет проекта был несколько отличный от нуля, но, конечно, очень маленький. Его хватило только на статью в журнале, несколько докладов ну и данный блог. Понимаю, что подобными методами сильного комьюнити не создашь, но все же это лучше чем ничего. Насчет OJS могу сообщить, что его комьюнити сейчас в России начинает очень активно формироваться силами НП НЭИКОН в рамках его проекта по государственной поддержке программ развития и продвижению российских научных журналов в международное научно-информационное пространство http://konkurs-jurnalov.neicon.ru/ Одним из условий получения поддержки является наличие электронной редакции. Уверен, что почти у всех это будет OJS.

borovinskiy

Я еще кое-что добавлю в защиту Omeka от IdeaFix. Сила системы – работа на Zend Framework и относительно простой код. Это означает, что достаточно легко найти программистов знакомых с Zend Framework, которые быстро добавят недостающий функционал.
Порог вхождения в Dspace для программистов заметно выше в следствии малой распространенности, готовых специалистов сделавших десяток проектов на Dspace (не внедрений, а именно написавших свой функционал) по миру-то будет непросто найти, не то что в России.


Оставить комментарий

Скрыто от всех