En


Михаил Шварцман
0 1536
Михаил Шварцман

Электронная библиотека как основа виртуальной исследовательской инфраструктуры

Как-то давно я слышал такое определение университета: университет это библиотека и стоящие вокруг него здания. В прежние времена действительно все знания сосредотачивались в библиотеке, и вне библиотеки невозможно было заниматься наукой. Позднее значение библиотек уменьшалось, особенно с внедрением компьютерной техники и библиотеки стали снова осмысливать свое положение в новом мире. История развивается по спирали и сейчас, как мне кажется,  библиотека (уже электронная библиотека) снова может начать играть основополагающую роль в научных исследованиях, как основа виртуальной исследовательской инфраструктуры (ВИИ).

Если мы посмотрим на темы докладов последних  конференций по электронным библиотекам, то увидим, что сейчас практически никто не говорит о том, как создать электронную библиотеку. В основном, доклады посвящены интеграции электронных библиотек и интеграции не только между библиотечной, а интеграции в образовательные, социальные и научные проекты. Этому способствует развитие web сервисов, распространение технологии LinkedOpenData, все возрастающие возможности семантической обработки текста. Поскольку именно в библиотеках хранятся тексты, которые можно семантически обрабатывать, в библиотеках сосредоточены специалисты по обработке информации. Именно поэтому в последнее время стали появляться проекты исследовательских сообществ на базе университетских библиотек. Эти сообщества занимаются разными отраслями наук. Например,  в Лейденском университете это сообщество социологов и экономистов,  в проектах JISC (Единого Комитета по Информационным системам Великобритании)  – биологи и филологи.

Хотя эта тема довольно активно обсуждается в последнее время, так и не было еще выработано единого термина.  Кроме VirtualResearchEnvironment (VRE) также употребляются

  • Совместные е-Исследовательские Сообщества
  • Совместная Виртуальная Среда
  • Collaboratory
  • (Научный) Шлюз
  • Виртуальная организация
  • Виртуальное Исследовательское Сообщество.

Что же представляет собой эта ВИИ.Начнем с определения. ВИИ – это  платформа для интернет-ориентированной совместной рабочей среды, позволяющей использовать новые методы взаимодействия и новые способы обработки исследовательских данных и информации. Определение это не единственное, так же как и для электронной библиотеки, но в разных вариациях упоминаются возможности распределенной работы, разделение инструментов, опыта участников и информации между членами сообщества.  Авторы попытались представить  себе,какие задачи могла бы решать ВИИ по истории российской науки на примере электронной библиотеки трудов великих российских ученых 18-19 веков и какие сервисы для этого потребовались бы.

Обычно для создания ВИИ берется какое либо портальное программное обеспечение. Чаще всего для этого используется The VRE Toolkits для MS SharePoint  (см рисунок 1).

Рисунок 1 MS tollkit

Рисунок 1.Скриншот The VRE Toolkits.

Этот инструмент  используется для авторизации, ведения профилей, календарей и, что самое интересное, для подключения различных web-сервисов, которые собственно и помогают организовать совместную научную деятельность. Посмотрим, какие сервисы нам потребуются. Вначале нужно определить дисковое пространство, в котором будут храниться промежуточные результаты совместной работы участников ВИИ. Для этого можно использовать сервисы хранения данных:

  • Amazon Web Services –  отличается гибкой политикой тарификации
  • Dropbox – имеет хорошо сделанный API
  • Google Drive – умеет интегрироваться  с другими сервисами Google
  • YandexDisk – предоставляет 10 gBбесплатного хранения

У каждого сервиса есть свои достоинства, недостатки и выбор будет зависеть от задач.

Поскольку мы работаем в команде, то нам необходим сервис управления совместной работой. Помимо широко известных календарей Яндекса и Google можно обратить внимание на сервис TRELLO (https://trello.com). В нем присутствует доска объявлений, которая предоставляет множество возможностей для организации совместной работы над каким-либо проектом. Есть возможность объединять заметки в группы, помечать их цветными метками и прикреплять файлы, изображения, списки дел и ссылки. Также есть возможность объединять пользователей в группы и добавлять людей к заметке, чтобы они ее просмотрели. Помимо web-интерфейса Trello имеет API. (см рисунок 2). Для примера мы попробовали использовать этот сервис для планирования работ по созданию нашей библиотеки.

Рисунок 2 trello

Рисунок 2. Скриншот сервиса TRELLO

Определив задачи, нам нужно выбрать сервисы для совместной работы над  документами, которые будут создаваться в процессе нашей совместной работы. Трудно соперничать с сервисами Google по совместному редактированию текста таблиц и презентаций, поэтому об этом можно не говорить подробно. Хотим только обратить Ваше внимание  на Google Fusion Tables http://www.google.com/drive/start/apps.html#fusiontables и Googlecharttoolshttps://google-developers.appspot.com/chart/. Эти сервисы позволяют создавать таблицы из различных наборов данных. В них есть гибкие инструменты для объединения таблиц, форматирования их содержимого, анализа данных и их визуализации с помощью построения диаграмм различных видов. Это бывает очень удобно при групповой работе – при заполнении (изменении) таблицы одним из участников работы все остальные сразу видят измененную картинку. Так, например, заполняя таблицу в docs.google.com/spreadsheet об иерархической структуре Российской Академии наук все сразу видят получающуюся иерархию (см. рис 3). К тому же можно использовать систему геопозиционирования для изображения табличных данных.

Рисунок 3.1 code chart example Рисунок 3. 2 Метод построения иерархической структуры

Рисунок 3. Метод построения иерархической структуры в онлайне

Для представления табличных данных на карте также можно использовать сервис ArcGIS http://www.esri.com/software/arcgis. Это система для организации, анализа и отображения любых статистических данных, имеющих географическую привязку. Помимо инструментов анализа и визуализации данных, приложение включает в себя средства интеграции с сайтами. К сожалению, в нем нет поддержки русского языка. Для взаимодействия предоставляется web-интерфейс, есть API для Java и Python. Для примера мы попробовали представить на карте, как распределяются места рождения и смерти авторов книг, включенных в нашу электронную библиотеку. Для этого была составлена таблица случайным образом отобранных авторов (см. рис.4).  Общая картина нас не удивила. Как и сейчас, места рождения (зеленые кружки) разбросаны по всей России, а места смерти (красные кружки) находятся, в основном, в Москве, Санкт –Петербурге, на Черном море и Западной Европе.

Рисунок 4 Map

Рисунок 4. Распределение мест рождения и смерти

Большим преимуществом современных научных библиотек является их хорошая обеспечнность доступом к онлайновым научным базам данных, на которые они тратят сейчас существенную часть бюджета. Вбольшой степени именно поэтому основой для ВИИ может являться библиотека и библиотекари. Именно здесь можно получить экспертную оценку большинству источников и сформировать массив научной информации, являющийся базой для любого научного исследования. Первоначальный массив может быть собран при помощи библиографических менеджеров типа Zotero, Mendeley, Citavi. Наибольшей функциональностью обладаетCitavi. В него можно загрузить данные по протоколу Z39.50 из крупнейших библиотек мира, проведя предварительный поиск по элементам библиографического описания.

Рисунок 5 mendeley

Рисунок 5. Пример использования Mendeley

У программы много достоинств (можно оставлять комментарии, просматривать оригиналы, создавать структуру будущей научной работы и т.п.), однако как ее можно подключить к порталу неясно, поэтому можно посоветовать использовать сервис Mendeley. Для сервиса разработан Web-Importer,который позволяет добавлять записи,найденные в базах крупных информационных провайдеров. Загруженные записи можно редактировать, снабжать метками, связывать с полными текстами.  Для сервиса разработан API, что позволяет использовать его в портале ВИИ. На рисунке 5 приведен пример загрузки записей из Springerи Elsevier по теме «history of Russian science»/

Любой группе ученых будет очень полезно получать информацию о новых поступлениях в онлайновые научные базы. Для этого нужно установить в портале своего научного коллектива блок для получения RSS и настроить его соответствующим образом. Многие крупные издатели и агрегаторы научной информации предоставляют сервис отправки по RSS списков новых поступлений по заданной теме. Например, на сайте научной библиотеки СПБГУ можно найти 20 последних публикаций, включенных в БД СКОПУС http://www.library.spbu.ru/news/sps/ . Если тема интересующая коллектив ученых освещается на различных сайтах, то можно при помощи сервиса Yahoo! Pipes http://pipes.yahoo.com/pipes/ сначала собрать полезные новости со всех возможных поставщиков и затем отобрать по заданным ключевым словам действительно интересную информацию. Yahoo! Pipes  – это бесплатныйсервис для создания конвейеров обработки информации. Конвейер принимает на входе одну или несколько RSS-лент и обрабатывает их в соответствии с блоками в конвейере (множество основных блоков уже реализовано).

Рисунок 6 Pipe

 

Рисунок 6. Скриншот настройки контейнера

На выходе мы можем получить еще одну отфильтрованную RSS-ленту, JSON или KML. Есть возможность сделать общедоступнымирезультаты работы контейнера.В качестве примера можно посмотреть, как выглядит  контейнер для сбора новостей с ряда сайтов, посвященных истории науки, и  фильтрации собранных результатов по терминам  histor* и scien*. Скриншот настройки контейнера показан на рисунке 6. Результат работы этого контейнера в виде rss доступен по ссылке :http://pipes.yahoo.com/pipes/pipe.run?_id=6d82c07ce0bd77abc5dfae5eb6cb4193&_render=rss

Помимо информации из сторонних источников нам нужно будет обрабатывать информацию из собственной электронной библиотеки. Учитывая, что у нас находятся отсканированные издания 18-19 веков, задача их качественного  распознавания является очень важной, тяжелой и требующей коллективной работы. Пока сервисов распознавания текстов немного, а бесплатных практически нет. Нам удалось найти только Virtual Transcription Laboratory http://wlt.synat.pcss.pl/wlt-web/index.xhtml. Цель этого проекта предоставить web-сервис для загрузки изображений, распознавания их при помощи программного обеспечения Tesseract и коллективного редактирования результатов распознавания. Пример работы смотри на рисунке 7. К сожалению, сервис пока не предоставляет API, но авторы говорят, что работают над этим.

Рисунок 7. ИнтерфейсVirtualTranscriptionLaboratory

Рисунок 7. ИнтерфейсVirtualTranscriptionLaboratory

После того как мы получили распознанные тексты исследуемых документов, нам уже можно приступать к их анализу. Какие же сервисы анализа текстов существуют сейчас. Интересный пример такого сервиса предлагает команда разработчиков Google Ngram Viewer Team, подразделение  Google Research. Весь массив книг оцифрованных и распознанных Google был разбит на так называемые n-граммы, то есть словосочетания – сочетания по n слов, идущих в тексте подряд (n может быть от1 до 5). Для каждой n-граммы сочетания записывается, в какие  документы она входит и какова дата публикации каждого из этих документов. Пользователь  сервиса задает поисковый запрос, в котором указывает какие n-граммы его интересуют, и интервал времени, а сервис выдает график, на котором показано отношение количества запрошенных n-грамм к общему количеству n-грамм  с таким же значением n в общем массиве Googlebooks за каждый год из указанного отрезка времени. Например, нам интересно сравнить насколько были популярны Бутлеров, Менделеев и Ломоносов в России и за рубежом. Задав поиск на русском языке в массиве российских книг, мы видим, что Ломоносов всегда был самым популярным, а популярность Бутлерова и Менделеева была примерно равна до 1972 года, а потом популярность Менделеева стала выше (см. рисунки 8 и 9).

Рисунок 8. ngrams Russian

Рисунок 8. Google Ngram Viewer. Сравнение Бутлерова, Менделеева и Ломоносова

Рисунок 9 ngrams English

Рисунок 9. Google Ngram Viewer. Сравнение Butlerov,Mendeleev и Lomonosov

Если же мы посмотрим на результат поиска на английском языке среди массива книг на английском, то увидим, что популярность Ломоносова была выше только до 1985 года, а потом стала ниже или сравнима с популярностью Менделеева. А популярность Бутлерова  всегда была существенно ниже остальных. Авторы ни в коей мере не претендуют на интерпретацию этих фактов, но уверены, что многим историкам такой инструмент может быть очень интересен.

Для  семантического анализа текста можно использовать сервис Annie http://www.aktors.org/technologies/annie/ . Это приложение с открытым исходным кодом для анализа текстов, основанное на GATE. Основной его задачей является распознавание объектов в тексте. Annie умеет находить людей, месторасположения, организации, даты, адреса деньги и проценты. В данный момент кроме английского поддерживаются болгарский, румынский, бенгальский, греческий, испанский, шведский, немецкий, итальянский, и французский языки и происходит адаптация к арабскому, китайскому и русскому. Для работы с приложением существуют web-интерфейс и API. На вход приложению подается анализируемый текст или URL страницы в Интернет. Результатом является размеченный текст. На примере (см. рисунок 10) мы видим выделенные разными цветами имена, даты, названия мест.

Рисунок 10 Annie

Рисунок 10. Сервис Annie

Несколько большим функционалом обладает сервис семантического анализа текста  OpenCalais http://www.opencalais.com/.Это приложение для анализа текстов любой сложности: оно извлекает из текста информацию о различных объектах (используя техно

Рисунок 11

Рисунок 11. Пример работы с OpenCalais

логии обработки естественных языков и машинного обучения) и создает из них теги. Также приложение умеет находить конструкции, отражающие некоторые события или взаимосвязи между объектами. Приложение может быть использовано для построения облаков тегов для различных материалов портала, а так же для формирования записей в формате RDF. Приложение имеет как web-интерфейс (поддерживает только английский язык), так API (поддерживает английский, испанский и французский языки).Для иллюстрации возможностей сервиса мы взяли текст из англоязычной Википедии о пребывании Ломоносова в Марбурге (рисунок 11). На рисунке мы видим, что организации, имена, события и связи между ними выделены, определены семейные связи. Текст далее преобразован в RDF, снабжен тегами и может быть подвергнут дальнейшей семантической обработке.

Одна из задач исследователя  в современном мире – это опубликовать результаты своей работы так, чтобы они могли быть максимально удобно использованы другими учеными.  Поэтому нашу электронную библиотеку трудов российских ученых, обогащенную исследователями ВИИ хорошо бы опубликовать как OpenLinked Data. Одним из основных преимуществ современных технологий является возможность исследователей связывать полученные ими результаты с результатами других коллективов и предоставлять свои данные для использования всем желающим. Для этого используется технология Linked Open Data http://linkeddata.org/. Таким образом публикуют свои данные многие зарубежные библиотеки. Так, например, OCLC, British Library, Bibliothèque nationale de France, Europeana и многие другие уже опубликовали свои каталоги как LinkedOpenData (LOD). Недавно было объявлено, что и Virtual International Authority File (VIAF) позволяет использовать свои данные по этой же технологии. Это особенно важно для нас, поскольку позволяет устанавливать связи от нашей электронной библиотеки к нормативным записям о великих русских ученых, получать сведения о написании их фамилий на разных языках и, соответственно, полный список их трудов, изданных на этих языках. Поскольку в задачу авторов не входит детальное описание этой технологии, то напомню только, что основными особенностями таких данных является то, что они представлены в виде триплетовсубъект–предикат-объект, каждая часть триплета – это URI, ведущий к месту публикации этой части и весь массив находится в открытом доступе. Для поиска в таких массивах разработаны специальные инструменты.

Наша база российских ученых 18-19 веков пока еще не имеет возможности публикации своих данных в виде LinkedOpenData. Надеюсь, в будущем мы это сделаем при помощи  DR2 Server http://d2rq.org/d2r-server . Это бесплатный сервлет для Apache Tomcat, являющийся прослойкой между реляционными базами данных и семантической паутиной.  Для демонстрации полезности Linked Open Data в деле изучения истории российской науки мы выбрали  своего примера данные, которые неизвестные исследователи уже опубликовали как Linked Open Data вDBpedia http://wiki.dbpedia.org/. Мы решили выбрать всех российских ученых, информации о которых занесена в DBpedia, и построить схему распределения этих ученых по наукам. Для этого при помощи SPARQL Explorer http://dbpedia.org/sparql на языке SPARQL  был составлен следующий запрос:

SELECT *WHERE {

?name <http://www.w3.org/1999/02/22-rdf-syntax-ns#type><http://dbpedia.org/ontology/Scientist> .

?name <http://dbpedia.org/property/birthPlace><http://dbpedia.org/resource/Russia> .

?name <http://dbpedia.org/ontology/birthDate> ?date .

?name <http://dbpedia.org/ontology/field> ?field       }

В ответ мы получили  набор триплетов следующего вида. Для экономии места предикат опущен, поскольку он везде одинаковый – «работает в области». Выдержка из списка приведена на рисунке 12.

Рисунок 12 Набор триплетов

Рисунок 12 Набор триплетов

На основе этой таблицы мы можем при помощи сервиса Gruff http://www.franz.com/agraph/gruff/ построить нужный нам граф (рисунок 12). Gruff – это средство для представления триплетов в различных видах. Он позволяет отображать запросы в виде графа, таблицы, SPARQL запросов и других формах. Приложение легко в использовании и доступно для всех платформ через API.

Рисунок 13.Схема распределения ученых

Рисунок 13.Схема распределения ученых по наукам в Gruff

Таким образом, посредством запросов на языке SPARQL и дополнительныхсервисов типа Gruff мы можем на портале нашей ВИИ объединять наборы данных из разных источников, добавлять к ним данные своих исследований и представлять в наиболее удобном для нас виде. Мы не хотели бы преувеличивать значение DBpedia, как источника научной информации, однако как инструмент получения различных точек зрения и отладки технологии LOD, DBpedia работает замечательно.

Как показывает опыт, основные проблемы виртуальных исследовательских сообществ связаны не с техническими трудностями, а с неготовностью ученых к совместной работе в онлайне.  Можно разрабатывать сколь угодно удобные сервисы, но если мы не сможем заинтересовать ими ученых, стоить они будут немного.  Все успешные виртуальные научные коллективы отличаются наличием в них очень активных  ученых и дружным коллективом специалистов разного профиля.  Различные фонды поддержки науки готовы вкладывать деньги в такие коллективы, потому что они предчувствуют, что ВИИ  имеют высокий  потенциал и могут предложить  такие  преимущества как:

  • поддержку географически разнесённых исследовательских групп
  • упрощение в международной совместной работе
  • поддержку общей сети
  • поддержку в междисциплинарных исследованиях
  • повышение производительности исследователей
  • упрощение доступа к (дорогой) исследовательской инфраструктуре
  • увеличение скорости взаимодействия между исследователями
  • более быстрое распространение результатов исследований
  • и, возможно, самое важное, новое качество исследовательских результатов.

Настоящая работа была выполнена совместно с Найдиным О.П.


Оставить комментарий

Скрыто от всех