En


Михаил Шварцман
1 1272
Михаил Шварцман

Как сделать своими силами распределенный (федеративный) поиск во всех подписываемых ресурсах

С каждым годом российские университеты подписывают все больше и больше онлайновых ресурсов. Это очень хорошо, но если читателю нужно найти статью по автору или заглавию, а он не знает, в каком журнале  она была опубликована, то ему нужно последовательно заходить в каждый ресурс и проводить там поиск. Для более простых случаев, в которых читатель знает название журнала  известно решение GODOT: Open Source Link Resolving http://researcher.sfu.ca/godot успешно применяющееся в Санкт Петербургском государственном университете http://godot.library.spbu.ru/GODOT/ . Но для тех читателей, которые кроме автора, названия или ключевого слова ничего не знают, оно не походит.

Коммерческие решения подобной проблемы давно известны, как в виде сервисов, например, EBSCO Discovery Service, так и в виде готовых продуктов, например, Primo, компании Exlibris. Достоинства этих решений хорошо известны. Но также известно, что их стоимость не всегда приемлима для небольших университетов. Можно было бы воспользоваться  средствами Scirus   http://scirus.com или  Академии Google http://scholar.google.com , но, как показывает анализ,  пересечение ресурсов подписываемых российскими университетами и охватываемых Scirus  и Академией  Google  не очень велико, особенно из-за российских ресурсов.

Удачная попытка решить эту задачу малыми затратами сил и средств была сделана в Сибирском федеральном университете. На странице http://libsearch.sfu-kras.ru/


форма запроса

Читатель видит форму поиска, и список ресурсов, к которым университет имеет доступ. Можно поставить галочки в чек боксах рядом с наименованием  ресурсов, в которых мы хотим провести поиск. Введенный нами поисковый запрос направляется в указанные нами ресурсы. Для каждого ресурса заранее был изучен  Web интерфейс его поисковой страницы и на PHP написана программа, автоматически заполняющая необходимые поля в поисковой форме. Далее эта программа получает HTML код страницы с результатами поиска и разбирает ее в соответствии с форматом выдачи этого ресурса. Результаты работы программ по всем ресурсам объединяются  и передаются  читателю вот в таком виде.
форма ответа

Никакого особенного открытия здесь нет. Подобным образом действуют и коммерческие Discovery продукты. Программы для каждого ресурса получаются не очень сложными, вся проблема в их количестве и страсти издателей к изменению интерфейсов. Как только издатель меняет что-то в своем поисковом интерфейсе, программисту, занимающемуся поддержкой такой системы нужно это определить (желательно раньше, чем пойдут жалобы от читателей) и  внести исправления в разбирающую HTML программу. Если  подписок много, то приходится постоянно что-то «подкручивать». Ряд издателей, стремясь обеспечить возможность интеграции их сервисов в различные порталы, разрешает  более удобные методы доступа, например  Z39.50 или блее специфического EBSCO Host web service. Поэтому от  части программ разборщиков можно избавиться, заменив их более стабильными клиентами  для получения информации по этим протоколам.

Я не идеализирую такой  подход в организации метапоиска и понимаю все его недостатки. Однако считаю, что во многих  случаях он вполне работоспособен.

Вся вышеописанная работа была сделана силами одной девушки, в рамках ее дипломной работы. Сейчас, правда, она уже работает в штате университета, и поддержка системы входит в ее обязанности.

Мне кажется, что это направление деятельности довольно интересное, и опыт Сибирского федерального университета вполне может быть использован и другими университетами. Набор ресурсов, подписываемых российскими организациями довольно типичен (я не имею в виду такие организации как СПбГУ или ГУ ВГШЭ) и программы разборщики, созданные для одного подписчика, вполне могут быть использованы и другими организациями. Такое сотрудничество можно было бы организовать на базе Ассоциации электронных библиотек, НЭИКОН или Сибирского федерального университета.

Я поговорил с разработчицей этого проекта, и она обещала написать подробную статью про свою работу. Мы постараемся ее опубликовать, а пока всем заинтересованным предлагаю подумать о возможной организации взаимодействия.


Комментарии

Наталия Литвинова

EBSCO Discovery Service и Primo не являются системами распределенного поиска. Компании EBSCO и Ex Libris для этих целей разработали EBSCO Host Integrated Search (EHIS) и Metalib.
Н. Н. Литвинова


Оставить комментарий

Скрыто от всех