
Электронная библиотека моей мечты
Мы давно задавали себе вопрос, какую бы мы сделали себе электронную библиотеку, если бы имели неограниченное финансирование и никуда бы не спешили. Полагаю, что такой же вопрос задают себе все конструкторы любых систем и пытаются, хотя бы в мечтах воспроизвести такую конструкцию. Для создания такой “сборной” библиотеки мы с моей коллегой Натальей Козловой провели анализ известных российских и зарубежных электронных библиотек и посмотрели, какие возможности они предоставляют своим читателям и библиотекарям.
Сразу могу сказать, что идеальной библиотеки мы не нашли. Все было очень похоже на рассуждения Агафьи Тихоновны из «Женитьбы» Н. В. Гоголя. Если бы к поиску из DP.LA приставить возможности загрузки из Internet Archive, да, пожалуй, прибавить к этому еще открытости из Open Library, мы бы тогда тотчас же решились назвать такую библиотеку идеальной. А теперь – поди подумай!
Какими же чертами должна обладать такая библиотека. На взгляд автора, основные задачи электронной библиотеки – это поиск, просмотр результатов поиска, уточнение поиска, представление найденных документов и осуществление различных действий с найденными документами. Рассмотрим же по порядку, что должна уметь (что можно просить у создателей) электронная библиотека по каждой из своих основных задач.
Поиск
Поиск по любому полю метаданных и их сочетаниям с применением булевой алгебры мы рассматривать не будем, поскольку это является очевидным требованием и присуще практически всем электронным библиотекам. Хочется только отметить, что в ряде библиотек предоставляются широкие возможности по поиску по специфическим полям. Так, например, в электронной библиотеке Университета Вирджинии http://search.lib.virginia.edu/music можно поискать музыкальное произведение по инструменту, для которого написана музыка, по физическому носителю, на который оно записано и т.п. К сожалению, большинство российских электронных библиотек, даже консерваторских, таких возможностей не предоставляют.
Важной составляющей поиска является поиск по полным текстам в распознанных документах. Для русского языка очень важно наличие возможности морфологического анализа и, учитывая плохое качество распознанных документов, усечение справа. Часто в одной электронной библиотеке содержаться как издания открытого доступа, так и издания, не предназначенные для открытой публикации. Поисковый индекс обычно делается единый для открытых и закрытых документов. Поиск тоже проходит по одному и тому же алгоритму, но при выдаче результатов нужно решить интересную задачу: что и как показывать для закрытых документов. Для ее решения есть несколько подходов. В ЭБ РГБ http://search.rsl.ru/ для закрытых книг показаны только три первых снипетта, из которых ясно в каком контексте употребляются поисковые термины, но непонятно много ли раз они были найдены в тексте. В Нathitrust Digital Library http://babel.hathitrust.org/ для закрытых документов выдается список страниц, на которых встречаются поисковые термины, с указанием того, сколько раз они на этой странице встречаются. Этого бывает достаточно, чтобы понять, что совпадения не случайны, но недостаточно, чтобы понять контекст использования. Оба подхода имеют свои достоинства и недостатки и какой из них лучше судить трудно. Иногда для повышения качества полнотекстового поиска индексируемые тексты предварительно обрабатываются. Так в электронной библиотеке по биоразнообразию http://www.biodiversitylibrary.org во всех имеющихся текстах были автоматически выделены и проиндексированы научные названия (например, научное название для тигра – «Panthera tigris»). Поиск по «научным названиям» позволяет быстрее и точнее перейти к нужному документу и месту в документе.
В настоящее время существует очень большое количество электронных библиотек. Читателям довольно трудно проводить поиски последовательно во всех из них, чтобы найти нужный документ. Поэтому многие библиотеки поддерживают той или иной метод интеграции для проведения единого поиска сразу во многих библиотеках. Это может быть технология распределенного поиска Z39.50, передача метаданных по протоколу OAI-PMH, наличие документированного API и т.п. Такой подход позволяет создать крупные хранилища метаданных как Digital Public Library of America http://dp.la, собирающую данные из крупнейших электронных библиотек США, или Europeana http://www.europeana.eu/ , собирающую информацию из крупнейших библиотек, музеев и архивов Европы, и проводить поиск одновременно в сотнях электронных хранилищ. Для этого электронные библиотеки должны быть готовы к интеграции с такими сервисами. К сожалению, пока еще далеко не все создатели российских электронных библиотек готовы к такому сотрудничеству, что сильно затрудняет поиск.
Представление результатов поиска
После того как мы отправили запрос на поиск нам должен выйти весь набор найденных документов. В каком виде это нужно показывать постоянно спорят дизайнеры и постоянно придумывают новые решения. Наиболее интересным решением мне кажется Digital Public Library of America http://dp.la . В нем имеется возможность просмотра результатов поиска на карте, на временной шкале, в виде книжной полке и в виде таблицы.
У многих читателей есть свои собственные представления об удобстве предоставления данных. Кому то нравятся крупные картинки с описаниями, кто-то предпочитаете таблицу с результатами. Для предоставления возможности читателям самим определять режим показа в электронной библиотеке Миннесоты http://reflections.mndigital.org предлагают при поиске указать нужно ли показывать большие картинки и дополнительную информацию (см. рис) при наведении курсора на объект и какой шаблон использовать для показа результатов. Хочу отметить, что сервис по предоставлению большой картинки без перехода на другую страницу очень экономит время читателя.
Несмотря на большое разнообразие в дизайне, функции при показе результатов поиска довольно ограничены. Нам требуется в том или ином виде выдать результаты, посмотреть историю запросов и при необходимости перейти к результатам проведенного ранее поиска. Кроме этого нам нужно иметь возможность уточнить запрос и перейти к выбранному документу. В некоторых библиотеках, рассчитанных на работу не только с людьми, но и с запросами внешних программ, например, в одной из крупнейших электронных библиотек Internet Archive https://archive.org/advancedsearch.php возможен поиск с получением результата поиска в формате JSON, XML и т.п.
Уточнение результатов поиска
Получив большое количество результатов, а нам сразу трудно так сформулировать вопрос, чтобы получить приемлемое количество результатов, мы должны его уточнить. Уточнение результатов поиска в настоящее время осуществляется, как правило, методами фасетного поиска. Найденные результаты сразу разбираются на группы (фасеты) по заранее заданным признакам. Часто их число в каждом фасете подсчитывается, и читатель сразу понимает, в каком направлении следует сужать поиск. Разнообразие здесь состоит в наборе фасетов. Они зависят от конкретной библиотеки и ее задач. В электронной библиотеке РГБ это может быть язык, год издания и т.п., а в электронной библиотеке по петрологии и вулканологии Смитсоновского института будут уже совсем другие фасеты: место находки, геологическая эпоха и т.п. Приведенный выше пример работы DP.LA (dременная шкала, полка и карта) по своей сути являются и фасетным поиском для уточнения запросов, но только несколько видоизмененным и графическим интерфейсом представления результатов.
В библиотеке Давида Рамсея http://www.davidrumsey.com результаты поиска распределяются по четырем категориям: что, где, кто и когда, в которые соответственно названиям выносятся предметные рублики, географический охват, автор и временной охват. По ним и происходит уточнение поиска. В Цифровой коллекции Северной Каролины http://cdm16062.contentdm.oclc.org/cdm/home/browse используется своя периодизация истории, важные для нее места издания и виды документов, которые в ней собираются. Я не могу это назвать фасетами в чистом виде, скорее это заранее заготовленные поисковые запросы, которыми читателю предлагается уточнить свой поиск. Уточнение поиска, как правило, происходит в диалоговом режиме и каждый элемент библиографического описания из найденных метаданных, делается интерактивным. Если при поиске по названию, мы вдруг обратили внимание на фамилию автора в одном из результатов, у нас должна быть возможность, кликнув на нее, получить все работы этого автора.
Просмотр
После того как читатель провел поиск, получил первичные результаты и уточнил поиск он, в конце концов, нашел тот единственный документ, к которому он стремился. Как же нужно показать читателю этот документ, чтобы это было максимально удобно и полезно. Решений для этого существует множество, и они зависят от вида материала, задач библиотеки ну и, конечно, возможностей выбранного программного обеспечения.
Если речь идет о текстовом материале, очень важно для читателя при получении найденного издания иметь возможность посмотреть как отсканированную страницу, так и ее распознанный вариант. В вышеупомянутой библиотеке биоразнообразия на наш взгляд очень удачно предоставили такую возможность. Читатель может расположить рядом оба варианта, сравнить их и даже вывести распознанный текст в отдельное окно. Хорошо, что создатели этой библиотеки понимают как важно дать читателю возможность поиска в тексте предоставленного документа и выделения в нем найденных фрагментов.
Навигация в многостраничном документе, как правило, представлена довольно однообразно. Есть переход на первую последнюю, следующую и предыдущую страницы. Для удобства в боковой панели часто формируются иконки отдельных страниц, которые тоже можно использовать для навигации. В лучшем случае присутствует содержание книги, как средство навигации. Нужно отметить, что читателю намного удобнее использовать таблицу содержимого с двойной нумерацией страниц. Должна приводиться та, что была напечатана на странице оцифрованной книги и номер страницы в порядке сканирования. Понятно, что из-за ряда непронумерованных страниц печатной версии эти нумерации в общем случае не совпадают. Но это требует дополнительной работы при разметке книги и встречается нечасто (такой подход используется в электронной библиотеке университета Гарварда), особенно в электронных библиотеках с небольшим бюджетом. Механизм перелистывание страниц нельзя назвать очень важным компонентом электронной книги, но многие разработчики уделяют этому большое внимание и используют для этого различные технологии. Ряд библиотек, использующих RealisticBook, весьма реалистично перелистывает страницы. В Internet Archive страницы переворачиваются не так красиво, но требуют существенно меньше ресурсов.
Большое значение имеет удобная навигация на странице, особенно для документов, отсканированных с большим разрешением (большим чем экран). Для такой навигации часто используют навигационную панель, на которой в очень уменьшенном виде показана вся страница и то место, которое сейчас отображено на экране. В качестве примера приведено изображение страницы из электронной библиотеки университета Иллинойса http://imagesearchnew.library.illinois.edu. Так же при просмотре страницы обычно предоставляется воможность развернуть изображение на полный экран, масштабировать его, поворачивать.В некоторых библиотеках, например в Internet Archive есть возможность включить автоматические генератор речи, который будет читать выбранную книгу. Для многих людей с ограниченными возможностями это будет существенным облегчением.
После того, как мы изучили документ, мы обычно хотим с ним что-нибудь сделать. Если он нам понравился, то мы хотим запомнить ссылку на этот документ, чтобы впоследствии к нему вернуться. Для этого в электронной библиотеке должна быть предусмотрена постоянная ссылка на документ, а еще лучше на каждую страницу документа, чтобы нам в следующий раз не пришлось заново проводить поиск. Такой подход реализован, например, в библиотеке http://www.hathitrust.org/. Бывает, что документ нам понравился настолько, что мы хотим его скопировать полностью или частично, но так, чтобы копия представляла собой единый массив, а не набор картинок, который удобно хранить и использовать. Для этого, например, в электронной библиотеке Гарварда http://pds.lib.harvard.edu/pds/view/2585089?n=1 предусмотрена возможность скомпоновать из необходимого количества страниц один файл в формате PDF и отправить ссылку на него себе на почту.
В библиотеке Internet Archive предлагается на выбор множество вариантов получения понравившегося документа (Read Online, PDF, B/W PDF, EPUB, Kindle, Daisy, Full Text, DjVu, HTTPS, Torrent). В электронной библиотеке карт Давида Рамсея http://www.davidrumsey.com читателю предоставляется возможность самому выбрать размер (разрешение) экспортируемого изображения. Для карт, которые часто представляют собой очень большие изображения, это, действительно, важно. В некоторых случаях, читателю и не нужно никуда скачивать найденный документ. Ему просто нужно собрать коллекцию из разных документов в этой библиотеке для последующего просмотра в онлайне и показа их своим коллегам или ученикам. Для этого в библиотеке Давида Рамсея предусмотрена возможность компоновки выбранных изображений в медиагруппы или в готовые презентации для последующего просмотра. К таким группам изображений их создатель может предоставлять доступ определенным пользователям. Кстати, готовые презентации можно выгрузить в формате Microsoft PowerPoint для демонстрации в оффлайне.
Во многих случаях электронные библиотеки сейчас используются как пространство для совместной учебной деятельности. Наверное, поэтому многие электронные библиотеки позволяют создавать на своем сайте читателям свои коллекции, книжные полки, списки «my favorite» и т.п. В некоторых библиотеках существует возможность создавать любое количество коллекций, которые будут доступны на сайте и после окончания сессии, конечно же, при условии регистрации на сайте. Можно присваивать этим коллекциям имена, осуществлять по ним поиск, выбирать способ отображения объектов в них. Также есть возможность осуществлять поиск по коллекциям других пользователей, находящихся в свободном доступе. В некоторых библиотеках, например в Smithsonian Institution http://collections.si.edu/, читатель может давать документам дополнительные метки, которые сохраняются для последующего поиска. Это позволяет ученым или преподавателям, работающим с коллекцией, создавать свое рабочее пространство, структурированное персонально под них. Читатели в своем пространстве могут делать закладки в книгах, примечания к отдельным страницам и т.п. В некоторых библиотеках такой механизм дан только самим библиотекарям и предназначен для создания так называемых «виртуальных выставок» для продвижения отдельных документов. Виртуальные выставки могут быть созданы к памятной дате, к определенному событию и т.п. Такой подход весьма активно используется электронными библиотеками, созданными на базе программного обеспечения OMEKA, поскольку там уже предусмотрен такой функционал. Так, например, DP.LA создана по модульной структуре, и в качестве модуля для выставок используется OMEKA.
Прочитав документ, часто хочется поделиться новым знанием с коллегами. Для этого почти все электронные библиотеки предоставляют возможность сделать ссылку на этот документ в социальных сетях, и количество возможных сетей бывает очень велико. Для научных библиотек, чаще предлагается занести запись об этой книге в системы управления библиографическими записями (Zotero, EndNote, Mendeley и т.п.). Иногда предлагается послать информацию о документе по электронной почте, в виде SMS и т.д.
Довольно редко в популярных электронных библиотеках можно увидеть возможность получения библиографической записи в формате MARC для найденного документа. Поэтому нас особенно порадовала интересная возможность получения метаданных в виде xml или marc записи в электронной библиотеке HATHI TRUST. Для этого достаточно добавить в адресной строке в конце адреса найденной книги нужное расширение: «xml» или «mrc».
Информацией о найденном документе часто очень хочется поделиться в своем блоге, на своем сайте или в письме, поэтому очень важно, чтобы была предусмотрена возможность легко и правильно процитировать документ. Для этого в ряде электронных библиотек предусмотрена возможность автоматически генерировать библиографическую ссылку на этот документ. Чем научнее считает себя библиотека, тем больше форматов для ссылки предлагается читателю. Также можно внедрить к себе в блог нужную книгу, например, из библиотеки HATHI TRUST, просто вставив короткий код, (используя команды <iframe …..</iframe>). В некоторых электронных библиотеках, например в электронной библиотеке карт Давида Рамсея http://www.davidrumsey.com , предлагают более развитый сервис, предоставляя возможность настройки различных параметров такого внедрения (высота, ширина, толщина рамки и т.п.).
К сожалению, во многих электронных библиотеках очень мало уделяют внимания открытой статистике использования документов. Может быть, создатели электронных библиотек бояться, что все увидят, как мало используются документы, оцифрованные с таким трудом. Обычно такая статистика по разным соображениям бывает спрятана от читателя. Нам кажется, что ее открытость позволяет всем читателям, да и авторам документов, включенных в библиотеку, понимать, насколько этот документ нужен обществу. Именно поэтому было особенно приятно обнаружить, что на портале истории Техаса http://texashistory.unt.edu/, для каждого документа приводится информация о его востребованности читателями, то есть о том, сколько раз этот документ был загружен (всего, за последний месяц, за вчера). Обнаруживая интересный документ, который никто до тебя еще не видел в этой библиотеке, поневоле чувствуешь себя первооткрывателем.
Связь с внешними объектами.
В последнее время все чаще и чаще наблюдается стремление у создателей электронных библиотек автоматически выявлять связи найденного документа с различными объектами как внутри этой же библиотеки, так и за ее пределами. Для этого может использоваться, словари, технология Linked Open Data или API различных внешних систем. Так библиотеке университета Вирджинии в документе выделяются известные в системе предметные рубрики, имена и показываются пользователю. Вполне возможно, он захочет посмотреть все документы, в которых встречаются те же имена и предметные рубрики, что в найденном документе.
В библиотеке по биоразнообразию http://www.biodiversitylibrary.org, как ранее уже говорилось, используется выделение научного названия, которое является стандартным и используется во многих энциклопедических ресурсах. Это позволяет автоматически генерировать ссылки с любого места в описании документа или самого документа, где упоминается животное на описание данного животного во внешних справочных ресурсах.
Написание внешних модулей
Выше уже писалось про необходимость интеграции электронных библиотек. Чем более библиотека открыта для такой интеграции, и не только с другими библиотеками, а с большим количеством внешних сервисов, тем больше у нее пользователей. Хорошим примером такой открытости является DP.LA, при которой создано сообщество разработчиков, использующих документы из этой библиотеки в своих сервисах http://dp.la/info/developers/ . На сайте сообщества приводятся рекомендации по лучшему использованию, коды программ использующих DPLA, подробное описание API и многое другое.
Нет в мире совершенства и ни в одной из описываемых и просмотренных (а их намного больше) авторами библиотек нет всего набора функций, которые им хотелось бы иметь. А хотелось бы, чтобы одним поиском я бы отправлял запрос в сотни библиотек, в которых был бы обеспечен поиск по всем элементам библиографического описания (желательно в формате MARC 21) и полнотекстовый поиск с морфологией и усечением справа. Конечно, при этом я хотел бы быть уверен, что все фамилии авторов, географические наименование и прочие стандартизируемые части описания были проверены и однообразно понимаются всеми библиотеками. Я великодушно готов взять на себя труд настроить под себя количество выдаваемых результатов и шаблоны их выдачи. Мне хотелось иметь большое количество фасетов для уточнения запроса и возможность попросить у администратора электронной библиотеки недостающие. При подведении курсора к найденному объекту появлялось бы всплывающее окно с более подробной информацией об объекте, включая статистику его просмотров. При просмотре документа хотелось бы иметь возможность провести в нем поиск по тексту, скопировать цитату или несколько страниц в удобном для меня формате вместе с ссылкой по ГОСТ, сделать закладку и оставить примечание для других читателей, получить постоянный URL для библиографии. Хотелось бы иметь возможность формировать свою коллекцию и поделиться ей с коллегами как в этой же библиотеке, так и выгрузить ее для загрузки в Mendeley или аналогичную систему. Ну и для расширения кругозора необходимо, конечно, получить информацию о связанных документах в этой же библиотеке и в иных онлайновых ресурсах. В общем, как всегда, хочется «немногого, но самого лучшего».