En


Ольга Лавренова
2 463
Ольга Лавренова

Направления исследований и разработок в области информационного поиска по материалам научных конференций (часть 2)

Итак, продолжим обзор основных вопросов извлечения и представления информации для поиска в электронных библиотеках, в частности, обратим внимание на доклады по системам организации знаний.

1. Начнём с активно развивающихся систем, поиск в которых опирается на методы сравнения текстов с целью обнаружения формального сходства, на основе которого с использованием специальных алгоритмов делаются выводы относительно подобия их тематического содержания. Они близки к чисто формальным методам обработки текстов и, в то же время, ориентируются на семантическую сторону задач. В этом направлении особенно интересны следующие публикации: – доклад на конференции RCDL Захарова В.Е. и Хорошилова А.А. «Автоматическая оценка подобия тематического содержания текстов на основе сравнения их формализованных смысловых описаний»;

– и доклад на конференции «Электронный век культуры» ( ЭВК) Ляпина С. Х. «Сервис-ориентированная информационная среда: распределенный полнотекстовый поиск», в котором был рассмотрен поиск с возможностью использования гибких тематизируемых запросов и автоматизированного создания тематических подборок информационных ресурсов, причём реализация такого подхода для электронной библиотеки была представлена на основе известной информационной системы T-Libra 6.x (видеозапись здесь,начало доклада – примерно на 50-й минуте видеозаписи заседания).

Эти методы полезны для реализации поисковых процессов в различных аспектах. Например, в перспективе, думается, можно сделать такие системы, которые программно будут сравнивать подробный текст описания запроса и тексты документов, определяя степень их близости, или автоматически приписывать индексы классификации документам на основе сравнения словесных формулировок индексов в машиночитаемых таблицах с различными фрагментами текстов документов.

К этому же направлению имеют прямое отношение разработки в области автоматизированного обнаружения плагиата в публикациях. В этом аспекте особый интерес представляет доклад на ЭВК Блиновой Т. А. и Чеховича Ю. В. о системе «Антиплагиат. РГБ» – системе программных средств для быстрого поиска в документах некорректных заимствований по коллекциям большого объема (видеозапись здесь, первое выступление на заседании).

2. Из работ по онтологическому моделированию данных хотелось бы выделить на RCDL доклад группы авторов «Онтологическое моделирование и публикация данных об особо охраняемых природных территориях». Интересен доклад на конференции TPDL (Польша) «Предварительное автоматическое представление (mapping) простых (одноуровневых) и иерархических схем метаданных в онтологию Семантической паутины, требования, языки, инструменты». Многие современные системы информационного поиска учитывают смысловое содержание терминов запросов, также используя онтологии как для индексации информационных ресурсов, так и для организации смыслового поиска в больших массивах документов (например, см. доклад на RCDL В. Т. Вдовицына и В. А. Лебедева «Ранжирование документов в системе поиска, основанной на применении онтологии».

К сожалению, сколько-нибудь убедительной теории онтологий в информационной деятельности найти не удаётся. На самом деле, до сих пор не договорились, как соединить это понятие с такими терминами, как тезаурусы, классификации, а я бы добавили сюда и классические фактографические системы. В этом отношении интересным был доклад Jutta Lindenthal на семинаре по сетевым системам/сервисам организации знаний (NKOS) в рамках конференции по теории и практике электронных библиотек (TPDL) . Тема доклада – «Неоднозначновть (неопределённость ) представления тезаурусов с помощью расширенного языка (модели) SKOS». SKOS, по сути, представляет собой довольно известную обобщенную модель системы знаний или тезауруса, играет роль языка представления (структурирования) знаний. Автор анализирует структуру различных видов тезаурусов в сравнении со структурой SKOS, а также с вариантами систематизации (классификаций). Подчёркивается, что в этом направлении не стоит всё безгранично упрощать. На одном из слайдов было написано: «Make things as simple as possible, but not simpler». Можно перевести так: «Делай всё настолько просто, насколько возможно, но не проще (этого)». В противном случае, например, как показывает картинка на последнем слайде презентации, участки рельсов, построенных с двух сторон навстречу друг другу, могут в результате не состыковаться. В результате блиц-обсуждения доклада пришли к выводу, что необходима свежая теория соотношения понятий «концепт», «тезаурус», «классификация», «онтология», «фасет» и т.д. Кстати, в ходе этого семинара всегда хватает времени на дискуссии сразу после сообщения, пока не остыло впечатление.

3. Относительно тезаурусов полезно ознакомиться с презентацией доклада D. Tudhope (Великобритания) на тему: «Обзор стандарта на тезаурусы ISO-25964 и изменений в нём», где затрагивается, в частности, вопрос интероперабельности тезаурусов с другими словарями.

4. Об использования классификаций для организации знаний на семинаре NKOS было два доклада:

– M. Khoo и др. об использовании DDC;

– O. Lavrenova «Национальная Библиотечно-библиографическая классификация (ББК) как основа тематического поиска в интегрированной электронной библиотеке РГБ».

Позднее на конференции ЭВК мною был сделан существенно пересекающийся по содержанию доклад, но в ином аспекте (видеозапись здесь, второе выступление, примерно 27-я минута видеозаписи заседания). Тема доклада: «Тенденции развития средств тематического поиска в электронных информационных ресурсах».

5. Развиваются также разработки по обеспечению поиска электронных документов на основе географических признаков, поскольку современный мир всё больше волнует географическая привязка информации. С одной стороны, такого рода технологии позволяют найти документы, связанные с определёнными географическими названиями или непосредственно с участками на электронных географических картах, а с другой стороны, от конкретных документов переходить к определённым участкам географических карт. В частности, в докладе на RCDL В.Т. Вдовицина и А.К. Полина «Основанный на онтологии подход к интеграции геоинформационной системы с коллекциями электронных научных публикацийпредлагается «онтологически-ориентированный подход к интеграции геоинформационной системы с коллекциями электронных публикаций». На основе онтологии географических названий региона по специальной технологии автоматически формируется географический индекс для реализации связей документов и географических объектов на картах. На этой же конференции в сообщении Д,М, Скачкова и О,Л, Жижимова  «Географический поиск в информационных системах с использованием ретроспективного тезауруса» (имеется в виду тезаурус ретроспективного геокодирования) рассматриваются вопросы географической привязки цифровых объектов. В связи с этим хотелось бы просто упомянуть проект РГБ по созданию файла-тезауруса географических названий, который. содержит данные о более чем 210 000 географических объектов и установлен в открытом доступе в электронном каталоге РГБ как «Справочник географических названий».

6. Прямое отношение к разработке моделей представления знаний имеет интересный доклад на RCDL И.П. Кузнецова, М.М. Шарнина, Е.Б. Козеренко и др. «Интеллектуальная среда проектирования семантического навигатора по Интернет». В нём описан проект семантического Web-навигатора. Проектные решения основаны на статистической парадигме извлечения знаний на естественном языке и их семантического представления на основе механизма расширенных семантических сетей (Extended Semantic Networks, ESN) с созданием базы знаний. Эти методы были ранее использованы для создания целого ряда систем, основанных на представлении знаний, и в проекте энциклопедии ключевых слов Keywen.

7. Для семинара NKOS 26 сентября 2013 г. в рамках конференции TPDL3013 (Мальта) одна из предложенных тем выглядит особенно интересно: «KOS в контексте машинного поиска метаданных. Пересечение поиска данных, KOS и Semantic web (семантической паутины)».

8. Лично мне импонируют доклады, которые демонстрируют и доказывают необходимость обогащения существующих документов результатами их интеллектуальной обработки, т.е. их присоединения к документам для обеспечения более надёжного поиска. В этом плане совершенно определённо высказалась О.Ю. Горчинская, выступая с докладом «Oracle для анализа и исследования Больших Данных». В системе Endeca применяется фасетная модель данных и будет обеспечено использование средств интеллектуальной обработки: извлечение терминов, использование файла имён, совмещение с геопространственными признаками и т.д. Такие работы показывают, что время упрощения средств поиска проходит, специалисты ставят во главу угла увеличение возможностей поиска не только программными средствами, но и использованием возможной интеллектуальной обработки документов, как это, кстати, было принято в традиционных информационных технологиях. Интересно также утверждение А. Раубера (Австрия) , сделанное в его докладе-лекции на RCDL «Цифровое курирование как ключевой компонент исследовательской инфраструктуры: от сохранения данных к сохранению и верификации процессов»: более, чем поддержка самих данных, важна поддержка процессов, в частности, научных, «семантических» процессов описания данных различными характеристиками, установление связей, использование классификаций и старых библиографических записей. Важна всё более совершенная обработка накопленных данных для обеспечения их сохранности, их реактивация. Нужно идти от данных к процессам, которые обеспечивают понимание данных, анализ, преобразование, использование фильтров, новые сервисы. Нужно обеспечить лучшие процедуры для поддержки лучших знаний. Должна быть обеспечена стабильность путём создания надёжной документации с опорой на сохраняемые компоненты. По мнению докладчика, данные – это результат процессов, а поддержка процессов – это сбор, хорошее документирование и надёжные процедуры развития.

9. Специалисты не оставляют и тему обогащения сетевых документов метками (тегами) «силами» пользователей, что называют social tagging. В докладе Denise Bedford на семинаре NKOS делается критическая оценка двух семантических технологий и пяти встроенных систем организации знаний на материале популярного контента. В сборнике материалов TPDL2012 есть также доклад A.Hinze и др. на тему «Определяемое пользователем семантическое обогащение полнотекстовых документов».

10. Безусловно, на конференциях уделяется отдельное внимание поиску в больших массивах данных (Big data), но, к сожалению, теоретического описания и чёткого определения этого понятия, похоже пока не существует. Поэтому оставляю сей вопрос за пределами рассмотрения. Так, Л.А. Калиниченко в докладе на RCDL на тему «Инициатива больших данных: программы, платформы, прогнозы» отметил, что нет хорошего анализа перспектив развития технологий обработки больших данных, хотя насчитывается около 50-ти таких технологий.

11. Что касается обеспечения поиска изображений по визуальному образцу, то в материалах RCDL обращают на себя внимание работа А. Д. Варламова и Р. В. Шарапова «Поиск визуально подобных изображений на основе машинного обучения», а также доклад А. Н. Талбонена и А. А. Рогова «Аннотирование изображений электронной коллекции исторических фотографий», в котором предлагаются улучшенные методов обнаружения лиц.

12. В отношении проблем взаимодействия пользователя электронной библиотек и системы обращают на себя внимание доклады:

– M. Lalmas (Испания) «Приглашение пользователя в цифровой мир» – TPDL;

– Xia Lin и др. (США) «Meaningful Concept Displays: The First Step» – семинар NKOS. Цель проекта – разработка новой структуры «Смыслового (семантического, понятийного?) Экрана» (MCD), на котором могут быть реализованы новые интерфейсы организации знаний (KOS-интерфейсы) для конкретных моделей знаний и электронных ресурсов. Кстати, требуется русский термин для «Meaningful Concept Displays».

13. Тем читателям, для которых актуальны общие теоретические вопросы определения и классификации метаданных, хотелось бы порекомендовать доклад на RCDL М.Р. Когаловского «Метаданные, их свойства, функции, классификация и средства представления». Это капитальная статья – лекция. Заглавие говорит само за себя.

Примечания:

1) На сайте конференции RCDL представлены полные материалы авторов. С докладами этой конференции можно познакомиться и в печатном сборнике материалов: /Труды 14-й Всероссийской научной конференции RCDL-2012, Переславль-Залесский, Россия, 15-18 октября, 2012 г. – Переславль-Залесский – 2012.

2) Упоминаемые мною доклады семинара NKOS нужно искать по фамилиям в программе – для всех указываю её адрес. Специалистам, занимающимся вопросами информационного поиска, думаю, интересно изучить все доклады семинара, их всего 10. Опубликованы только тезисы и/или презентации. Фамилии авторов привожу в оригинальной форме.

3) Материалы собственно конференции TPDL 2012 изданы издательством Springer и поэтому не размещены в сети. Их можно купить или искать в библиотеках:

Theory and Practice of Digital Libraries – Second International Conference, TPDL 2012, Paphos, Cyprus, September 23-27, 2012. Proceedings. Springer 2012 Lecture Notes in Computer Science ISBN 978-3-642-33289-0


Комментарии

Александр

Новые технологии – это слишком хорошо! Найти можно все что угодно и в кратчайшие сроки… Однако!!! Сколько ляпов!!! Даже в википедии.
Как быть с достоверностью данных? И как привлекать к ответственности так называемых авторов?

Ольга Лавренова

Уважаемый Александр, мне кажется, что искать достоверность данных в неуправляемой сети сетей Интернет – занятие неблагодарное, тем более – их привлекать. Постранство сети хорошо тем, что можно не только сравнить и проверить различные точки зрения, но и свободно высказатьсвою собственную и даже обсудить её с неограниченным числом специалистов.
Более тяжёлый случай – отсутствие прежде чётко отлаженного в нашей стране академического контроля использования терминологии в публикациях и системного определения терминов . Это, думаю, основа неточностей, “ляпов”, непонимания друг друга.
Удачи!


Оставить комментарий

Скрыто от всех