En


Ольга Лавренова
0 355
Ольга Лавренова

Направления исследований и разработок в области информационного поиска по материалам научных конференций (часть 1)

В этом аспекте рассмотрим материалы следующих конференций 2012 года: “Диалог” (Московская область), TPDL (Кипр), RCDL (Переславль-Залесский), “Электронный век культуры” (Москва). С одной стороны, несколько поздно анализировать конференции 2012 года, но, с другой стороны, материалы не устарели, а те же конференции ожидаются и в текущем году. Не исключено, что кому-то предлагаемые материалы помогут выбрать одну из них. Регистрация на конференции продолжается.

Анализ начнем с простых истин. Любая автоматизированная информационная система (АИС) служит посредником между авторами информационных ресурсов и пользователями (адресатами). Поиск в системе заключается в общении с системой, а не с авторами. Для этого система, как известно, должна представить информацию, предлагаемую автором, в удобном для поиска произвольными пользователями виде. Над этим «пустяком» разработчики бьются с середины прошлого века, пытаясь достичь параметров полноты и точности поиска, придуманных для оценки успеха. Третья характеристика качества поиска – пертинентность (соответствие полученной информации информационной потребности пользователя) – упоминается обычно исключительно в качестве «неопознанного объекта».

Всем известно, что сложность задачи извлечения информации из документа и представления её в удобном для машинной обработки виде заключается в прекрасных свойствах естественных языков, до сих пор не покорившихся математическим моделям, а также в замысловатой структуре изображений (графических образов) и звуков, которые, собственно, и преподносят информацию на вход АИС. Словом, никак не удаётся в полной мере поверить алгеброй гармонию. Другая проблема машинного поиска – пользователь со своей структурой знаний и свойствами восприятия информации. Авторы и пользователи даже в нормальных условиях общения нередко не понимают друг друга, а в системе-посреднике приходится налаживать восприятие пользователем информации, созданной неопределённым количеством других людей со своими моделями знаний. Итак, специалисты занимаются, в сущности, всего двумя проблемами информационного поиска, для которых до сих пор найдены весьма приблизительные решения. Если они будут всерьёз решены, то это будет другое человечество, и оно мне почему-то не нравится. А вам?

Представлению и извлечению информации для поиска и обеспечению интерфейса «пользователь – АИС» непременно посвящается существенная часть сообщений на конференциях по компьютеризации информационных процессов.

Вопросы формализации обработки текстов на естественных языках рассматриваются в той или иной степени на всех конференциях по информационным системам, но наиболее тонкие работы, наверное, представлены на конференциях серии «Диалог» , которые имеют тридцатилетнюю историю, пережили перерыв в своей деятельности на целый ряд лет и успешное возрождение. Эта крупнейшая в России конференция по компьютерной лингвистике выросла из одноимённого семинара, проводившегося в СССР в 70-е годы, и в основном направлена на практическое применение лингвистических исследований. Сегодня «Диалог» – это уникальный междисциплинарный форум, собирающий ведущих лингвистов, специалистов в области автоматической обработки языка, ведущие компании, работающие в области компьютерной лингвистики. Очередная 19-я Международная конференция по компьютерной лингвистике «Диалог» пройдет с 29 мая по 2 июня в Московской области.

Что касается конференции 2012 года, то в связи с темой нашего блога хотелось бы обратить внимание на некоторые доклады, наиболее интересные для этой темы и опубликованные в сборнике материалов и на сайте:

– Доклад группы авторов из Института русского языка «Проект частотного словаря русских идиом»;

– Доклады о создании парсеров (от англ. parser), в значении: «программа или алгоритм, осуществляющие грамматический разбор текста»:

доклад группы авторов из и трёх вузов Москвы «Оценка методов автоматического анализа текста 2011–2012: синтаксические парсеры русского языка»,

доклад группы авторов компании ABBY «Syntactic and semantic parser based on ABBYY Compreno linguistic technologies»,

Iomdin L., Petrochenkov V., Sizov V., Tsinman L. «ETAP parser: state of the art» – «Синтаксический анализатор системы ЭТАП: современное состояние»;

– Поляков А. Е. «Проблемы и методы анализа русских текстов в дореформенной орфографии»;

– Большаков И. А., Большакова Е. И. «Автоматический морфоклассификатор русских именных групп».

Ряд докладов конференции «Диалог» по достаточно узким областям исследования как нельзя лучше демонстрируют сложность формализации анализа структур естественного языка, в частности, русского, для АИС. Например, в докладе: Урысон Е.В. «Союзы, коннекторы и теория валентности»  демонстрируется, на какие ухищрения нужно пойти, чтобы описать данные о роли союзов в текстах для установления связей сверхфразовых единств, так как некоторые союзы могут служить для них как коннекторы, а другие нет, и описать это можно только в словаре, так как никакие строгие синтаксические правила не помогут. Живой язык не останавливается в своём развитии, причём это касается и грамматики. Так, в докладе С.О. Савчук «Варианты родовой принадлежности в группе имён в группе имен существительных pluralia tantum в русском языке» отмечается, что потенциальные pluralia tantum допускают вариативное по роду образование форм единственного числа, причём эти формы имеют практически одинаковое распространение в текстах в качестве нормы (унты – унт и унта, баретки – бареток и баретка). Эта конференция может легко развеять эйфорию близких перспектив машинного перевода и полной автоматизации поиска в АИС.

(Продолжение следует).


Оставить комментарий

Скрыто от всех