En


Ольга Лавренова
0 1918
Ольга Лавренова

Как построить информационно-поисковый тезаурус (ИПТ). Лексика

Задача построения тезауруса для контроля точек доступа в автоматизированных информационных системах (АИС), в том числе – для электронных библиотек, решается на основе сочетания двух методов: научной разработки структуры понятий и выявления лексического материала из представительного фонда документов с последующим дополнением его терминами из вспомогательных источников.

Возвращение к теме разработки тезаурусов обусловлено тем, что моя  статья, содержащая определения основных понятий, связанных  с ИПТ, и презентация конкретного тезауруса, подготовленная  М.А. Аветисовым,  вызвали интерес у посетителей нашего сайта.

Данная (вторая) статья о тезаурусах посвящена принципам выбора и лексикографической обработки  слов и словосочетаний (т.е. лексических единиц) для тезаурусов.

Кроме традиционного «ручного» индексирования  текстов для АИС, существуют разнообразные формальные способы сбора лексики ИПТ путем программной обработки текстов с учётом   частотных характеристик, сочетаемости слов в них и т.д. Следует также упомянуть современные программные способы выбора и визуального представления ключевых слов для электронных текстов в форме так называемого «облака тегов» (т.е. меток – от англ. tag cloud). Как ни называй, это ни что иное, как картинка (в частности – трёхмерная) из ключевых слов для текстов, программно сформированная  с учетом частотных характеристик КС.

Ключевые слова, по изначальному замыслу, должны отображать наиболее существенную информацию. Понятие “существенности” информации при выборе КС является одним из основных и наиболее сложных понятий информатики. Многообразие возможных способов отбора информации по различным критериям существенности в силу субъективности принятия соответствующего решения обусловливает вариативность представления смыслового содержания текста при его индексировании.

Целесообразность включения КС в тезаурус обычно оценивается по нескольким факторам,  которые тесно взаимосвязаны между  собой:

–          по важности данного КС для описания содержания соответствующего документа с точки зрения информационного поиска (важность определяется, например, по роли КС в тексте);

–          по связям их с КС, отобранными ранее (выбор КС, обозначающих более широкие, узкие или ассоциативные понятия);

–          по  их точности и приемлемости с точки зрения терминологической системы рассматриваемой области знания;

–          по решению специалистов в данной области знания.

В качестве дополнительных источников лексики для ИПТ используются:  тезаурусы по родственной тематике, энциклопедические, толковые и терминологические  словари и справочники, учебники и руководства, монографии, терминологические и другие стандарты, таблицы классификаций; рубрикаторы и т.п.

Каким бы путём ни были выбраны КС для ИПТ, требуется их лексикографическая обработка:

–          решение вопроса о разделении выделенного словосочетания из двух или более слов или сохранении его в качестве целостного КС;

–          решение вопроса об использовании сложного слова в ка­честве КС или членении его на два ключевых слова;

–          устранение омонимии и полисемии слов ес­тественного языка различными методами;

–          приведение слов и словосочетаний к необходимой граммати­ческой форме, которая устанавливается стандартом на ИПТ и конкретной методикой в рамках  АИС.

Целесообразно включать в тезаурус целостные словосочетания в следующих случаях:

–          существует синоним (или условный синоним) словосочетания (книжный знак – экслибрис), в том числе – общепринятая  аббревиатура  (автоматизированная  система управления – АСУ);

–          значение словосочетания не выводится из значений его компонентов (железная дорога, детский сад, черный ящик, абсолютно черное тело -  устойчивые словосочетания);

–          по крайней  мере, один  из компонентов словосочетания имеет в составе данного словосочетания или же некоторого семантического класса  словосочетаний единичное значение, т.е. не употребляется в составе других словосочетаний или употребляется несколько в другом смысле (например, торговля на вынос, свободное падение).

Также имеет смысл также вводить в ИПТ целиком:

–          словосочетания, содержащие слова, имеющие слишком общее или широкое для данной тематической области значение,  но употребляющиеся в словосочетаниях в достаточно узком смысле (например,  линия,  техника,  устройство, система, дело, технический, работы, машина). Примеры: слесарное дело, техническая диагностика, бытовая техника, информационная система, земляные работы, строительные машины);

–          наименования характеристик, показателей (например,  потребительские качества,  стилистическая окраска, летно-технические характеристики);

–          наименования          химических соединений   (например,   четыреххлористый  углерод, окись меди,  уксусная кислота, натрия хлорид – поваренная соль);

–          словосочетания с именами собственными типа: таблица Менделеева,  теорема Ферма.

–          наименования многих профессий (например,  мойщик посуды, техник по эксплуатации железных дорог).  При этом  слова  и  словосочетания, введенные в  наименование  профессии  вводятся в ИПТ и отдельно (например, посуда, железная дорога, эксплуатация, мойка);

–          как правило, наименования отраслей, наук и других областей деятельности, теорий (художественная фотография, всеобщая история, зрелищные искусства, теория графов).

Словосочетания нередко сохраняются, если их разбиение на отдельные компоненты приводит к потере важных для поиска семантических связей, главным образом, не позволяет сформировать вышестоящий дескриптор для групп дескрипторов.  Пример: дескриптор спортивные суда как вышестоящий по отношению «род-вид» для дескрипторов скутеры, яхты, шверботы, байдарки).

Рекомендуется также, по возможности, не   включать в ИПТ многословные словосочетания. Во всех  остальных  случаях включение словосочетаний в ИПТ считается нецелесообразным.

Сложные слова преобразуются, если это возможно, в словосочетания, которые  рассматриваются  в общем порядке.  Если такое преобразование представляется неестественным в  терминологическом плане, сложное слово вводится в ИПТ в качестве КС.

Примеры: авиатопливо = авиационное топливо = авиация, топливо, но: ампервольтметр, трубопровод, микробиология, биотехнология, фотоохота, фотомодель.

Вне зависимости от используемого метода выбора ключевых слов (или тегов) очевидно, что формирование семантических (смысловых) связей между лексическими единицами тезауруса представляет собой, в первую очередь, интеллектуальный процесс. В третьей статье о тезаурусе будет рассмотрен категориальный метод формирования его структуры, проверенный на практике в отраслевых АИС.


Оставить комментарий

Скрыто от всех