En


Ольга Лавренова
0 2241
Ольга Лавренова

Как построить информационно-поисковый тезаурус (ИПТ). Иерархическая структура

То обстоятельство, что структура ИПТ формируется изначально на основе категориальной схемы, позволяет выстраивать иерархические деревья по отношению “род-вид”, распределяя КС по все более узким семантическим категориям относительно быстро и аккуратно,  и в конечных точках получать группы условно эквивалентных слов и словосочетаний, из которых остается выбрать ее представитель – дескриптор, обозначив остальные как аскрипторы.

Описываемый метод построения   системы смысловых связей в ИПТ опирается на многолетний опыт работы автора в области создания  тезаурусов по различной тематике. Разработка предлагаемой категориальной схемы ИПТ  основана  на анализе структуры информации /1/ в различных областях науки и техники, а также типичных структур информационных потребностей.

Необходимость осуществления процессов обусловливает возникновение потребности в  “предметах”, удовлетворяющих потребности человеческого общества. Предметы,  обеспечивающие осуществление процессов,  обладают определенными характеристиками, существуют в некоторых условиях, связаны с определенными явлениями, могут находиться в различных состояниях. Для обеспечения существования предметов также необходимы различные виды деятельности с их характеристиками, условиями, сопутствующими явлениями и т.д.

Все ЛЕ,  которые собраны и обработаны для включения  в ИПТ в результате выделения ключевых слов из текстов традиционными или программными методами, распределяются по главным семантическим категориям,  выявленным на основе анализа области деятельности. Они представляют собой более подробную разработку основных категорий:  “предметы”,  “процессы деятельности”, “характеристики”, “явления, состояния”, “условия”.

Для снятия омонимии КС снабжаются пояснениями в скобках или используются устойчивые словосочетания. Примеры: вспышка (физическое явление), вспышка (техника);вспышка памяти, вспышка гнева; сооружение (процесс), сооружение (предмет).

К категории  “процессы” относятся  только   процессы деятельности, осуществляемые  самим  человеком  или замещающими его  труд техническими и прочими средствами.  Примеры: ремонт, выращивание, транспортировка, моделирование, пилотирование, комплектование.

В отличие от процессов деятельности,  физические, биологические, химические, социальные  явления, состояния выделяются в отдельную категорию “явления, состояния”.

Примеры: движение, перевоплощение, полет,  растворение, психическое состояние, отдых, акклиматизация, дыхание, стресс, ожидание, горение. Из данной категории можно выделить явления, состояния,  которые рассматриваются в  качестве  отрицательных в свете соответствующей деятельности человека, создав категорию “отрицательные явления“. Примеры: коррозия, заболевания,  обледенение,  износ, старение, перегрев, нарушения, дезориентация, дисбаланс, разгерметизация,  загрязнение.

“Характеристиками” считаются все характеристики, свойства,  параметры. Выделяется два типа “характеристик”:  “характеристики – наименования” (например, срок, качество, химические свойства, цвет, форма, скорость, устойчивость, телосложение, толщина) и “конкретные характеристики” (например, скоростной, высотный, синий, вынужденный, нестационарный, нисходящий, воспламеняемость).

“Условиями” признаются условия осуществления “процессов”, “явлений, состояний”, или существования “предметов”. Примеры: атмосфера, условия эксплуатации, тяжелые условия, жаркий климат, невесомость, ночное время, окружающая среда, время года, облачность.

“Предметы” выделяются в отдельную категорию как множество “самостоятельных сущностей” в противоположность “признакам”, к которым относятся действия, состояния, характеристики и т.п., т.е. все то, что не относится к числу самостоятельных сущностей, а лишь присуще чему-то другому. Употребляемое в этом смысле понятие “предметы” следует отличать от понятия “предмет мысли” или “предмет познания”. К “предметам” относятся в основном материальные объекты (например: самолеты,  пилоты,  грузы,  пассажиры, чертежи, двигатели, здания, мебель,  верхняя одежда), части материальных объектов и наименования места на или внутри них (выступы, поверхности, склоны, отверстия), идеальные объекты,  теоретические конструкты (теория, формула, информация,  образ, замысел), совокупности материальных или идеальных объектов (коллектив,  система, семья, комплексы, композиции),  общественные установления (страны, отрасли), материалы, вещества (медь, хлористый кальций,  кислоты,  цементзаполнители), формы существования,  представления  материальных или идеальных объектов (тюк,  виток, решетка, таблетка, рулон, порошок, поток),  области деятельности или знания (сельское  хозяйство, математика, социология) и т.д.

Категория “предметы” в большинстве областей деятельности распадается на следующие главные  категории: “отрасли деятельности и науки”,  “люди (лица)”,  «животные», «растения», “технические средства”,  “сооружения” (из которых, в частности,  можно выделить «коммуникации», “помещения”, «здания»),  “детали и узлы”, «строительные конструкции», «части растений», «части организма животных и людей» “материалы и  вещества”, “емкости, тара”,  “организации”, “предприятия”, которые можно включить в категорию “коллективы”, “топонимика”, «информация, данные», “источники и  носители  информации”, «изображения», «совокупности, системы», «теории», «абстрактные понятия». Список может быть дополнен, но, как правило, большая часть КС в любом тезаурусе может быть распределена по указанным категориям «предметов». Удобно использовать также псевдокатегорию “прочие”,  включающую слова  общего характера,  а  также  те,  которые  являются в конкретном тезаурусе  одиночными  представителями категорий,  не специфичных для  данной  области  знания.

Большинство КС  принадлежит к одной определенной категории с точки зрения человеческой деятельности вообще. КС, относящиеся к категориям “условия” и “отрицательные явления”,  напротив,  часто зависят в этом смысле от  сферы  деятельности  (например,  дождь в сельском хозяйстве и в авиации).

Итак, собранный массив КС сначала распределяется по основным, затем – по главным категориям. Дальнейшее распределение по более узким категориям выливается в процесс построения иерархических деревьев  по  отношению  “род-вид”. При этом в одни и те же узлы этих деревьев попадают КС, условно эквивалентные по смыслу в данной области знания с точки зрения информационного поиска, и настоящие синонимы. Они объединяются  дескрипторы.

Иерархические деревья, отображающие родо-видовые отношения между дескрипторами и получающиеся в результате их распределе­ния по все более узким семантическим категориям, составляют ос­нову структуры ИПТ. Каждое отдельное дерево строится, по возможности, только по одному параметру (аспекту). Например, в рамках категории «люди» могут быть построены деревья по таким аспектам как: «по профессии» (рабочие, служащие, военные, деятели искусства, обслуживающий персонал), «по должности» (руководители, рядовые сотрудники), «по возрасту» (дети, молодежь, взрослые).  В рамках категории материалы распределение КС по категориям ведется, например,  по следующим аспектам: «по составу», «по назначению», «по форме». ИПТ обычно бывают полииерархическими, т.е. один и тот же дескриптор может входить в любое количество деревьев, подчи­няться двум или более вышестоящим (родовым) дескрипторам.

Затем необходимо строить ассоциативные связи между дескрипторами из различных иерархических деревьев. Наиболее продуктивные методы разработки ассоциативных связей – это анализ текстов документов, терминологических словарей, учебных пособий, справочников, специальные исследования процессов поиска    информации пользователями и ассоциативные эксперименты  /2/.

В настоящее время для поддержки такого рода  процессов распределения   КС по категориям  целесообразно создавать специализированные компьютерные рабочие места с соответствующим интерфейсом. К сожалению, смысловая обработка до сих пор  качественно выполняется только с помощью человеческого интеллекта. Что касается форм представления данных в ИПТ, то полезно обратиться к стандарту.

Публикации можно посмотреть в открытом доступе  в электронной библиотеке РГБ: http://elibrary.rsl.ru/

1. Лавренова О.А. Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов.  : диссертация … кандидата филологических наук : 10.02.21

2. Лавренова О.А.   Методика разработки информационно-поискового тезауруса / М.: 2001


Оставить комментарий

Скрыто от всех