En


Ольга Лавренова
2 1769
Ольга Лавренова

Точки доступа при поиске и их контроль

Все элементы данных в электронном каталоге (ЭК) или полных текстах электронной библиотеки (ЭБ) сейчас модно называть “точками доступа” – “access points”. Ими могут быть:

• те элементы библиографических записей (БЗ), которые обозначены при настройке ЭК как поисковые (например, все элементы БЗ, кроме примечаний и т.п. текстов),

• все словоформы текста документа в ЭБ, кроме так называемых стоп-слов, хранящихся в системе в виде специального списка,

• все проиндексированные некой поисковой системой словоформы любого электронного ресурса в сети.

Точки доступа могут быть неконтролируемые и контролируемые. Для чего необходимо контролировать некоторые типы точек доступа? Вернемся к вводному тексту для нашего блога , где говорится, в частности, о массовой иллюзии, процветающей при создании электронных библиотек: «Поиск в полнотекстовых базах данных электронных библиотек сам по себе достаточен, так как все слова в нем могут быть поисковыми и их в текстах очень много».

Вместо длинных рассуждений о пользе специальных лингвистических средств приведем всего лишь несколько примеров.

Как обеспечить без контроля точек доступа при поиске в ЭК или ЭБ связи:

• между именем лица Charlotte Nichols (Шарлотта Николс), полученным в результате брака с господином Николсом, и прежним именем Charlotte Bronte (Шарлотта Бронте), а также между формами данного имени на различных языках?

• между наименованиями организации, известной как United Nations Organization – на английском языке, Organisation des Nations Unies – на французском языке и Организация Объединенных Наций – на русском языке?

• между заглавиями музыкальных произведений Бетховена: Симфония «Героическая» и «Симфония № 3: ми-бемоль мажор: соч. 55»?

Три приведенных примера взяты из текста описания модели FRAD , о которой поговорим через некоторое время отдельно и весьма подробно.

Еще два примера взяты из ЭК РГБ. Российская государственная библиотека известна также под наименованиями: Государственная библиотека СССР имени В.И. Ленина, Ленинка, ГБЛ, РГБ и т.д. Как объединить эти названия при поиске, не перечисляя их в запросе?

В Ярославской области протекает две реки с названием Нерль. Как определить, о которой из них идет речь в конкретном произведении?

При контроле точек доступа в библиотечной практике для объектов устанавливаются формы имен, принятые (предпочтительные) в конкретной системе или некотором сообществе систем, а также непринятые варианты форм имен, по которым можно найти принятые, и ассоциативные связи между принятыми формами. Кроме того, дается справочная информация различного рода. В библиотечных системах контролируются обычно точки доступа, основанные на именах лиц, родов/семей, наименованиях организаций, на заглавиях (т.е., именах) произведений, точки доступа, существующие как комбинации из двух точек доступа, как в случае использования точки доступа «создатель/заглавие» для произведения, точки доступа, основанные на именах и терминах для событий, тем, концепций и мест, точки доступа, основанные на идентификаторах, таких как стандартные номера, классификационные индексы.

До появления компьютерных технологий в библиотечной практике для контроля имен лиц, наименований организаций и т.д. использовались добавочные карточки в карточных каталогах, где все эти имена уточнялись. Для контроля точек доступа в автоматизированных информационно- библиотечных системах создаются authority files, состоящие из authority records. Более широкий термин – authority data (вне зависимости от физической формы представления данных). Приведенные на английском языке термины переводятся на русский язык в различных источниках по-разному: авторитетные или нормативные файлы и записи, а также приводятся одновременно два варианта перевода – авторитетные/нормативные файлы. Обсуждение перевода этих терминов оставим на следующий раз.

Как известно, нормативные файлы (данные) применяются в информационных системах для контроля и «смысловых» точек доступа при тематическом поиске. Проблемы полноты тематического поиска путем фиксации в системах смысловых связей между поисковыми элементами мы рассматривали ранее .


Комментарии

Боровинский Арсен Исаевич

В стандартной реляционной модели эти все связи можно легко проставить.
При условии, конечно, что данные известны.

Возьмем пример с РГБ/Ленинкой и т.д.

Организация является сущностью и имеет свой уникальный идентификатор. К нему привязаны названия (на различных языках), регистрационные данные, географические (включая геопозиционные) и т.д.

В “запись” о книге пишется, тогда, не название организации, а ее идентификатор.

А какое “специальное лингвистическое” ПО существует и используется в промышленной эксплуатации?

Боровинский Арсен Исаевич

Из чего проистекает необходимость создания глобальных реестров людей, издательств, документов и т.п., иначе метаданные утрачивают функционал переносимости.


Оставить комментарий

Скрыто от всех