En


Ольга Лавренова
0 1705
Ольга Лавренова

Языки разметки текстов

В электронных библиотеках обычно хранятся не просто тексты как последовательность знаков. Библиотекари (а также издатели) заинтересованы в том, чтобы в цифровой форме хранились все возможные характеристики документов. Разумеется, не все сразу, но к этому следует стремиться и сохранить не только буквы, математические знаки, ноты, рисунки, но и обозначить такие структурные элементы, как заголовки, оглавления, сноски, индексы, списки литературы и т.д. [1].

Для такой кодировки создаются языки разметки текстов, которые использовались уже почти в самом начале возникновения вычислительной техники. Те, кто давно работает на компьютерах, помнит различные значки типа конца и начала текста на другом языке или обозначения прописной буквы.

В 80х годах был разработан стандартный обобщенный язык разметки SGML (Standard Generalized Markup Language http://pyramidin.narod.ru/html401/sgmltut.html). По-английски «метка» – «tag», так что в переводах описаний языка разметки SGML и производных от него HTML и XML используется термин «тэг», «тэги» (или «тег», «теги»). Тэги могут быть предусмотрены для всех возможных составляющих данных. В сущности, последовательности знаков, называемые тэгами, работают как машинные команды, определяющие способ обработки и вывода фрагментов документа. SGML отличается большой гибкостью, но требует для реализации очень сложного программного обеспечения. При его использовании трудно добиться взаимодействия различных систем. Поэтому разработан гипертекстовый язык разметки HTML (Hypertext Markup Language http://html.manual.ru) – упрощенный вариант SGML. Именно на HTML держится гипертекстовая навигация в сети Word Wide Web (всемирная «паутина»). WWW, собственно, и представляет собой «связанный гиперссылками набор информационных источников в сети Интернет и технологии, которые при этом используются» [1, с. 269]. Текст документа размечается тэгами (т.е. специальными командами), которые описывают форму или структуру – и получается в результате HTML- файл. Он и загружается в базу данных.

Тэги HTML легко узнать по парным идентификаторам (угловым скобкам) < и >. Большинство тэгов парные и заключают между собой текст, причем тэг в конце такого текста содержит прямой слэш «/». Проще всего понять это на примерах: тэги <title> и </title> заключают в себе заголовок (<title> Война и мир </title>); тэги <p> и </p> ставятся в начале и конце параграфа; <> и </i> помечают курсив и т.д.). Гипертекстовый язык разметки, естественно, обеспечивает использование гиперссылок (hyperlinks), на чем и основано движение от одной Web-страницы к другой при работе в Интернет.

Гипертекст – это информация, представленная в таком виде, когда определенные слова в тексте можно в любой момент «раскрыть» и получить таким образом о них дополнительную информацию, т.е. эти слова являются ссылками на другие документы, или, добавим, части того же документа, которые могут быть текстами, файлами, рисунками, видеозаписями, чем угодно.

В электронных библиотеках, в принципе, можно обойтись разметкой в языке HTML, основными достоинствами которого является относительная простота применения и возможность использования стандартных программных средств. Однако HTML является закрытым языком, не позволяющим пользователю дополнять при необходимости новые тэги для расширения функциональности языка. Этими обстоятельствами объясняется все более широкое распространение XML (eXtensible Markup Language http://ru.wikipedia.org/wiki/XML) – расширяемого языка разметки, который также представляет собой вариант SGML и разработан специально для WWW. Сам по себе XML не содержит никаких тэгов, предназначенных для разметки, но определяет порядок их создания. Набор тэгов легко расширять в соответствии с потребностями системы. С другой стороны, XML достаточно просто устроен с точки зрения разработки программных продуктов.

По аналогии с HTML-документами, XML-документ состоит из элементов разметки (markup) и непосредственно содержимого документа – данных (content). Любой XML-документ начинается с инструкции <?xml?>. Один тэг открывает и определяет некоторую область данных в документе, а «парный» ему – закрывает. Тэги могут вкладываться друг в друга, и эта вложенность строго контролируется. Информация между начальным и конечным тэгом рассматривается в XML как «данные»; учитываются все символы форматирования (пробелы, переводы строк…).

В качестве содержимого элементов могут выступать просто текст, другие вложенные элементы документа (например, встроенные метаданные), комментарии и т.д. Набором элементов задается его структура и иерархические отношения. Документ вкладывается в документ, элемент – в элемент. Таким образом формируется иерархическая модель данных. Как правило, один из элементов в XML – документе определяется корневым.

1. Армс Вильем. Электронные библиотеки. Пер. с англ. С.А.Арнаутова. – Москва: ПИК ВИНИТИ, 2000. – 276 с.


Оставить комментарий

Скрыто от всех