Unicode
-
Обзор Unicode
- Unicode — это стандарт кодирования символов, который используется для обмена текстовыми данными между различными компьютерными системами.
- Unicode был разработан в 1991 году и содержит более 1,1 миллиона кодовых точек.
- Стандарт Unicode определяет правила кодирования и декодирования символов, а также предоставляет информацию о символах, которые не могут быть представлены в текущей версии.
-
Структура Unicode
- Unicode состоит из блоков, каждый из которых содержит определенные кодовые точки.
- Блоки включают в себя символы, управляющие коды, графические символы, форматные символы и зарезервированные кодовые точки.
- Графические символы включают в себя символы с видимыми формами, форматными символами являются символы без видимого внешнего вида, управляющие коды используются для управления форматированием текста, а зарезервированные кодовые точки еще не назначены.
-
Кодирование и декодирование
- Unicode использует кодовые точки для представления символов, а также предоставляет механизм для преобразования между различными кодировками.
- Кодовые точки могут быть представлены в виде последовательности кодовых точек или в виде одного символа.
- Unicode поддерживает различные методы кодирования, включая UTF-8, UTF-16 и UTF-32.
-
Неопределенные символы и частные коды
- В Unicode есть неопределенные символы, которые не имеют определенного значения, и частные коды, которые не имеют интерпретации, определенной стандартом.
- Неопределенные символы и частные коды могут использоваться для обмена данными между системами, но требуют отдельного соглашения о значении.
-
Абстрактные символы и готовые формы
- Unicode не всегда соответствует набору абстрактных символов, которые могут быть представлены в нем.
- Стандарт предоставляет список уникальных имен для абстрактных символов, которые не кодируются напрямую.
- Готовые формы упрощают преобразование между кодировками и позволяют использовать Unicode в качестве внутреннего формата текста без необходимости реализации комбинированных символов.
-
Композиция символов и идеографические описания
- Unicode поддерживает модификацию символов, что значительно расширяет их репертуар.
- Стандарт обеспечивает взаимозаменяемость эквивалентных кодировок символов.
- Идеографические описания в Unicode отличаются от формального кодирования идеограмм и не имеют семантического значения.
-
Лигатуры
- Многие скрипты, включая арабский и деванагари, имеют специальные правила для формирования лигатур.
- Правила формирования лигатур могут быть сложными и требовать специальных технологий, таких как ACE или OpenType.
- Стандарт Unicode предоставляет инструкции для правильного вывода различных последовательностей символов через шрифты.
- Пересказана только часть статьи. Для продолжения перейдите к чтению оригинала.
Полный текст статьи: