Универсальный кодированный набор символов
- UCS (Unicode) — стандартный набор символов, основанный на ISO/IEC 10646.
- UCS содержит более 1,1 миллиона кодовых точек, из которых только первые 65 536 являются BMP.
- Китайская Народная Республика требует поддержки GB 18030 в программном обеспечении.
- UCS-2 и UTF-16 используются для представления кодовых точек за пределами BMP.
- Unicode использует кодировку UTF-16 с элементами высокого и низкого уровня.
- UTF-32 использует 4 байта для кодирования одного символа.
- ISO/IEC 10646 и Unicode имеют идентичный репертуар символов, но Unicode добавляет правила сортировки и нормализации форм.
- Unicode поддерживает двунаправленный алгоритм для написания справа налево.
Полный текст статьи: