Оглавление
Кодирование с переменной шириной
-
Основы многобайтовых кодировок
- Многобайтовые кодировки позволяют использовать более 256 символов в одном байте.
- Они используются для поддержки языков с большим количеством символов.
- Кодировки переменной ширины позволяют оптимизировать использование памяти и скорость обработки текста.
-
История и эволюция
- Многобайтовые кодировки возникли в 1960-х годах для поддержки языков с большим количеством символов.
- Они были разработаны для решения проблемы хранения и передачи больших объемов текста.
- С развитием технологий и увеличением объема памяти многобайтовые кодировки стали менее актуальными.
-
Структура многобайтовых кодировок
- В многобайтовых кодировках есть три типа единиц измерения: синглтоны, лидирующие и конечные единицы.
- Программное обеспечение для ввода и отображения должно знать структуру кодировки.
- Старые кодировки переменной ширины могут иметь перекрывающиеся диапазоны, что усложняет обработку текста.
-
Многобайтовые кодировки CJK
- Кодировки CJK были разработаны для кодирования китайского, японского и корейского языков.
- Они использовали 7-битные кодировки, которые были расширены до 8-битных схем кодирования.
- На платформах Unix были введены 8-битные кодировки EUC-JP, EUC-CN и EUC-KR, которые упростили обработку текста.
- На ПК были установлены кодировки Shift-JIS и Big5, которые также имели проблемы с обработкой текста из-за перекрытия значений.
-
Многобайтовые кодировки в Юникоде
- Unicode имеет две кодировки переменной ширины: UTF-8 и UTF-16.
- UTF-8 была разработана для преодоления ограничений Unicode и имеет более совершенную структуру.
- UTF-16 была создана для расширения Unicode без нарушения совместимости с 16-битной кодировкой.
-
Рекомендации
- Статья содержит ссылки на другие темы, связанные с многобайтовыми кодировками.
Полный текст статьи: