forum.opennet.ru

Составление сообщения

Исходное сообщение

"Новая версия набора компиляторов LLVM 3.6"
Отправлено Stax, 28-Фев-15 16:26

> UTF-16 существует по историческим причинам
Ну, не надо так зарубать. UTF-16 - это основное и рекомендованное представление Unicode (рекомендованное именно консорциумом Unicode - не когда-то, а прямо сейчас), которое используется практически во всех серьезных проектах. В UNIX-системах популярен UTF-8, но он удобен только тогда, когда в саму строку не нужно вникать, а достаточно принять-передать ее: тут совместимость с ASCII рулит. Но любая обработка (нормализация, поиск и тд) в UTF-8 превращается в извращение.
По факту, даже в UNIX-системах серьезные проекты используют UTF-16 представление (Java, Python и т.д.). Что касается UTF-32, он, конечно, чуть удобнее, но ЖУТКО неэффективен - даже с учетом самых редких символов для кодирования всех определенных сейчас Unicode 7.0 символов достаточно 21 бита. С практической точки зрения же % символов, которые выходят из BMP совсем мал. Поэтому UTF-32 используют только те, кому лень написать простой if для выявления surrogate point'ов в UTF-16 (если уж совсем вручную обрабатывать, т.к. по факту в высокоуровневых языках поддержка есть внутри) и кому не жаль ради этого потратить в два раза больше памяти. Поэтому официально рекомендуется использовать UTF-16 представление везде, где требуется любая обработка строк, от UTF-32 держаться подальше, кроме представления отдельных символов (а не строк) - кстати, на практике так и делают, у того же питона в памяти UTF-16, но если попросить вывести представление одного символа, оно вернется как UTF-32 - и UTF-8 там, где нужна совместимость с ASCII и особо не требуется обработка.

Исходное сообщение
"Новая версия набора компиляторов LLVM 3.6" Отправлено Stax, 28-Фев-15 16:26
> UTF-16 существует по историческим причинам Ну, не надо так зарубать. UTF-16 - это основное и рекомендованное представление Unicode (рекомендованное именно консорциумом Unicode - не когда-то, а прямо сейчас), которое используется практически во всех серьезных проектах. В UNIX-системах популярен UTF-8, но он удобен только тогда, когда в саму строку не нужно вникать, а достаточно принять-передать ее: тут совместимость с ASCII рулит. Но любая обработка (нормализация, поиск и тд) в UTF-8 превращается в извращение. По факту, даже в UNIX-системах серьезные проекты используют UTF-16 представление (Java, Python и т.д.). Что касается UTF-32, он, конечно, чуть удобнее, но ЖУТКО неэффективен - даже с учетом самых редких символов для кодирования всех определенных сейчас Unicode 7.0 символов достаточно 21 бита. С практической точки зрения же % символов, которые выходят из BMP совсем мал. Поэтому UTF-32 используют только те, кому лень написать простой if для выявления surrogate point'ов в UTF-16 (если уж совсем вручную обрабатывать, т.к. по факту в высокоуровневых языках поддержка есть внутри) и кому не жаль ради этого потратить в два раза больше памяти. Поэтому официально рекомендуется использовать UTF-16 представление везде, где требуется любая обработка строк, от UTF-32 держаться подальше, кроме представления отдельных символов (а не строк) - кстати, на практике так и делают, у того же питона в памяти UTF-16, но если попросить вывести представление одного символа, оно вернется как UTF-32 - и UTF-8 там, где нужна совместимость с ASCII и особо не требуется обработка.

Ваше сообщение

Имя*:

EMail:

Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.

Заголовок*:

Сообщение*:

>> UTF-16 существует по историческим причинам

> Ну, не надо так зарубать. UTF-16 - это основное и рекомендованное представление 
> Unicode (рекомендованное именно консорциумом Unicode - не когда-то, а прямо сейчас), 
> которое используется практически во всех серьезных проектах. В UNIX-системах популярен 
> UTF-8, но он удобен только тогда, когда в саму строку не 
> нужно вникать, а достаточно принять-передать ее: тут совместимость с ASCII рулит. 
> Но любая обработка (нормализация, поиск и тд) в UTF-8 превращается в 
> извращение.

> По факту, даже в UNIX-системах серьезные проекты используют UTF-16 представление (Java, 
> Python и т.д.). Что касается UTF-32, он, конечно, чуть удобнее, но 
> ЖУТКО неэффективен - даже с учетом самых редких символов для кодирования 
> всех определенных сейчас Unicode 7.0 символов достаточно 21 бита. С практической 
> точки зрения же % символов, которые выходят из BMP совсем мал. 
> Поэтому UTF-32 используют только те, кому лень написать простой if для 
> выявления surrogate point'ов в UTF-16 (если уж совсем вручную обрабатывать, т.к. 
> по факту в высокоуровневых языках поддержка есть внутри) и кому не 
> жаль ради этого потратить в два раза больше памяти. Поэтому официально 
> рекомендуется использовать UTF-16 представление везде, где требуется любая обработка 
> строк, от UTF-32 держаться подальше, кроме представления отдельных символов (а не 
> строк) - кстати, на практике так и делают, у того же 
> питона в памяти UTF-16, но если попросить вывести представление одного символа, 
> оно вернется как UTF-32 - и UTF-8 там, где нужна совместимость 
> с ASCII и особо не требуется обработка.

При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру