forum.opennet.ru - "KOI8-R или UTF-8?" (26)

форумы

помощь

поиск

регистрация

майллист

ВХОД

слежка

"KOI8-R или UTF-8?"

Форумы OpenNET: Виртуальная конференция (Public)
Вариант для распечатки		Архивированная нить - только для чтения! Пред. тема \| След. тема
Изначальное сообщение		[Проследить за развитием треда]

"KOI8-R или UTF-8?"
Сообщение от Vertical (ok) on 24-Дек-04, 20:13 (MSK)
Многие разработчики дистрибутивов предпочитают использовать по умолчанию разную кодировку. Mandrake, например KOI8, Fedora - UTF. Объясните пожалуйста, в чем концептуальное их различие. Почему одни сидят на одних, другие на других? Какие у первой и второй преимущества и недостатки? Что выбирать обычному пользователю? Зачем вообще придуман этот выбор KOI8-R или UTF-8?
	Рекомендовать в FAQ \| Cообщить модератору \| Наверх

Оглавление

KOI8-R или UTF-8?, gyn61, 20:24 , 24-Дек-04, (1)
- KOI8-R или UTF-8?, Akademic, 10:58 , 25-Дек-04, (2)
  - KOI8-R или UTF-8?, Vertical, 18:44 , 25-Дек-04, (3)
    - KOI8-R или UTF-8?, Sampan, 20:30 , 25-Дек-04, (4)
      - KOI8-R или UTF-8?, Akademic, 13:38 , 26-Дек-04, (7)
        
        KOI8-R или UTF-8?, Sampan, 05:32 , 27-Дек-04, (11)
        
        KOI8-R или UTF-8?, Akademic, 13:07 , 27-Дек-04, (13)
        
        KOI8-R или UTF-8?, dev, 01:56 , 28-Дек-04, (17)
        
        KOI8-R или UTF-8?, Аноним, 11:53 , 29-Дек-04, (22)
        KOI8-R или UTF-8?, Nikola, 11:55 , 29-Дек-04, (23)
  - KOI8-R или UTF-8?, dev, 01:22 , 26-Дек-04, (5)
    - KOI8-R или UTF-8?, Akademic, 13:32 , 26-Дек-04, (6)
      - KOI8-R или UTF-8?, dev, 14:09 , 26-Дек-04, (8)
        
        KOI8-R или UTF-8?, Akademic, 14:33 , 26-Дек-04, (9)
        
        KOI8-R или UTF-8?, dev, 02:09 , 27-Дек-04, (10)
        
        KOI8-R или UTF-8?, Akademic, 12:56 , 27-Дек-04, (12)
        
        KOI8-R или UTF-8?, co6aka, 15:05 , 27-Дек-04, (14)
        
        KOI8-R или UTF-8?, Akademic, 15:39 , 27-Дек-04, (15)
        
        KOI8-R или UTF-8?, dev, 01:55 , 28-Дек-04, (16)
        
        KOI8-R или UTF-8?, Akademic, 13:15 , 28-Дек-04, (18)
        
        KOI8-R или UTF-8?, dev, 16:14 , 28-Дек-04, (19)
        
        KOI8-R или UTF-8?, Akademic, 16:53 , 28-Дек-04, (20)
        KOI8-R или UTF-8?, dev, 20:16 , 28-Дек-04, (21)
        KOI8-R или UTF-8?, co6aka, 15:20 , 29-Дек-04, (24)
        KOI8-R или UTF-8?, co6aka, 15:25 , 29-Дек-04, (25)
        KOI8-R или UTF-8?, Akademic, 23:22 , 29-Дек-04, (26)

Индекс форумов | Темы | Пред. тема | След. тема

Сообщения по теме

1. "KOI8-R или UTF-8?"

Сообщение от gyn61 (ok) on 24-Дек-04, 20:24  (MSK)

При UTF-8 вы можете например обозвать файл по русско-арабски-китайски, поскольку используется полный набор символов (это плюс). Однако не все еще программы умеют работать с UTF-8 (а это минус).

Рекомендовать в FAQ | Cообщить модератору | Наверх

2. "KOI8-R или UTF-8?"

Сообщение от Akademic (??) on 25-Дек-04, 10:58  (MSK)

Программы со временем научатся понимать юникод.
Главный минус - код символа занимает вместо одного байта - два.
И вот за просто так мы получим удвоение трафика.
А обзывать файлы на языках кроме английского - происки Билла, который Гейтс.
И выгодно только микрософту.
Главная проблема с кодировками в том, что существует много русскоязычнах кодировок: cp1251,IBM866,ISO8859-5, ну и KOI8-R.
Издавна, большенство юниксоидов отдают предпочтение KOI8-R.
Т.к. когда рождался русский юникс(Демос) много(да почти все) программ работало только с 7-ми битной кодировкой.
И если текст написан в KOI8-R его можно было(и сейчас можно) читать как транслит.
Проблема с KOI8-R  в том, что буквы идут не по порядку, поэтому сортировать строки путём простого сравнения ASCII кодов нельзя.
Видимо, именно поэтому компании микрософт и IBM решили использовать сои кодировки. Да и ISO, наверное, тоже.
А теперь мы имеем что имеем. И над тем что имеем извращаемся.
Юникод здесь призван послужить объединяющим фактором не только внутри многообразия кирилических кодровок, но и вообще всех.
А пока у меня инет по модему - я на юникод несогласный.

Рекомендовать в FAQ | Cообщить модератору | Наверх

3. "KOI8-R или UTF-8?"

Сообщение от Vertical (ok) on 25-Дек-04, 18:44  (MSK)

Спасибо, но я все таки не понял главного - что выбирать обычному пользователю? Какие программы (из разряда критических) не понимают уникод?
Помнится, когда я менял кодировку с UTF на KOI8 в FC2 несколько программ (одна из них- system-config-network) на русском перестали нормально отображать русские символы. SCN вообще не отображала нормально только список возможных интерфейсов, все остальное было нормально. В целом все это было настолько некритично, что я так и не понял, чему я должен отдать препочтение.

Рекомендовать в FAQ | Cообщить модератору | Наверх

4. "KOI8-R или UTF-8?"

Сообщение от Sampan on 25-Дек-04, 20:30  (MSK)

>Спасибо, но я все таки не понял главного - что выбирать обычному пользователю?
Сначала подумай о том, что, наверное, более 90% рускоязычных текстов, существующих в электронном виде, набраны в CP1251 кодировке. (Сие есть объективная реальность, нравится это кому-то или нет). А уж потом выбирай кодировку.
И абсолютно не важно, кто виноват в каше русских кодировок. Если ты будешь знать злодея по имени и в лицо, перекодировать CP1251 - KOI8R (или UTF8) легче не станет.

Рекомендовать в FAQ | Cообщить модератору | Наверх

7. "KOI8-R или UTF-8?"

Сообщение от Akademic (??) on 26-Дек-04, 13:38  (MSK)

>Сначала подумай о том, что, наверное, более 90% рускоязычных текстов, существующих в
>электронном виде, набраны в CP1251 кодировке. (Сие есть объективная реальность, нравится
>это кому-то или нет). А уж потом выбирай кодировку.
А набраны - потому что винда.
Кстати, сейчас микрософт переходит на юникод и все тексты под виндой будут набираться в юникоде.
Большнство документов станут в нём.
В ХР вроде ещё cp1251, но в Longhorn'е уже стопудово юникод.

Рекомендовать в FAQ | Cообщить модератору | Наверх

11. "KOI8-R или UTF-8?"

Сообщение от Sampan on 27-Дек-04, 05:32  (MSK)

>А набраны - потому что винда.
Какая разница почему! Важно, что СР1251
>Кстати, сейчас микрософт переходит на юникод и все тексты под виндой будут набираться в юникоде.
Кстати, Микрософт уже давно перешел на юникод (аж в 2000 году - W2K). Погляди в папку "Шрифты". Все, что помечено OpenType - юникод. Даже notepad умеет читать и сохранять в юникоде. И что изменилось за эти 5 лет?
>Большнство документов станут в нём.
Да? Блажен, кто верует!
Ну и кто же возьмется перекодировать, например, огромный text/plain архив из СР1251 в юникод в библиотеке Мошкова? Уж точно не Микрософт. А само оно, как-то, не сделается..

Рекомендовать в FAQ | Cообщить модератору | Наверх

13. "KOI8-R или UTF-8?"

Сообщение от Akademic (??) on 27-Дек-04, 13:07  (MSK)

>Кстати, Микрософт уже давно перешел на юникод (аж в 2000 году -
>W2K). Погляди в папку "Шрифты". Все, что помечено OpenType - юникод.
>Даже notepad умеет читать и сохранять в юникоде. И что изменилось
>за эти 5 лет?
Я как-то за этим не очень следил. Ну перешли и перешли. Просто, я считаю, что именно в новой винде будет сделан больший упор на юникод. В том смысле, что по умолчанию документы будут набираться в нем. А т.к. винды давно держат юникод, то проблем с совместимостью не предвидется. Ибо микрософт уже подготовила почву.
>Да? Блажен, кто верует!
>Ну и кто же возьмется перекодировать, например, огромный text/plain архив из СР1251
>в юникод в библиотеке Мошкова? Уж точно не Микрософт. А само
>оно, как-то, не сделается..
Существуют же программы перекодировщики вроде QtextTransformer'а.
Вот натравить такую на библиотеку, и по прошествии времени всё станет так.
Но это к товарищу dev - он большой поклонник utf8. ;-)

Рекомендовать в FAQ | Cообщить модератору | Наверх

17. "KOI8-R или UTF-8?"

Сообщение от dev (??) on 28-Дек-04, 01:56  (MSK)

>>Да? Блажен, кто верует!
>>Ну и кто же возьмется перекодировать, например, огромный text/plain архив из СР1251
>>в юникод в библиотеке Мошкова? Уж точно не Микрософт. А само
>>оно, как-то, не сделается..
>
>Существуют же программы перекодировщики вроде QtextTransformer'а.
>Вот натравить такую на библиотеку, и по прошествии времени всё станет так.
>
>Но это к товарищу dev - он большой поклонник utf8. ;-)
Это делается за час iconv'ом.

Рекомендовать в FAQ | Cообщить модератору | Наверх

22. "KOI8-R или UTF-8?"

Сообщение от Аноним on 29-Дек-04, 11:53  (MSK)

>>А набраны - потому что винда.
>
>Какая разница почему! Важно, что СР1251
>
>>Кстати, сейчас микрософт переходит на юникод и все тексты под виндой будут набираться в юникоде.
>
>Кстати, Микрософт уже давно перешел на юникод (аж в 2000 году -
>W2K). Погляди в папку "Шрифты". Все, что помечено OpenType - юникод.
>Даже notepad умеет читать и сохранять в юникоде. И что изменилось
>за эти 5 лет?
>
>>Большнство документов станут в нём.
>
>Да? Блажен, кто верует!
>Ну и кто же возьмется перекодировать, например, огромный text/plain архив из СР1251
>в юникод в библиотеке Мошкова? Уж точно не Микрософт. А само
>оно, как-то, не сделается..
>
Идиот вы батенька, в Windows есть юникод, НО!
1) notepad ==cp866
2) NTFS==CP1251
И так во всём WINDOWS XP
А то что они там чем то помечены. Так это правило M$ пометить, сказать "выполнено" и пользоваться кашей как это было во всей линейки WIN9X

Рекомендовать в FAQ | Cообщить модератору | Наверх

23. "KOI8-R или UTF-8?"

Сообщение от Nikola (??) on 29-Дек-04, 11:55  (MSK)

Кстати iconv справится с перекодировкой текста из plain text на 5 с +
Именно его и использую для перекодировки из cp1251 cp866==>KOI8-R

Рекомендовать в FAQ | Cообщить модератору | Наверх

5. "KOI8-R или UTF-8?"

Сообщение от dev (??) on 26-Дек-04, 01:22  (MSK)

>Главный минус - код символа занимает вместо одного байта - два.
В UTF-8 - не всегда.
>А обзывать файлы на языках кроме английского - происки Билла, который Гейтс.
Спорный вопрос. Ну а что делать с содежимым этох файлов? Например, попытайся записать в текстовый файл русско-немецкий словарь.
>А пока у меня инет по модему - я на юникод несогласный.
А как ты думаешь, на сколько возрастет объем средней веб-странички, если ее перевести из KOI8 в UTF-8? А если со сжатием?
Можно проверить, например, на этом треде. У меня получилось ~10%.

Рекомендовать в FAQ | Cообщить модератору | Наверх

6. "KOI8-R или UTF-8?"

Сообщение от Akademic (??) on 26-Дек-04, 13:32  (MSK)

>Спорный вопрос. Ну а что делать с содежимым этох файлов? Например, попытайся
>записать в текстовый файл русско-немецкий словарь.
Имхо это есть не проблема кодировки, а используемых шрифтов.
Хотелось бы посмотреть на полную юникод клавиатуру ;-)
Имена файлов представляют, имхо, бОльшую проблему.
Буквально вчера мне принесли дискету.
На ней rar архив, названный русскими буквами(я так думаю в юникоде).
Ладно, при копировании имя переконвертировалось в KOI8-R.
Внутри архива доки тоже с русскими именами(тоже в юникоде) - страшные крякозяблы. Программами не открывается, переименовываться не хочет.
>А как ты думаешь, на сколько возрастет объем средней веб-странички, если ее
>перевести из KOI8 в UTF-8? А если со сжатием?
>Можно проверить, например, на этом треде. У меня получилось ~10%.
Десять процентов - достаточно много для меня.
К тому же, есть сжатие - нет его.
На конечном компьютере в памяти юникод символ всё равно 2 байта.
Да, конечно, сейчас памяти много и т.п.
Но мне на моей AMD K5 90MHz с 24Mb оперативы от этого не легче.

Рекомендовать в FAQ | Cообщить модератору | Наверх

8. "KOI8-R или UTF-8?"

Сообщение от dev (??) on 26-Дек-04, 14:09  (MSK)

>Имхо это есть не проблема кодировки, а используемых шрифтов.
Нет. Шрифты юникодные уже есть и очень распространены.
Проблема с содержимым файлов.
>Хотелось бы посмотреть на полную юникод клавиатуру ;-)
А она есть :) Alt+... в крайнем случае.
А так, на обычной клаве, набираются практически все буквы западно-европейских алфавитов, надо только принцип знать.
>Имена файлов представляют, имхо, бОльшую проблему.
>Буквально вчера мне принесли дискету.
>На ней rar архив, названный русскими буквами(я так думаю в юникоде).
>Ладно, при копировании имя переконвертировалось в KOI8-R.
>Внутри архива доки тоже с русскими именами(тоже в юникоде) - страшные крякозяблы.
>Программами не открывается, переименовываться не хочет.
Ну это не проблемы юникода, а проблемы глючных программ.
А по поводу именования файлов: к примеру, есть документ "Долговая расписка Махмеда Махмедовича Аглы". Как его назвать латиницей? Как его потом искать?
>>А как ты думаешь, на сколько возрастет объем средней веб-странички, если ее
>>перевести из KOI8 в UTF-8? А если со сжатием?
>>Можно проверить, например, на этом треде. У меня получилось ~10%.
>
>Десять процентов - достаточно много для меня.
Т.е. у тебя при серфинге отключены картинки и ты ходишь в Инет через канал со сжатием?
>К тому же, есть сжатие - нет его.
>На конечном компьютере в памяти юникод символ всё равно 2 байта.
>Да, конечно, сейчас памяти много и т.п.
>Но мне на моей AMD K5 90MHz с 24Mb оперативы от этого
>не легче.
И насколько больше памяти требует твой браузер при просмотре юникодных страничек?

Рекомендовать в FAQ | Cообщить модератору | Наверх

9. "KOI8-R или UTF-8?"

Сообщение от Akademic (ok) on 26-Дек-04, 14:33  (MSK)

>>Имхо это есть не проблема кодировки, а используемых шрифтов.
>
>Нет. Шрифты юникодные уже есть и очень распространены.
>Проблема с содержимым файлов.
Да я не про отсутствие юникодных шрифтов, а про выбор шрифта, в котором есть соответствующие символы. То есть просто надо выбрать такой шрифт и писать.

>Ну это не проблемы юникода, а проблемы глючных программ.
Ну положим LinRAR не знает, да и не должен знать, что внутри его архива есть имена файлов в разных кодировках. Да ещё к тому же отличных от локали.
>А по поводу именования файлов: к примеру, есть документ "Долговая расписка Махмеда
>Махмедовича Аглы". Как его назвать латиницей? Как его потом искать?
Dolgovaya_raspiska_Mahmeda_Mahmedovicha_Agly   ;-)
Так и искать.
А лучше закидывать такие сведения в БД.
>Т.е. у тебя при серфинге отключены картинки и ты ходишь в Инет
>через канал со сжатием?
Да.
>И насколько больше памяти требует твой браузер при просмотре юникодных страничек?
Дай адрес юникодной странички - посмотрю.
А то пробежался по нескольким - всё koi8-r, cp1251, и даже IBM866.

Рекомендовать в FAQ | Cообщить модератору | Наверх

10. "KOI8-R или UTF-8?"

Сообщение от dev (??) on 27-Дек-04, 02:09  (MSK)

>Да я не про отсутствие юникодных шрифтов, а про выбор шрифта, в
>котором есть соответствующие символы. То есть просто надо выбрать такой шрифт
>и писать.
Ну какой шрифт может быть в текстовом файле. Проблема именно с кодировкой.
>>Ну это не проблемы юникода, а проблемы глючных программ.
>Ну положим LinRAR не знает, да и не должен знать, что внутри
>его архива есть имена файлов в разных кодировках. Да ещё к
>тому же отличных от локали.
Точно. Поэтому надо везде использовать UTF-8 и проблем не будет.
>>А по поводу именования файлов: к примеру, есть документ "Долговая расписка Махмеда
>>Махмедовича Аглы". Как его назвать латиницей? Как его потом искать?
>
>Dolgovaya_raspiska_Mahmeda_Mahmedovicha_Agly   ;-)
>Так и искать.
А как гарантировать, что у всей фирмы будут одни и теже правила транслитерации? А у клиентов?
>А лучше закидывать такие сведения в БД.
БД еще сделать надо. И на дискетке ее особо не потаскаешь.
>>Т.е. у тебя при серфинге отключены картинки и ты ходишь в Инет
>>через канал со сжатием?
>
>Да.
Ок, сжимай bzip2-ом, разница на десятые доли процента (10212 и 10232 байт). Примечание: я догадываюсь о недостатках этого метода.
>>И насколько больше памяти требует твой браузер при просмотре юникодных страничек?
>
>Дай адрес юникодной странички - посмотрю.
>А то пробежался по нескольким - всё koi8-r, cp1251, и даже IBM866.
Этот тред, сохраненый в обоих кодировках:
http://www.26th.net/public/tmp/koi8.html
http://www.26th.net/public/tmp/utf8.html

Рекомендовать в FAQ | Cообщить модератору | Наверх

12. "KOI8-R или UTF-8?"

Сообщение от Akademic (??) on 27-Дек-04, 12:56  (MSK)

>>>Ну это не проблемы юникода, а проблемы глючных программ.
>>Ну положим LinRAR не знает, да и не должен знать, что внутри
>>его архива есть имена файлов в разных кодировках. Да ещё к
>>тому же отличных от локали.
>
>Точно. Поэтому надо везде использовать UTF-8 и проблем не будет.
А я могу сказать: Точно. Поэтому надо везде использовать KOI8-R и проблем не будет. Или все имена файлов писать латиницей.
>>>А по поводу именования файлов: к примеру, есть документ "Долговая расписка Махмеда
>>>Махмедовича Аглы". Как его назвать латиницей? Как его потом искать?
>>
>>Dolgovaya_raspiska_Mahmeda_Mahmedovicha_Agly   ;-)
>>Так и искать.
>
>А как гарантировать, что у всей фирмы будут одни и теже правила
>транслитерации? А у клиентов?
Ну с правилами транслитерации не так всё сложно.
Можно ведь использовать правила, принятые в KOI8-R.
Тут всё дело в договорённости.
А вообще, мы находимся в переходном периоде. И писать имена файлов не латиницей не есть хорошо, т.к. у тех же клиентов может стоять вовсе не юникод.
>>А лучше закидывать такие сведения в БД.
>
>БД еще сделать надо. И на дискетке ее особо не потаскаешь.
Не лучшая идея таскать такую информацию как долговая расписка на дискете.
Так можно никогда не получить долг обратно. ;-)
>>>И насколько больше памяти требует твой браузер при просмотре юникодных страничек?
>>
>>Дай адрес юникодной странички - посмотрю.
>>А то пробежался по нескольким - всё koi8-r, cp1251, и даже IBM866.
>
>Этот тред, сохраненый в обоих кодировках:
>http://www.26th.net/public/tmp/koi8.html
>http://www.26th.net/public/tmp/utf8.html
PID USER          PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
835 Akademic       9   0  3724 3720 1668 S  0.0  1.0   0:01.71 links          838 Akademic       9   0  1248 1244  948 S  0.0  0.3   0:00.01 links
835 при переходе по utf8 ссылке
838 при переходе по koi8-r ссылке
Странно(для меня), но в обоих случаях при установке в настройках кодировки koi8-r русские буквы видны.

Рекомендовать в FAQ | Cообщить модератору | Наверх

14. "KOI8-R или UTF-8?"

Сообщение от co6aka (ok) on 27-Дек-04, 15:05  (MSK)

Ага :) а ты коперни текст с этой странички... например в терминал где koi8 !!!

Рекомендовать в FAQ | Cообщить модератору | Наверх

15. "KOI8-R или UTF-8?"

Сообщение от Akademic (??) on 27-Дек-04, 15:39  (MSK)

>Ага :) а ты коперни текст с этой странички... например в терминал
>где koi8 !!!
И что должно получиться?
У меня всё равно русские буквы видно.

Рекомендовать в FAQ | Cообщить модератору | Наверх

16. "KOI8-R или UTF-8?"

Сообщение от dev (??) on 28-Дек-04, 01:55  (MSK)

>>Точно. Поэтому надо везде использовать UTF-8 и проблем не будет.
>
>А я могу сказать: Точно. Поэтому надо везде использовать KOI8-R и проблем
>не будет.
Ну если ты в KOI8 чего-нибудь интересное по китайски напишешь - то можно :)
>Или все имена файлов писать латиницей.
И с именами файлов не все так просто, как обсуждается ниже.
Но ведь есть еще и содержимое этих файлов. Зачем использовать разные подходы для имен файлов и их содержимого?
>Ну с правилами транслитерации не так всё сложно.
>Можно ведь использовать правила, принятые в KOI8-R.
Это какие? Для того-же китайского/французского/etc?
>А вообще, мы находимся в переходном периоде. И писать имена файлов не
>латиницей не есть хорошо, т.к. у тех же клиентов может стоять
>вовсе не юникод.
У клиентов, очень вероятно, стоит Винда, а она юникодные имена прекрасно понимает.
Но речь ведь не о том, стану ли я кому-то отдавать файл с нелатинским именем, а о том, нужно ли это в принципе. Нужно, иначе с тем же успехом можно нумеровать файлы.
>Не лучшая идея таскать такую информацию как долговая расписка на дискете.
>Так можно никогда не получить долг обратно. ;-)
Копию - можно.
> PID USER
>PR  NI                    VIRT  RES  SHR S %CPU %MEM TIME+    COMMAND
>835 Akademic       9   0  3724 3720 1668 S  0.0  1.0  0:01.71 links
>838 Akademic       9   0  1248 1244  948 S  0.0  0.3  0:00.01 links
>
Т.е. несколько байт из 24 мег. На мой взгляд, не существенно.

>Странно(для меня), но в обоих случаях при установке в настройках кодировки koi8-r
>русские буквы видны.
В принципе, браузер внутри должен преобразовывать все в одну кодировку и только потом показывать.

Рекомендовать в FAQ | Cообщить модератору | Наверх

18. "KOI8-R или UTF-8?"

Сообщение от Akademic (??) on 28-Дек-04, 13:15  (MSK)

>Ну если ты в KOI8 чего-нибудь интересное по китайски напишешь - то
>можно :)
А оно надо?
Я, конечно, понимаю, что китайский язык - один из самых распространенных.
Но говорят на нем, в подавляющем большинстве случаев, китайцы.
Оставить им собственную - китайскую кодировку - и нет проблем.
Вам-то зачем этот китайский?
>И с именами файлов не все так просто, как обсуждается ниже.
>Но ведь есть еще и содержимое этих файлов. Зачем использовать разные подходы
>для имен файлов и их содержимого?
Какие же это разные подходы:
Имена файлов - латиницей(в KOI8-R (ну это неважно, ибо латиница во всех кодировках одинакова))
Содержимое файлов смешанное - английский+русский (в KOI8-R).
А насчет опять же китайского - много вы знаете людей проживающих в России, которые говорят по китайски, а тем паче на нем пишут?
Французский язык - тоже не пример.
В нем все буквы(за некоторым м.б. исключением) такие же как в английском.
Более того даже слова пишутся одинаково - различия в произношении.
>>Ну с правилами транслитерации не так всё сложно.
>>Можно ведь использовать правила, принятые в KOI8-R.
>
>Это какие? Для того-же китайского/французского/etc?
Для русского.
Ведь KOI8-R - кодировка для русского языка. Правда ведь? ;-)
>>А вообще, мы находимся в переходном периоде. И писать имена файлов не
>>латиницей не есть хорошо, т.к. у тех же клиентов может стоять
>>вовсе не юникод.
>
>У клиентов, очень вероятно, стоит Винда, а она юникодные имена прекрасно понимает.
Винда... винда... ви...
Что же теперь.
Если кто-то когда-то что-то сделал неправильно, то теперь эту ошибку надо экстраполировать в бесконечность.
Большенству народа не нужно писать на всех языках сразу.
Обычно ограничиваются двумя-тремя.
Один из них родной(допустим не латинского лагеря), другие два латинского(имхо в большенстве случаев).
А процент полиглотов, знающих все наречия стран Африки+мертвые языки, пусть сам извращается, раз умный такой.
А, вообще, я не есть жесткий ненавистник юникода.
Просто решить проблему - "дофигакодировок" можно и по другому.
Если у стула одна ножка длинее, не надо брать топор, разрубать в куски стул, а потом делать новый с большим количеством ножек.
С таким расчетом, что если снова одна ножка окажется длинее, стул будет стоять за счет большого числа запасных ножек.
К кодировкам: зачем уничтожать все и создавать ещё одну, когда можно оставить одну и отказаться от остальных.
Например, оставить KOI8-R. ;-)
А правда, что из 65536 символов в юникоде не используются 40000?
Если да, то там совсем разжирели.
Интеловцы вон бьются за каждый бит, дабы сделать код команды процессора короче. А тут такое.
>>Не лучшая идея таскать такую информацию как долговая расписка на дискете.
>>Так можно никогда не получить долг обратно. ;-)
>
>Копию - можно.
Копию можно таскать в виде SQL сценария.
>> PID USER
>>PR  NI                    VIRT  RES  SHR S %CPU %MEM TIME+    COMMAND
>>835 Akademic       9   0  3724 3720 1668 S  0.0  1.0  0:01.71 links
>>838 Akademic       9   0  1248 1244  948 S  0.0  0.3  0:00.01 links
>>
>
>Т.е. несколько байт из 24 мег. На мой взгляд, не существенно.
Ну нда.
А память идет не только на броузеры, но и на вирт. терминалы, bash, какой-нибудь mpg321,mc.
А при юникоде они тоже больше жрать станут.

Рекомендовать в FAQ | Cообщить модератору | Наверх

19. "KOI8-R или UTF-8?"

Сообщение от dev (??) on 28-Дек-04, 16:14  (MSK)

>
>>Ну если ты в KOI8 чего-нибудь интересное по китайски напишешь - то
>>можно :)
>
>А оно надо?
>Я, конечно, понимаю, что китайский язык - один из самых распространенных.
>Но говорят на нем, в подавляющем большинстве случаев, китайцы.
>Оставить им собственную - китайскую кодировку - и нет проблем.
>Вам-то зачем этот китайский?
Мне, к примеру, немецкий нужен. Я знаю людей, говорящих (и пишущих) на японском, французском, арабском, украинском, китайском, испанском, хинди, вьетнамском. Какую кодировку им выбрать?
>>И с именами файлов не все так просто, как обсуждается ниже.
>>Но ведь есть еще и содержимое этих файлов. Зачем использовать разные подходы
>>для имен файлов и их содержимого?
>
>Какие же это разные подходы:
>Имена файлов - латиницей(в KOI8-R (ну это неважно, ибо латиница во всех
>кодировках одинакова))
>Содержимое файлов смешанное - английский+русский (в KOI8-R).
Ну так почему содержимое файла тоже латиницей не записывать? Проблем с кодировками никаких.
>А насчет опять же китайского - много вы знаете людей проживающих в
>России, которые говорят по китайски, а тем паче на нем пишут?
А что, кроме России других стран нет?
>Французский язык - тоже не пример.
>В нем все буквы(за некоторым м.б. исключением) такие же как в английском.
Почти - не считается.
>>>Ну с правилами транслитерации не так всё сложно.
>>>Можно ведь использовать правила, принятые в KOI8-R.
>>
>>Это какие? Для того-же китайского/французского/etc?
>
>Для русского.
>Ведь KOI8-R - кодировка для русского языка. Правда ведь? ;-)
Ну там в этом и проблема.
>Винда... винда... ви...
>Что же теперь.
>Если кто-то когда-то что-то сделал неправильно, то теперь эту ошибку надо экстраполировать
>в бесконечность.
Американцы сделали ошибку при создании ASCII - они не знали о существовании других алфавитов. КОИ была сделана для исправления этой ошибки в частном случае. Ну так зачем эту ошибку "экстраполировать в бесконечность"?
>Большенству народа не нужно писать на всех языках сразу.
>Обычно ограничиваются двумя-тремя.
>Один из них родной(допустим не латинского лагеря), другие два латинского(имхо в большенстве
>случаев).
Нет. Я знаю несколько сот тысячь примеров, когда это не так.
>К кодировкам: зачем уничтожать все и создавать ещё одну, когда можно оставить
>одну и отказаться от остальных.
>Например, оставить KOI8-R. ;-)
Возвращаемся к китайскому...
>>>Не лучшая идея таскать такую информацию как долговая расписка на дискете.
>>>Так можно никогда не получить долг обратно. ;-)
>>
>>Копию - можно.
>
>Копию можно таскать в виде SQL сценария.
Ухожу, ухожу.
>Ну нда.
>А память идет не только на броузеры, но и на вирт. терминалы,
>bash, какой-нибудь mpg321,mc.
>А при юникоде они тоже больше жрать станут.
Переставь на юникод и посмотри, насколько больше памяти используется.

Рекомендовать в FAQ | Cообщить модератору | Наверх

20. "KOI8-R или UTF-8?"

Сообщение от Akademic (??) on 28-Дек-04, 16:53  (MSK)

>Мне, к примеру, немецкий нужен. Я знаю людей, говорящих (и пишущих) на
>японском, французском, арабском, украинском, китайском, испанском, хинди, вьетнамском. Какую кодировку им
>выбрать?
Эти люди одновременно на всех этих языках пишут?
Представляю себе какой-нибудь отчёт, написанный на смеси японского, французскго, арабскго, украинскго, китайскго, испанскго, хинди и вьетнамскго.
Повторяю: В одном тексте более двух языков одновременно - не нужно.
А по-немецки можно и стандартной латиницей(сам писал).
С умлаутами, конечно, тяжко, но выход найти можно(и он не utf8).
>Ну так почему содержимое файла тоже латиницей не записывать? Проблем с кодировками
>никаких.
Если для РУССКОГО теккста будет одна KOI8-R.
Проблем с кодировками тоже не будет.
>>А насчет опять же китайского - много вы знаете людей проживающих в
>>России, которые говорят по китайски, а тем паче на нем пишут?
>
>А что, кроме России других стран нет?
Это проблемы "других стран".
Каждой стране по своей кодировке! ;-)

>>Винда... винда... ви...
>>Что же теперь.
>>Если кто-то когда-то что-то сделал неправильно, то теперь эту ошибку надо экстраполировать
>>в бесконечность.
>
>Американцы сделали ошибку при создании ASCII - они не знали о существовании
>других алфавитов. КОИ была сделана для исправления этой ошибки в частном
>случае. Ну так зачем эту ошибку "экстраполировать в бесконечность"?
UNIX-подход, кстати, "Для каждой задачи - свой собственный совершенный инструмент."
KOI8-R для русского, ISO8859-15 - для европы, какая-нибудь ISO2022-CN - для китайцев.
Зачем нам молотко-ножницы-плоскогубцы-микроволновка, которой можно ещё и в ушах ковырять.
Фильм "Полицейский из Беверли Хиллз" смотрел?
Универсальность - не есть учшее решение.
Универсальные решения не оптимальны и содержат в себе много лишнего.
И нужны, в основном для абстрактных, теоретических случаев.
На практике, как правило используют отдельно взятое частное решение.
>>Большенству народа не нужно писать на всех языках сразу.
>>Обычно ограничиваются двумя-тремя.
>>Один из них родной(допустим не латинского лагеря), другие два латинского(имхо в большенстве
>>случаев).
>
>Нет. Я знаю несколько сот тысячь примеров, когда это не так.
Несколько сот тысяч людей пишущих сочинения на пяти языках сразу?
>>К кодировкам: зачем уничтожать все и создавать ещё одну, когда можно оставить
>>одну и отказаться от остальных.
>>Например, оставить KOI8-R. ;-)
>
>Возвращаемся к китайскому...
Дался вам этот китайский...
Здесь речь о русских кодировках.
>>Ну нда.
>>А память идет не только на броузеры, но и на вирт. терминалы,
>>bash, какой-нибудь mpg321,mc.
>>А при юникоде они тоже больше жрать станут.
>
>Переставь на юникод и посмотри, насколько больше памяти используется.
Нет уж, увольте.
"Нас и здесь неплохо кормят" ((с) Кот из мультика про попугая)
Факт в том, что больше, а на сколько это уже другой разговор.

Рекомендовать в FAQ | Cообщить модератору | Наверх

21. "KOI8-R или UTF-8?"

Сообщение от dev (??) on 28-Дек-04, 20:16  (MSK)

>>Мне, к примеру, немецкий нужен. Я знаю людей, говорящих (и пишущих) на
>>японском, французском, арабском, украинском, китайском, испанском, хинди, вьетнамском. Какую кодировку им
>>выбрать?
>
>Эти люди одновременно на всех этих языках пишут?
>Представляю себе какой-нибудь отчёт, написанный на смеси японского, французскго, арабскго, украинскго, китайскго,
>испанскго, хинди и вьетнамскго.
>Повторяю: В одном тексте более двух языков одновременно - не нужно.
Во первых, нужно. Показать книжку на четырех?
Во вторых, если эти два языка не укладываются в латинский алфавит, то какую кодировку использовать?
>А по-немецки можно и стандартной латиницей(сам писал).
>С умлаутами, конечно, тяжко, но выход найти можно(и он не utf8).
Без умляутов можно. Также, как и русский латиницей.
>>Ну так почему содержимое файла тоже латиницей не записывать? Проблем с кодировками
>>никаких.
>
>Если для РУССКОГО теккста будет одна KOI8-R.
>Проблем с кодировками тоже не будет.
1) она уже не одна
2) почему только РУССКИЙ?
>>>А насчет опять же китайского - много вы знаете людей проживающих в
>>>России, которые говорят по китайски, а тем паче на нем пишут?
>>
>>А что, кроме России других стран нет?
>
>Это проблемы "других стран".
>Каждой стране по своей кодировке! ;-)
Зачем?
>UNIX-подход, кстати, "Для каждой задачи - свой собственный совершенный инструмент."
>KOI8-R для русского, ISO8859-15 - для европы, какая-нибудь ISO2022-CN - для китайцев.
Зачем?
>Зачем нам молотко-ножницы-плоскогубцы-микроволновка, которой можно ещё и в ушах ковырять.
>Фильм "Полицейский из Беверли Хиллз" смотрел?
>Универсальность - не есть учшее решение.
>Универсальные решения не оптимальны и содержат в себе много лишнего.
>И нужны, в основном для абстрактных, теоретических случаев.
>На практике, как правило используют отдельно взятое частное решение.
Нет.
>Несколько сот тысяч людей пишущих сочинения на пяти языках сразу?
Да. Русский+немецкий, русский+иврит.
>Дался вам этот китайский...
>Здесь речь о русских кодировках.
Где? Речь была о выборе "обычного пользователя". Его родной язык, знание других языков и страна проживания не конкретизировались.

Рекомендовать в FAQ | Cообщить модератору | Наверх

24. "KOI8-R или UTF-8?"

Сообщение от co6aka (ok) on 29-Дек-04, 15:20  (MSK)

Хотелось бы упомянуть что в koi8-r нет некоторых символов(которые щас нужны), а в cp1251(винда, винда, винда...) есть. Ну что будет делать обычный пользователь(как вариант знак евро)...?
IMHO: Потом обмен информацией сейчас велик и нет такого садика RU, а есть сообщество с разными языками. И полиглоты тут не при чем это современные требования интернет сообщества..

Рекомендовать в FAQ | Cообщить модератору | Наверх

25. "KOI8-R или UTF-8?"

Сообщение от co6aka (ok) on 29-Дек-04, 15:25  (MSK)

PS: :) ну например человек общается с малазийцем... пусть на русском. Но вот ведь хочется здрасте :) написать на малазийском, поздароваться с человеком на его родном языке... с соответсявии с его культурой... и что? это ограничивает!

Рекомендовать в FAQ | Cообщить модератору | Наверх

26. "KOI8-R или UTF-8?"

Сообщение от Akademic (??) on 29-Дек-04, 23:22  (MSK)

Ну всё люди.
У меня отрезали халявный инет и больше тут я распинаться не буду(хотя доводы ещё есть).
Аналогичная тема есть по http://www.linuxforum.ru/index.php?showtopic=1680
Почитайте там много умного.

Рекомендовать в FAQ | Cообщить модератору | Наверх

Удалить

Индекс форумов | Темы | Пред. тема | След. тема

Пожалуйста, прежде чем написать сообщение, ознакомьтесь с данными рекомендациями.

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2026 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. "KOI8-R или UTF-8?"
Сообщение от gyn61 (ok) on 24-Дек-04, 20:24 (MSK)
При UTF-8 вы можете например обозвать файл по русско-арабски-китайски, поскольку используется полный набор символов (это плюс). Однако не все еще программы умеют работать с UTF-8 (а это минус).
	Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	2. "KOI8-R или UTF-8?"
	Сообщение от Akademic (??) on 25-Дек-04, 10:58 (MSK)
	Программы со временем научатся понимать юникод. Главный минус - код символа занимает вместо одного байта - два. И вот за просто так мы получим удвоение трафика. А обзывать файлы на языках кроме английского - происки Билла, который Гейтс. И выгодно только микрософту. Главная проблема с кодировками в том, что существует много русскоязычнах кодировок: cp1251,IBM866,ISO8859-5, ну и KOI8-R. Издавна, большенство юниксоидов отдают предпочтение KOI8-R. Т.к. когда рождался русский юникс(Демос) много(да почти все) программ работало только с 7-ми битной кодировкой. И если текст написан в KOI8-R его можно было(и сейчас можно) читать как транслит. Проблема с KOI8-R в том, что буквы идут не по порядку, поэтому сортировать строки путём простого сравнения ASCII кодов нельзя. Видимо, именно поэтому компании микрософт и IBM решили использовать сои кодировки. Да и ISO, наверное, тоже. А теперь мы имеем что имеем. И над тем что имеем извращаемся. Юникод здесь призван послужить объединяющим фактором не только внутри многообразия кирилических кодровок, но и вообще всех. А пока у меня инет по модему - я на юникод несогласный.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	3. "KOI8-R или UTF-8?"
	Сообщение от Vertical (ok) on 25-Дек-04, 18:44 (MSK)
	Спасибо, но я все таки не понял главного - что выбирать обычному пользователю? Какие программы (из разряда критических) не понимают уникод? Помнится, когда я менял кодировку с UTF на KOI8 в FC2 несколько программ (одна из них- system-config-network) на русском перестали нормально отображать русские символы. SCN вообще не отображала нормально только список возможных интерфейсов, все остальное было нормально. В целом все это было настолько некритично, что я так и не понял, чему я должен отдать препочтение.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	4. "KOI8-R или UTF-8?"
	Сообщение от Sampan on 25-Дек-04, 20:30 (MSK)
	>Спасибо, но я все таки не понял главного - что выбирать обычному пользователю? Сначала подумай о том, что, наверное, более 90% рускоязычных текстов, существующих в электронном виде, набраны в CP1251 кодировке. (Сие есть объективная реальность, нравится это кому-то или нет). А уж потом выбирай кодировку. И абсолютно не важно, кто виноват в каше русских кодировок. Если ты будешь знать злодея по имени и в лицо, перекодировать CP1251 - KOI8R (или UTF8) легче не станет.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	7. "KOI8-R или UTF-8?"
	Сообщение от Akademic (??) on 26-Дек-04, 13:38 (MSK)
	>Сначала подумай о том, что, наверное, более 90% рускоязычных текстов, существующих в >электронном виде, набраны в CP1251 кодировке. (Сие есть объективная реальность, нравится >это кому-то или нет). А уж потом выбирай кодировку. А набраны - потому что винда. Кстати, сейчас микрософт переходит на юникод и все тексты под виндой будут набираться в юникоде. Большнство документов станут в нём. В ХР вроде ещё cp1251, но в Longhorn'е уже стопудово юникод.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	11. "KOI8-R или UTF-8?"
	Сообщение от Sampan on 27-Дек-04, 05:32 (MSK)
	>А набраны - потому что винда. Какая разница почему! Важно, что СР1251 >Кстати, сейчас микрософт переходит на юникод и все тексты под виндой будут набираться в юникоде. Кстати, Микрософт уже давно перешел на юникод (аж в 2000 году - W2K). Погляди в папку "Шрифты". Все, что помечено OpenType - юникод. Даже notepad умеет читать и сохранять в юникоде. И что изменилось за эти 5 лет? >Большнство документов станут в нём. Да? Блажен, кто верует! Ну и кто же возьмется перекодировать, например, огромный text/plain архив из СР1251 в юникод в библиотеке Мошкова? Уж точно не Микрософт. А само оно, как-то, не сделается..
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	13. "KOI8-R или UTF-8?"
	Сообщение от Akademic (??) on 27-Дек-04, 13:07 (MSK)
	>Кстати, Микрософт уже давно перешел на юникод (аж в 2000 году - >W2K). Погляди в папку "Шрифты". Все, что помечено OpenType - юникод. >Даже notepad умеет читать и сохранять в юникоде. И что изменилось >за эти 5 лет? Я как-то за этим не очень следил. Ну перешли и перешли. Просто, я считаю, что именно в новой винде будет сделан больший упор на юникод. В том смысле, что по умолчанию документы будут набираться в нем. А т.к. винды давно держат юникод, то проблем с совместимостью не предвидется. Ибо микрософт уже подготовила почву. >Да? Блажен, кто верует! >Ну и кто же возьмется перекодировать, например, огромный text/plain архив из СР1251 >в юникод в библиотеке Мошкова? Уж точно не Микрософт. А само >оно, как-то, не сделается.. Существуют же программы перекодировщики вроде QtextTransformer'а. Вот натравить такую на библиотеку, и по прошествии времени всё станет так. Но это к товарищу dev - он большой поклонник utf8. ;-)
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	17. "KOI8-R или UTF-8?"
	Сообщение от dev (??) on 28-Дек-04, 01:56 (MSK)
	>>Да? Блажен, кто верует! >>Ну и кто же возьмется перекодировать, например, огромный text/plain архив из СР1251 >>в юникод в библиотеке Мошкова? Уж точно не Микрософт. А само >>оно, как-то, не сделается.. > >Существуют же программы перекодировщики вроде QtextTransformer'а. >Вот натравить такую на библиотеку, и по прошествии времени всё станет так. > >Но это к товарищу dev - он большой поклонник utf8. ;-) Это делается за час iconv'ом.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	22. "KOI8-R или UTF-8?"
	Сообщение от Аноним on 29-Дек-04, 11:53 (MSK)
	>>А набраны - потому что винда. > >Какая разница почему! Важно, что СР1251 > >>Кстати, сейчас микрософт переходит на юникод и все тексты под виндой будут набираться в юникоде. > >Кстати, Микрософт уже давно перешел на юникод (аж в 2000 году - >W2K). Погляди в папку "Шрифты". Все, что помечено OpenType - юникод. >Даже notepad умеет читать и сохранять в юникоде. И что изменилось >за эти 5 лет? > >>Большнство документов станут в нём. > >Да? Блажен, кто верует! >Ну и кто же возьмется перекодировать, например, огромный text/plain архив из СР1251 >в юникод в библиотеке Мошкова? Уж точно не Микрософт. А само >оно, как-то, не сделается.. > Идиот вы батенька, в Windows есть юникод, НО! 1) notepad ==cp866 2) NTFS==CP1251 И так во всём WINDOWS XP А то что они там чем то помечены. Так это правило M$ пометить, сказать "выполнено" и пользоваться кашей как это было во всей линейки WIN9X
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	23. "KOI8-R или UTF-8?"
	Сообщение от Nikola (??) on 29-Дек-04, 11:55 (MSK)
	Кстати iconv справится с перекодировкой текста из plain text на 5 с + Именно его и использую для перекодировки из cp1251 cp866==>KOI8-R
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	5. "KOI8-R или UTF-8?"
	Сообщение от dev (??) on 26-Дек-04, 01:22 (MSK)
	>Главный минус - код символа занимает вместо одного байта - два. В UTF-8 - не всегда. >А обзывать файлы на языках кроме английского - происки Билла, который Гейтс. Спорный вопрос. Ну а что делать с содежимым этох файлов? Например, попытайся записать в текстовый файл русско-немецкий словарь. >А пока у меня инет по модему - я на юникод несогласный. А как ты думаешь, на сколько возрастет объем средней веб-странички, если ее перевести из KOI8 в UTF-8? А если со сжатием? Можно проверить, например, на этом треде. У меня получилось ~10%.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	6. "KOI8-R или UTF-8?"
	Сообщение от Akademic (??) on 26-Дек-04, 13:32 (MSK)
	>Спорный вопрос. Ну а что делать с содежимым этох файлов? Например, попытайся >записать в текстовый файл русско-немецкий словарь. Имхо это есть не проблема кодировки, а используемых шрифтов. Хотелось бы посмотреть на полную юникод клавиатуру ;-) Имена файлов представляют, имхо, бОльшую проблему. Буквально вчера мне принесли дискету. На ней rar архив, названный русскими буквами(я так думаю в юникоде). Ладно, при копировании имя переконвертировалось в KOI8-R. Внутри архива доки тоже с русскими именами(тоже в юникоде) - страшные крякозяблы. Программами не открывается, переименовываться не хочет. >А как ты думаешь, на сколько возрастет объем средней веб-странички, если ее >перевести из KOI8 в UTF-8? А если со сжатием? >Можно проверить, например, на этом треде. У меня получилось ~10%. Десять процентов - достаточно много для меня. К тому же, есть сжатие - нет его. На конечном компьютере в памяти юникод символ всё равно 2 байта. Да, конечно, сейчас памяти много и т.п. Но мне на моей AMD K5 90MHz с 24Mb оперативы от этого не легче.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	8. "KOI8-R или UTF-8?"
	Сообщение от dev (??) on 26-Дек-04, 14:09 (MSK)
	>Имхо это есть не проблема кодировки, а используемых шрифтов. Нет. Шрифты юникодные уже есть и очень распространены. Проблема с содержимым файлов. >Хотелось бы посмотреть на полную юникод клавиатуру ;-) А она есть :) Alt+... в крайнем случае. А так, на обычной клаве, набираются практически все буквы западно-европейских алфавитов, надо только принцип знать. >Имена файлов представляют, имхо, бОльшую проблему. >Буквально вчера мне принесли дискету. >На ней rar архив, названный русскими буквами(я так думаю в юникоде). >Ладно, при копировании имя переконвертировалось в KOI8-R. >Внутри архива доки тоже с русскими именами(тоже в юникоде) - страшные крякозяблы. >Программами не открывается, переименовываться не хочет. Ну это не проблемы юникода, а проблемы глючных программ. А по поводу именования файлов: к примеру, есть документ "Долговая расписка Махмеда Махмедовича Аглы". Как его назвать латиницей? Как его потом искать? >>А как ты думаешь, на сколько возрастет объем средней веб-странички, если ее >>перевести из KOI8 в UTF-8? А если со сжатием? >>Можно проверить, например, на этом треде. У меня получилось ~10%. > >Десять процентов - достаточно много для меня. Т.е. у тебя при серфинге отключены картинки и ты ходишь в Инет через канал со сжатием? >К тому же, есть сжатие - нет его. >На конечном компьютере в памяти юникод символ всё равно 2 байта. >Да, конечно, сейчас памяти много и т.п. >Но мне на моей AMD K5 90MHz с 24Mb оперативы от этого >не легче. И насколько больше памяти требует твой браузер при просмотре юникодных страничек?
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	9. "KOI8-R или UTF-8?"
	Сообщение от Akademic (ok) on 26-Дек-04, 14:33 (MSK)
	>>Имхо это есть не проблема кодировки, а используемых шрифтов. > >Нет. Шрифты юникодные уже есть и очень распространены. >Проблема с содержимым файлов. Да я не про отсутствие юникодных шрифтов, а про выбор шрифта, в котором есть соответствующие символы. То есть просто надо выбрать такой шрифт и писать. >Ну это не проблемы юникода, а проблемы глючных программ. Ну положим LinRAR не знает, да и не должен знать, что внутри его архива есть имена файлов в разных кодировках. Да ещё к тому же отличных от локали. >А по поводу именования файлов: к примеру, есть документ "Долговая расписка Махмеда >Махмедовича Аглы". Как его назвать латиницей? Как его потом искать? Dolgovaya_raspiska_Mahmeda_Mahmedovicha_Agly ;-) Так и искать. А лучше закидывать такие сведения в БД. >Т.е. у тебя при серфинге отключены картинки и ты ходишь в Инет >через канал со сжатием? Да. >И насколько больше памяти требует твой браузер при просмотре юникодных страничек? Дай адрес юникодной странички - посмотрю. А то пробежался по нескольким - всё koi8-r, cp1251, и даже IBM866.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	10. "KOI8-R или UTF-8?"
	Сообщение от dev (??) on 27-Дек-04, 02:09 (MSK)
	>Да я не про отсутствие юникодных шрифтов, а про выбор шрифта, в >котором есть соответствующие символы. То есть просто надо выбрать такой шрифт >и писать. Ну какой шрифт может быть в текстовом файле. Проблема именно с кодировкой. >>Ну это не проблемы юникода, а проблемы глючных программ. >Ну положим LinRAR не знает, да и не должен знать, что внутри >его архива есть имена файлов в разных кодировках. Да ещё к >тому же отличных от локали. Точно. Поэтому надо везде использовать UTF-8 и проблем не будет. >>А по поводу именования файлов: к примеру, есть документ "Долговая расписка Махмеда >>Махмедовича Аглы". Как его назвать латиницей? Как его потом искать? > >Dolgovaya_raspiska_Mahmeda_Mahmedovicha_Agly ;-) >Так и искать. А как гарантировать, что у всей фирмы будут одни и теже правила транслитерации? А у клиентов? >А лучше закидывать такие сведения в БД. БД еще сделать надо. И на дискетке ее особо не потаскаешь. >>Т.е. у тебя при серфинге отключены картинки и ты ходишь в Инет >>через канал со сжатием? > >Да. Ок, сжимай bzip2-ом, разница на десятые доли процента (10212 и 10232 байт). Примечание: я догадываюсь о недостатках этого метода. >>И насколько больше памяти требует твой браузер при просмотре юникодных страничек? > >Дай адрес юникодной странички - посмотрю. >А то пробежался по нескольким - всё koi8-r, cp1251, и даже IBM866. Этот тред, сохраненый в обоих кодировках: http://www.26th.net/public/tmp/koi8.html http://www.26th.net/public/tmp/utf8.html
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	12. "KOI8-R или UTF-8?"
	Сообщение от Akademic (??) on 27-Дек-04, 12:56 (MSK)
	>>>Ну это не проблемы юникода, а проблемы глючных программ. >>Ну положим LinRAR не знает, да и не должен знать, что внутри >>его архива есть имена файлов в разных кодировках. Да ещё к >>тому же отличных от локали. > >Точно. Поэтому надо везде использовать UTF-8 и проблем не будет. А я могу сказать: Точно. Поэтому надо везде использовать KOI8-R и проблем не будет. Или все имена файлов писать латиницей. >>>А по поводу именования файлов: к примеру, есть документ "Долговая расписка Махмеда >>>Махмедовича Аглы". Как его назвать латиницей? Как его потом искать? >> >>Dolgovaya_raspiska_Mahmeda_Mahmedovicha_Agly ;-) >>Так и искать. > >А как гарантировать, что у всей фирмы будут одни и теже правила >транслитерации? А у клиентов? Ну с правилами транслитерации не так всё сложно. Можно ведь использовать правила, принятые в KOI8-R. Тут всё дело в договорённости. А вообще, мы находимся в переходном периоде. И писать имена файлов не латиницей не есть хорошо, т.к. у тех же клиентов может стоять вовсе не юникод. >>А лучше закидывать такие сведения в БД. > >БД еще сделать надо. И на дискетке ее особо не потаскаешь. Не лучшая идея таскать такую информацию как долговая расписка на дискете. Так можно никогда не получить долг обратно. ;-) >>>И насколько больше памяти требует твой браузер при просмотре юникодных страничек? >> >>Дай адрес юникодной странички - посмотрю. >>А то пробежался по нескольким - всё koi8-r, cp1251, и даже IBM866. > >Этот тред, сохраненый в обоих кодировках: >http://www.26th.net/public/tmp/koi8.html >http://www.26th.net/public/tmp/utf8.html PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 835 Akademic 9 0 3724 3720 1668 S 0.0 1.0 0:01.71 links 838 Akademic 9 0 1248 1244 948 S 0.0 0.3 0:00.01 links 835 при переходе по utf8 ссылке 838 при переходе по koi8-r ссылке Странно(для меня), но в обоих случаях при установке в настройках кодировки koi8-r русские буквы видны.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	14. "KOI8-R или UTF-8?"
	Сообщение от co6aka (ok) on 27-Дек-04, 15:05 (MSK)
	Ага :) а ты коперни текст с этой странички... например в терминал где koi8 !!!
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	15. "KOI8-R или UTF-8?"
	Сообщение от Akademic (??) on 27-Дек-04, 15:39 (MSK)
	>Ага :) а ты коперни текст с этой странички... например в терминал >где koi8 !!! И что должно получиться? У меня всё равно русские буквы видно.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	16. "KOI8-R или UTF-8?"
	Сообщение от dev (??) on 28-Дек-04, 01:55 (MSK)
	>>Точно. Поэтому надо везде использовать UTF-8 и проблем не будет. > >А я могу сказать: Точно. Поэтому надо везде использовать KOI8-R и проблем >не будет. Ну если ты в KOI8 чего-нибудь интересное по китайски напишешь - то можно :) >Или все имена файлов писать латиницей. И с именами файлов не все так просто, как обсуждается ниже. Но ведь есть еще и содержимое этих файлов. Зачем использовать разные подходы для имен файлов и их содержимого? >Ну с правилами транслитерации не так всё сложно. >Можно ведь использовать правила, принятые в KOI8-R. Это какие? Для того-же китайского/французского/etc? >А вообще, мы находимся в переходном периоде. И писать имена файлов не >латиницей не есть хорошо, т.к. у тех же клиентов может стоять >вовсе не юникод. У клиентов, очень вероятно, стоит Винда, а она юникодные имена прекрасно понимает. Но речь ведь не о том, стану ли я кому-то отдавать файл с нелатинским именем, а о том, нужно ли это в принципе. Нужно, иначе с тем же успехом можно нумеровать файлы. >Не лучшая идея таскать такую информацию как долговая расписка на дискете. >Так можно никогда не получить долг обратно. ;-) Копию - можно. > PID USER >PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND >835 Akademic 9 0 3724 3720 1668 S 0.0 1.0 0:01.71 links >838 Akademic 9 0 1248 1244 948 S 0.0 0.3 0:00.01 links > Т.е. несколько байт из 24 мег. На мой взгляд, не существенно. >Странно(для меня), но в обоих случаях при установке в настройках кодировки koi8-r >русские буквы видны. В принципе, браузер внутри должен преобразовывать все в одну кодировку и только потом показывать.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	18. "KOI8-R или UTF-8?"
	Сообщение от Akademic (??) on 28-Дек-04, 13:15 (MSK)
	>Ну если ты в KOI8 чего-нибудь интересное по китайски напишешь - то >можно :) А оно надо? Я, конечно, понимаю, что китайский язык - один из самых распространенных. Но говорят на нем, в подавляющем большинстве случаев, китайцы. Оставить им собственную - китайскую кодировку - и нет проблем. Вам-то зачем этот китайский? >И с именами файлов не все так просто, как обсуждается ниже. >Но ведь есть еще и содержимое этих файлов. Зачем использовать разные подходы >для имен файлов и их содержимого? Какие же это разные подходы: Имена файлов - латиницей(в KOI8-R (ну это неважно, ибо латиница во всех кодировках одинакова)) Содержимое файлов смешанное - английский+русский (в KOI8-R). А насчет опять же китайского - много вы знаете людей проживающих в России, которые говорят по китайски, а тем паче на нем пишут? Французский язык - тоже не пример. В нем все буквы(за некоторым м.б. исключением) такие же как в английском. Более того даже слова пишутся одинаково - различия в произношении. >>Ну с правилами транслитерации не так всё сложно. >>Можно ведь использовать правила, принятые в KOI8-R. > >Это какие? Для того-же китайского/французского/etc? Для русского. Ведь KOI8-R - кодировка для русского языка. Правда ведь? ;-) >>А вообще, мы находимся в переходном периоде. И писать имена файлов не >>латиницей не есть хорошо, т.к. у тех же клиентов может стоять >>вовсе не юникод. > >У клиентов, очень вероятно, стоит Винда, а она юникодные имена прекрасно понимает. Винда... винда... ви... Что же теперь. Если кто-то когда-то что-то сделал неправильно, то теперь эту ошибку надо экстраполировать в бесконечность. Большенству народа не нужно писать на всех языках сразу. Обычно ограничиваются двумя-тремя. Один из них родной(допустим не латинского лагеря), другие два латинского(имхо в большенстве случаев). А процент полиглотов, знающих все наречия стран Африки+мертвые языки, пусть сам извращается, раз умный такой. А, вообще, я не есть жесткий ненавистник юникода. Просто решить проблему - "дофигакодировок" можно и по другому. Если у стула одна ножка длинее, не надо брать топор, разрубать в куски стул, а потом делать новый с большим количеством ножек. С таким расчетом, что если снова одна ножка окажется длинее, стул будет стоять за счет большого числа запасных ножек. К кодировкам: зачем уничтожать все и создавать ещё одну, когда можно оставить одну и отказаться от остальных. Например, оставить KOI8-R. ;-) А правда, что из 65536 символов в юникоде не используются 40000? Если да, то там совсем разжирели. Интеловцы вон бьются за каждый бит, дабы сделать код команды процессора короче. А тут такое. >>Не лучшая идея таскать такую информацию как долговая расписка на дискете. >>Так можно никогда не получить долг обратно. ;-) > >Копию - можно. Копию можно таскать в виде SQL сценария. >> PID USER >>PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND >>835 Akademic 9 0 3724 3720 1668 S 0.0 1.0 0:01.71 links >>838 Akademic 9 0 1248 1244 948 S 0.0 0.3 0:00.01 links >> > >Т.е. несколько байт из 24 мег. На мой взгляд, не существенно. Ну нда. А память идет не только на броузеры, но и на вирт. терминалы, bash, какой-нибудь mpg321,mc. А при юникоде они тоже больше жрать станут.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	19. "KOI8-R или UTF-8?"
	Сообщение от dev (??) on 28-Дек-04, 16:14 (MSK)
	> >>Ну если ты в KOI8 чего-нибудь интересное по китайски напишешь - то >>можно :) > >А оно надо? >Я, конечно, понимаю, что китайский язык - один из самых распространенных. >Но говорят на нем, в подавляющем большинстве случаев, китайцы. >Оставить им собственную - китайскую кодировку - и нет проблем. >Вам-то зачем этот китайский? Мне, к примеру, немецкий нужен. Я знаю людей, говорящих (и пишущих) на японском, французском, арабском, украинском, китайском, испанском, хинди, вьетнамском. Какую кодировку им выбрать? >>И с именами файлов не все так просто, как обсуждается ниже. >>Но ведь есть еще и содержимое этих файлов. Зачем использовать разные подходы >>для имен файлов и их содержимого? > >Какие же это разные подходы: >Имена файлов - латиницей(в KOI8-R (ну это неважно, ибо латиница во всех >кодировках одинакова)) >Содержимое файлов смешанное - английский+русский (в KOI8-R). Ну так почему содержимое файла тоже латиницей не записывать? Проблем с кодировками никаких. >А насчет опять же китайского - много вы знаете людей проживающих в >России, которые говорят по китайски, а тем паче на нем пишут? А что, кроме России других стран нет? >Французский язык - тоже не пример. >В нем все буквы(за некоторым м.б. исключением) такие же как в английском. Почти - не считается. >>>Ну с правилами транслитерации не так всё сложно. >>>Можно ведь использовать правила, принятые в KOI8-R. >> >>Это какие? Для того-же китайского/французского/etc? > >Для русского. >Ведь KOI8-R - кодировка для русского языка. Правда ведь? ;-) Ну там в этом и проблема. >Винда... винда... ви... >Что же теперь. >Если кто-то когда-то что-то сделал неправильно, то теперь эту ошибку надо экстраполировать >в бесконечность. Американцы сделали ошибку при создании ASCII - они не знали о существовании других алфавитов. КОИ была сделана для исправления этой ошибки в частном случае. Ну так зачем эту ошибку "экстраполировать в бесконечность"? >Большенству народа не нужно писать на всех языках сразу. >Обычно ограничиваются двумя-тремя. >Один из них родной(допустим не латинского лагеря), другие два латинского(имхо в большенстве >случаев). Нет. Я знаю несколько сот тысячь примеров, когда это не так. >К кодировкам: зачем уничтожать все и создавать ещё одну, когда можно оставить >одну и отказаться от остальных. >Например, оставить KOI8-R. ;-) Возвращаемся к китайскому... >>>Не лучшая идея таскать такую информацию как долговая расписка на дискете. >>>Так можно никогда не получить долг обратно. ;-) >> >>Копию - можно. > >Копию можно таскать в виде SQL сценария. Ухожу, ухожу. >Ну нда. >А память идет не только на броузеры, но и на вирт. терминалы, >bash, какой-нибудь mpg321,mc. >А при юникоде они тоже больше жрать станут. Переставь на юникод и посмотри, насколько больше памяти используется.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	20. "KOI8-R или UTF-8?"
	Сообщение от Akademic (??) on 28-Дек-04, 16:53 (MSK)
	>Мне, к примеру, немецкий нужен. Я знаю людей, говорящих (и пишущих) на >японском, французском, арабском, украинском, китайском, испанском, хинди, вьетнамском. Какую кодировку им >выбрать? Эти люди одновременно на всех этих языках пишут? Представляю себе какой-нибудь отчёт, написанный на смеси японского, французскго, арабскго, украинскго, китайскго, испанскго, хинди и вьетнамскго. Повторяю: В одном тексте более двух языков одновременно - не нужно. А по-немецки можно и стандартной латиницей(сам писал). С умлаутами, конечно, тяжко, но выход найти можно(и он не utf8). >Ну так почему содержимое файла тоже латиницей не записывать? Проблем с кодировками >никаких. Если для РУССКОГО теккста будет одна KOI8-R. Проблем с кодировками тоже не будет. >>А насчет опять же китайского - много вы знаете людей проживающих в >>России, которые говорят по китайски, а тем паче на нем пишут? > >А что, кроме России других стран нет? Это проблемы "других стран". Каждой стране по своей кодировке! ;-) >>Винда... винда... ви... >>Что же теперь. >>Если кто-то когда-то что-то сделал неправильно, то теперь эту ошибку надо экстраполировать >>в бесконечность. > >Американцы сделали ошибку при создании ASCII - они не знали о существовании >других алфавитов. КОИ была сделана для исправления этой ошибки в частном >случае. Ну так зачем эту ошибку "экстраполировать в бесконечность"? UNIX-подход, кстати, "Для каждой задачи - свой собственный совершенный инструмент." KOI8-R для русского, ISO8859-15 - для европы, какая-нибудь ISO2022-CN - для китайцев. Зачем нам молотко-ножницы-плоскогубцы-микроволновка, которой можно ещё и в ушах ковырять. Фильм "Полицейский из Беверли Хиллз" смотрел? Универсальность - не есть учшее решение. Универсальные решения не оптимальны и содержат в себе много лишнего. И нужны, в основном для абстрактных, теоретических случаев. На практике, как правило используют отдельно взятое частное решение. >>Большенству народа не нужно писать на всех языках сразу. >>Обычно ограничиваются двумя-тремя. >>Один из них родной(допустим не латинского лагеря), другие два латинского(имхо в большенстве >>случаев). > >Нет. Я знаю несколько сот тысячь примеров, когда это не так. Несколько сот тысяч людей пишущих сочинения на пяти языках сразу? >>К кодировкам: зачем уничтожать все и создавать ещё одну, когда можно оставить >>одну и отказаться от остальных. >>Например, оставить KOI8-R. ;-) > >Возвращаемся к китайскому... Дался вам этот китайский... Здесь речь о русских кодировках. >>Ну нда. >>А память идет не только на броузеры, но и на вирт. терминалы, >>bash, какой-нибудь mpg321,mc. >>А при юникоде они тоже больше жрать станут. > >Переставь на юникод и посмотри, насколько больше памяти используется. Нет уж, увольте. "Нас и здесь неплохо кормят" ((с) Кот из мультика про попугая) Факт в том, что больше, а на сколько это уже другой разговор.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	21. "KOI8-R или UTF-8?"
	Сообщение от dev (??) on 28-Дек-04, 20:16 (MSK)
	>>Мне, к примеру, немецкий нужен. Я знаю людей, говорящих (и пишущих) на >>японском, французском, арабском, украинском, китайском, испанском, хинди, вьетнамском. Какую кодировку им >>выбрать? > >Эти люди одновременно на всех этих языках пишут? >Представляю себе какой-нибудь отчёт, написанный на смеси японского, французскго, арабскго, украинскго, китайскго, >испанскго, хинди и вьетнамскго. >Повторяю: В одном тексте более двух языков одновременно - не нужно. Во первых, нужно. Показать книжку на четырех? Во вторых, если эти два языка не укладываются в латинский алфавит, то какую кодировку использовать? >А по-немецки можно и стандартной латиницей(сам писал). >С умлаутами, конечно, тяжко, но выход найти можно(и он не utf8). Без умляутов можно. Также, как и русский латиницей. >>Ну так почему содержимое файла тоже латиницей не записывать? Проблем с кодировками >>никаких. > >Если для РУССКОГО теккста будет одна KOI8-R. >Проблем с кодировками тоже не будет. 1) она уже не одна 2) почему только РУССКИЙ? >>>А насчет опять же китайского - много вы знаете людей проживающих в >>>России, которые говорят по китайски, а тем паче на нем пишут? >> >>А что, кроме России других стран нет? > >Это проблемы "других стран". >Каждой стране по своей кодировке! ;-) Зачем? >UNIX-подход, кстати, "Для каждой задачи - свой собственный совершенный инструмент." >KOI8-R для русского, ISO8859-15 - для европы, какая-нибудь ISO2022-CN - для китайцев. Зачем? >Зачем нам молотко-ножницы-плоскогубцы-микроволновка, которой можно ещё и в ушах ковырять. >Фильм "Полицейский из Беверли Хиллз" смотрел? >Универсальность - не есть учшее решение. >Универсальные решения не оптимальны и содержат в себе много лишнего. >И нужны, в основном для абстрактных, теоретических случаев. >На практике, как правило используют отдельно взятое частное решение. Нет. >Несколько сот тысяч людей пишущих сочинения на пяти языках сразу? Да. Русский+немецкий, русский+иврит. >Дался вам этот китайский... >Здесь речь о русских кодировках. Где? Речь была о выборе "обычного пользователя". Его родной язык, знание других языков и страна проживания не конкретизировались.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	24. "KOI8-R или UTF-8?"
	Сообщение от co6aka (ok) on 29-Дек-04, 15:20 (MSK)
	Хотелось бы упомянуть что в koi8-r нет некоторых символов(которые щас нужны), а в cp1251(винда, винда, винда...) есть. Ну что будет делать обычный пользователь(как вариант знак евро)...? IMHO: Потом обмен информацией сейчас велик и нет такого садика RU, а есть сообщество с разными языками. И полиглоты тут не при чем это современные требования интернет сообщества..
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	25. "KOI8-R или UTF-8?"
	Сообщение от co6aka (ok) on 29-Дек-04, 15:25 (MSK)
	PS: :) ну например человек общается с малазийцем... пусть на русском. Но вот ведь хочется здрасте :) написать на малазийском, поздароваться с человеком на его родном языке... с соответсявии с его культурой... и что? это ограничивает!
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	26. "KOI8-R или UTF-8?"
	Сообщение от Akademic (??) on 29-Дек-04, 23:22 (MSK)
	Ну всё люди. У меня отрезали халявный инет и больше тут я распинаться не буду(хотя доводы ещё есть). Аналогичная тема есть по http://www.linuxforum.ru/index.php?showtopic=1680 Почитайте там много умного.
		Рекомендовать в FAQ \| Cообщить модератору \| Наверх