The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Выпуск утилиты GNU grep 3.4, opennews (?), 03-Янв-20, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


12. "Выпуск утилиты GNU grep 3.4"  +5 +/
Сообщение от bircoph (ok), 03-Янв-20, 14:08 
riggrep написан на rust, не учитывает особенности unicode (u(ss)->ß) и не портируем на некоторые современные и безопасные архитектуры.
Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

16. "Выпуск утилиты GNU grep 3.4"  –1 +/
Сообщение от Wilem (?), 03-Янв-20, 14:25 
Объясни по-подробнее про особенности utf8, что не так?
Ответить | Правка | Наверх | Cообщить модератору

21. "Выпуск утилиты GNU grep 3.4"  +/
Сообщение от Аноним (21), 03-Янв-20, 14:51 
Я не знаю, что он имел в виду, но венда тоже не умеет в utf8. По-моему я даже в бсод ронял 10 и кучу програм в ней всего 1 символом (совершенно валидным в линуксе), не знаю, починили ли с тех пор. Так что особенности есть.
Ответить | Правка | Наверх | Cообщить модератору

23. "Выпуск утилиты GNU grep 3.4"  –1 +/
Сообщение от Wilem (?), 03-Янв-20, 15:02 
https://snipboard.io/5E9mRX.jpg
Ответить | Правка | Наверх | Cообщить модератору

25. "Выпуск утилиты GNU grep 3.4"  –1 +/
Сообщение от Аноним (21), 03-Янв-20, 15:28 
> https://snipboard.io/5E9mRX.jpg

Там свой особенный утф8, мало общего имеющий со стандартом. Дело не в том, что он не отображается, а в том, что юникод в венде будет совершенно свой (и если использовать его, проблемы будут у других систем), а часть символов и вовсе вызовет бсод и инстакраши софта (передаю привет notepad++). В линуксах не крашится.

Ответить | Правка | Наверх | Cообщить модератору

28. "Выпуск утилиты GNU grep 3.4"  –1 +/
Сообщение от Wilem (?), 03-Янв-20, 15:45 
А что за символы с которыми крешится или которые несовместимы? Прям сейчас бы опробовал на винде и линуксе.
Ответить | Правка | Наверх | Cообщить модератору

30. "Выпуск утилиты GNU grep 3.4"  +/
Сообщение от Аноним (21), 03-Янв-20, 16:00 
> А что за символы с которыми крешится или которые несовместимы? Прям сейчас
> бы опробовал на винде и линуксе.

Я не помню, какие именно, но даже в википедии емнип было написано (в японской [1] так точно). Ну вот к примеру описываемые мной различия у вендоров [2].


[1] https://ja.wikipedia.org/wiki/Unicode
[2] https://web.archive.org/web/20110422181018/http://www.ingrid...

Ответить | Правка | Наверх | Cообщить модератору

67. "Выпуск утилиты GNU grep 3.4"  –3 +/
Сообщение от Аноним (67), 03-Янв-20, 22:33 
UTF-8 не нужен при наличии полноценного юникода. Квест "угадай сколько байтов потянет каждый символ длинной-предлинной строчки если в ней гарантированно не только латиница" сильно на любителя.
Ответить | Правка | К родителю #21 | Наверх | Cообщить модератору

69. "Выпуск утилиты GNU grep 3.4"  +/
Сообщение от Аноним (21), 03-Янв-20, 22:57 
> UTF-8 не нужен при наличии полноценного юникода. Квест "угадай сколько байтов потянет
> каждый символ длинной-предлинной строчки если в ней гарантированно не только латиница"
> сильно на любителя.

Полноценный - это какой? UTF-32? Ну да, там есть небольшой запас, чтобы на это забить и считать 4 байта примерно равно 1 символ (и то с оговорками вроде модифицирующих кодпоинтов). Только ведь он жутко неэффективный в части занимаемой памяти, правда?

Ответить | Правка | Наверх | Cообщить модератору

70. "Выпуск утилиты GNU grep 3.4"  +/
Сообщение от Michael Shigorinemail (ok), 03-Янв-20, 23:09 
> Полноценный - это какой? UTF-32?

В винде вроде двухбайтовый UCS2 фигурировал...

PS: "полноценный", ага.

Ответить | Правка | Наверх | Cообщить модератору

83. "Выпуск утилиты GNU grep 3.4"  +/
Сообщение от Аноним (83), 04-Янв-20, 23:08 
В UTF-8 в теории символ может до 6 байт весить, это сильно лучше или как?
Ответить | Правка | К родителю #69 | Наверх | Cообщить модератору

84. "Выпуск утилиты GNU grep 3.4"  +/
Сообщение от Аноним (21), 04-Янв-20, 23:23 
> В UTF-8 в теории символ может до 6 байт весить, это сильно
> лучше или как?

Очень в теории, текущий лимит 4 байта из соображений совместимости. И всяко лучше utf-16. [1] %)

По-моему, на практике 4 довольно редко встречалось и только в китайских текстах. Но это совершенно не важно, случайный доступ с юникодом просто не применяют.

[1] https://en.wikipedia.org/wiki/Plane_(Unicode)

Ответить | Правка | Наверх | Cообщить модератору

26. "Выпуск утилиты GNU grep 3.4"  –2 +/
Сообщение от Аноним84701 (ok), 03-Янв-20, 15:28 
> riggrep написан на rust, не учитывает особенности unicode (u(ss)->ß)

Угу, то ли дело греп, на который еще не так давно (лет 6 назад) любители вставить "ß" затейливо матюкались  из-за принципиальных проблем поиска с умляутами.

% echo "THISS"|grep -ic "ß"                                                    
0

% echo "straße"|grep -ic "ss"                                                
0

% grep --version                                                              
grep (GNU grep) 3.3

Ответить | Правка | К родителю #12 | Наверх | Cообщить модератору

27. "Выпуск утилиты GNU grep 3.4"  +/
Сообщение от Wilem (?), 03-Янв-20, 15:42 
В спеке на утф-8 сказано, что Eszett приравнивается к "ss"? Я такого найти не смог, более того на стековерфлоу сами немцы говорят, что с точки зрения языка Eszett *не равен* "ss", плюс у них вокруг этого переодически правила меняются. Также интересно - какое дело до обработки этого символа юзеру опеннета? Товарищ парсит в консоли немецкие логи?
Ответить | Правка | Наверх | Cообщить модератору

36. "Выпуск утилиты GNU grep 3.4"  +4 +/
Сообщение от Аноним84701 (ok), 03-Янв-20, 17:29 
> В спеке на утф-8 сказано, что Eszett приравнивается к "ss"?

Мне лень смотреть. Ведь это не я писал о том, что ripgrep "не учитывает особенности unicode (u(ss)->ß)".
Проще было проверить на практике – grep тоже как-то не очень учитывает (утф-8 используется по умолчанию)

> найти не смог, более того на стековерфлоу сами немцы говорят, что  с точки зрения языка Eszett *не равен* "ss", плюс у них вокруг этого переодически правила меняются.

Конечно не равен – вы не можете заменить любую двойную "ss" на ß.
А вот наоборот - (грубо говоря) всегда. Даже в деловой переписке это не будет чем-то уж слишком "из ряда вон".

Но да, стековерфлоу – это конечно авторитет! Куда тем же "Дойче Правописание [Правила]" (§25)  до мнения авторитетов 🙄
https://www.rechtschreibrat.com/DOX/rfdr_Regeln_2016_redigie...
https://www.duden.de/sprachwissen/rechtschreibregeln/doppel-...
> E2: Steht der Buchstabe ß nicht zur Verfügung, so schreibt man ss. In der Schweiz kann man immer ss schreiben. Beispiel: Straße – Strasse
> Если нет буквы  ß  - пишем ss. В Швейцарии  вообще можно всегда писать ss вместо ß.

.
> E3: Bei Schreibung mit Großbuchstaben schreibt man SS. Daneben ist auch die Verwendung des Großbuchstabens ẞ möglich. Beispiel: Straße – STRASSE – STRAẞE.
> Для заглавных/прописных букв используется SS. (Если в шрифте присутствует - старая формулировка до ввода "официальной" большой ß) прописная ß, то возможно написание с <большая ß>

Кстати, авторитеты не затрагивали проблему поиска в старых документах, где вместо isst, dass, wusste писали ißt, daß, wußte?

Небольшая подсказка насчет новых-старых правил:
Любителям умляутов (причем, вполне серьезным и уважаемым изданиям газет и журналов)  не впервой просто проигнорировать "блидинг-эдж" нововведения, вплоть до их отмены или серьезной переработки ;)
Да и благодаря таким "реформам" с отменами - до сих пор вполне нормально воспринимается старое правописание.

Ну и матюкались не на то, что ß не заменялось на "ss" при поиске, а на то, что ни ß, ни поиск öäü - вообще не работал толком:
http://www.knoppixforum.de/knoppix-forum-deutsch/sonstiges/t...
https://forum.ubuntuusers.de/topic/grep-findet-keine-umlaute...
https://bbs.archlinux.org/viewtopic.php?id=96082
(длинный список по запросу поисковика "grep umlauts")
А если задаться целью - то на грабли c умляутами до сих пор и на утф8 наткнуться можно:
https://stackoverflow.com/questions/24962147/grep-and-utf-8-...
https://stackoverflow.com/questions/49535221/how-to-grep-uml...

> Также интересно - какое дело до обработки этого символа юзеру опеннета? Товарищ парсит в консоли немецкие логи?

Мне лично - никакого.
Но критиковать ripgrep, тактично умалчивая о той же проблеме в grep --  немножечко отдает двойными стандартами.

Ответить | Правка | Наверх | Cообщить модератору

48. "Выпуск утилиты GNU grep 3.4"  +/
Сообщение от Michael Shigorinemail (ok), 03-Янв-20, 19:44 
> Небольшая подсказка насчет новых-старых правил:

Ну вот, опять восхищаюсь Вашими тщательностью и кругозором :-)
Был бы рад знакомству.

PS: а может, в 2020 опеннетовку проведём хотя бы в Москве или Питере?

Ответить | Правка | Наверх | Cообщить модератору

52. "Выпуск утилиты GNU grep 3.4"  +1 +/
Сообщение от Аноним84701 (ok), 03-Янв-20, 20:08 
>> Небольшая подсказка насчет новых-старых правил:
> Ну вот, опять восхищаюсь Вашими тщательностью и кругозором :-)

Просто приходится много общаться с немецкоязычными, поэтому и разбираться с вывертами правописания  приходилось особо тщательно – так что это не кругозор, а скорее "сопутствующие спец. знания"  ;-)

> Был бы рад знакомству.
> PS: а может, в 2020 опеннетовку проведём хотя бы в Москве или Питере?

Лет 6-7 назад вполне. Сейчас, к сожалению, то семья, то здоровье "теребят".

Ответить | Правка | Наверх | Cообщить модератору

85. "Выпуск утилиты GNU grep 3.4"  +/
Сообщение от Anonymoustus (ok), 05-Янв-20, 11:46 
> переодически

Период, а не переод.

Ответить | Правка | К родителю #27 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру