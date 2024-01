2.9 , наука_кандидатов ( ? ), 11:19, 03/01/2024 [^] [^^] [^^^] [ответить] –9 + / – C и C++ сразу отлетают в таком случае, поскольку вообще никак не умеют в юникодные строки. Задача "оставить в строке только буквы алфавитов X и Y" на этих языках нерешаема.

за такую задачу надо сразу бить ее постановщика лопатой по хлебалу. (в одном интересном языке принято записывать звуки, отсутствующие в алфавите, с помощью апострофа. Догадываешься что происходит при попытке ввести мои паспортные данные в такой вот хрени?)

О как. А libicu на чем написана, напомните?

Которая зачастую и используется во всяких других решениях чтобы работать нормально, в т.ч. для SQLite для нормального текстового поиска приходится пересобирать с ней

Что значит "умеет в юникодные строки"? Чем юникодная строка отличается от любой другой?

Тем, что предсказать количество байт, необходимое под определённое число символьных единиц, а также, сколько будет каждая из них, невозможно. Это накладывает определённые ограничения на работу с текстом, но, на практике, строки бывают только такими. Если, конечно, это не UTF-32, там размер предсказуемый. Понятное дело, накладные расходы в любом случае довольно серьёзные, по сравнению с обработкой однобайтных строк.

это не про unicode, это про utf8/16 - два самых уе6-щных в мире способа его кодирования.

виндовый ucs2 вполне себе fixed width.

В венде, кстати, самый убогий и проблемный юникод, не понимаю, откуда твои восторги. Компромиссное решение конечно было, спасибо хоть теперь utf8 приняли. Но после этого перекодированый utf16 в utf8 может отправлять её в бсод. Когда в одних местах огрызок utf16 и в других местах огрызок utf8, это весело тоже.

> ucs2 но ведь там нет эмодзи !

увы. Поэтому в современной венде тоже помойка из где-то 16, где-то 8, а где-то и вообще восьмибитных кодировок для совместимости.

В винде все "любят" BOM с которым проблемы и грабли в каждом втором кейсе, а в собственно кодировки нормально не умеют

В чистых сях, если предказать невозможно размер строки, используют 2 пути:

1. Используют аллокаторы.

2. Используют массив, превыщающий размеры вводимых данных, с дополнительной проверочной функцией выхода массива за пределы допустимого размера.

Понятие "накладные расходы" пришло из языков высокого уровня, где программисты отучились соображать, как в оперативной памяти располагаются данные. Чисто-сишник не знает таких слов, как "накладные расходы. Он просто видит задачу, и её делает. А Си плюс-плюс объектно-ориетрированный язык, в нём проблем с работой со строками вообще не существует.

> Чисто-сишник не знает таких слов, как "накладные расходы. Он просто видит задачу, и выходит за границы массива. Я поправил, не благодари)

«От любой другой» — это от ASCII? Примерно всем.

При одном и том же наборе символов примерно ничем) А потом выясняется что ASCII в реале тебе не хватает и начинается цирк с теми, кто изначально использовал ASCII only подход

> C и C++ сразу отлетают в таком случае, поскольку вообще никак не умеют в юникодные строки

Звездёж наглый. https://en.cppreference.com/w/cpp/language/string_literal u8 и https://en.cppreference.com/w/cpp/locale/codecvt_utf8 .

std::codecvt_utf8

(deprecated in C++17)

(removed in C++26)

Не то чтобы гуру в си юникоде, но даже без libicu всё работает нормально. Сами по себе строки и регексы в них - без проблем вообще.

wchar_t нет?

>wchar_t нет?

Есть. А он имеет ввиду резиновый utf8.

>C и C++ сразу отлетают в таком случае, поскольку вообще никак не умеют в юникодные строки.

С++20 имеет юникодные типы.