The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Как получить язык ISO 639 из юникода? Надо автоопределять"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Программирование под UNIX (C/C++)
Изначальное сообщение [ Отслеживать ]

"Как получить язык ISO 639 из юникода? Надо автоопределять"  +/
Сообщение от UTF8 email on 28-Июн-10, 10:33 
язык, нет ли готовых функций напр. у ICU? Копаю пока безрезульт, подскажи, если знаешь, ALL
Высказать мнение | Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Как получить язык ISO 639 из юникода? Надо автоопределять"  +/
Сообщение от jd (??) on 29-Июн-10, 03:43 
Собственно, текст в UTF-8 может содержать одновременно несколько языков. Что вы предполагаете получить в таком случае?
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

4. "Как получить язык ISO 639 из юникода? Надо автоопределять"  +/
Сообщение от vle (ok) on 06-Авг-10, 02:12 
>Собственно, текст в UTF-8 может содержать одновременно несколько языков. Что вы предполагаете
>получить в таком случае?

Такие вещи делаются с помощь статистики. Ключевые слова: цепи маркова (hidden markov model), сглаживание (smoothing, Good-Turing, Witten-Bell, Add-lambda,...), текстовый корпус (texts corpus)
и др.

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

2. "Как получить язык ISO 639 из юникода? Надо автоопределять"  +/
Сообщение от arturpub (ok) on 30-Июн-10, 20:52 
[1] наводит на мысль, что можно провести нормализацию формы C, а потом, закрыв глаза на диапазон 0x0300 - 0x036F и ему подобные из [2], прикинуть, что там за язык.

[1] http://ru.wikipedia.org/wiki/Unicode#.D0.9C.D0.BE.D0.B4.D0.B...
[2] http://www.unicodemap.org/

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

3. "Как получить язык ISO 639 из юникода? Надо автоопределять"  +/
Сообщение от UTF8 email on 12-Июл-10, 20:19 
>[1] наводит на мысль, что можно провести нормализацию формы C, а потом,
>закрыв глаза на диапазон 0x0300 - 0x036F и ему подобные из
>[2], прикинуть, что там за язык.

Ну да, есть ведь коды конкретно принадлежащие языкам. Если нет - значит неизвестно, на нет и суда нет, а если есть - я думал, что есть готовые решения на C++ получать это автоматически. Всё надо делать самому, гля

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

5. "Как получить язык ISO 639 из юникода? Надо автоопределять"  +/
Сообщение от аноним on 06-Авг-10, 17:26 
>Ну да, есть ведь коды конкретно принадлежащие языкам. Если нет - значит
>неизвестно, на нет и суда нет, а если есть - я
>думал, что есть готовые решения на C++ получать это автоматически. Всё
>надо делать самому, гля

Те кто хочет странного, всегда все делают сами.

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Спонсоры:
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2021 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру