The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]



"Новые модели для распознавания русской речи в библиотеке Vosk"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Новые модели для распознавания русской речи в библиотеке Vosk"  +/
Сообщение от opennews (?), 17-Ноя-21, 09:01 
Разработчики библиотеки Vosk опубликовали новые модели для распознавания русской речи: серверная vosk-model-ru-0.22 и мобильная Vosk-model-small-ru-0.22. В моделях используются новые речевые данные, а также новая нейро-сетевая архитектура, что позволило повысить точность распознавания на 10-20%. Код и данные распространяются под лицензией Apache 2.0...

Подробнее: https://www.opennet.ru/opennews/art.shtml?num=56171

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от 73 (?), 17-Ноя-21, 09:01   +7 +/
есть неплохой вариант для теста: CHIKI-BRIKI I V DAMKI
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #16

2. Сообщение от ryoken (ok), 17-Ноя-21, 09:09   +3 +/
>>современный процессор

"Огласите весь список, пжалста..!"

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #11

4. Сообщение от Аноним (4), 17-Ноя-21, 09:15   +/
От AMD Sempron 2650.
Ответить | Правка | Наверх | Cообщить модератору

5. Сообщение от Пыхтачок (?), 17-Ноя-21, 09:28   –1 +/
В портах FreeBSD имеется?
Ответить | Правка | Наверх | Cообщить модератору

8. Сообщение от Аноним (8), 17-Ноя-21, 10:04   +1 +/
> Мобильная модель может использоваться в телефонах

Пакет в F-Droid разработчики сделать поленились, конечно.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #10, #12

10. Сообщение от Аноним (10), 17-Ноя-21, 10:28   +3 +/
Возьми и сделай.
Или лень, конечно?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8

11. Сообщение от QwertyReg (ok), 17-Ноя-21, 10:38   –4 +/
Pentium 4 не поддерживается.
90% линуксоидов в пролёте.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #15

12. Сообщение от nshmyrev (ok), 17-Ноя-21, 10:39   +10 +/
В F-droid скоро будет. У них было требование, чтобы пакеты лежали в MavenCentral, две неделе назад переехали для этого на MavenCentral. Заявка есть уже:

https://gitlab.com/fdroid/fdroiddata/-/merge_requests/9657

https://github.com/Stypox/dicio-android

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8 Ответы: #32

15. Сообщение от 73 (?), 17-Ноя-21, 11:05   +3 +/
так толсто что даже толсто
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #11 Ответы: #19

16. Сообщение от _hide_ (ok), 17-Ноя-21, 11:36   +/
Да, простые команды на en-us разбирает (к примеру, Python тест, смутили только охи во второй фразе "nine oh two one oh"), русские... Ну очень тяжко и выборочно, даже очень простые.

Может у меня руки такие, пробовал на "примерах API".

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #25, #41

17. Сообщение от Аноним (17), 17-Ноя-21, 11:36   +/
>Серверной модели для работы нужен современный процессор и 8Гб памяти.

Мда. А какова просадка качества по сравнению с "мобильной" моделью?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #20, #21

18. Сообщение от zzz (??), 17-Ноя-21, 11:38   +3 +/
Мне нравится вот это :-)
> Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #29

19. Сообщение от Аноним (19), 17-Ноя-21, 11:38   +/
Забей на фурнутого
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #15

20. Сообщение от nshmyrev1 (?), 17-Ноя-21, 11:45   –1 +/
>>Серверной модели для работы нужен современный процессор и 8Гб памяти.
> Мда. А какова просадка качества по сравнению с "мобильной" моделью?

В таблице с моделями есть цифры ошибок. Для колонок 11.89 процентов вместо 8.65.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17 Ответы: #22

21. Сообщение от _hide_ (ok), 17-Ноя-21, 11:48   +1 +/
Я больше скажу, "серверной" модели нужно 8ГБ для работы, а для загрузки 12ГБ. Так что ООМ киллер у меня повеселился, пока не догадался лишнее позакрывать.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

22. Сообщение от Аноним (17), 17-Ноя-21, 12:02   +1 +/
А что это за "проценты"? Проценты от чего? На сайте вообще написано, что это соотношение уровень ошибок/скорость. Опять же, всё зависит от единиц измерения. Пока что мне эти числа вообще ничего не говорят, кроме того, что "мобильная" модель чуть хуже на "колонках" чем "серверная", причём на "аудиокнигах" всё выглядит куда менне радужно, там вообще какие-то 30. 30 это что? Если модель делает 30 % ошибок, то её вообще нельзя использовать, проще руками транскрибировать, чем каждое третье слово переправлять. Ежели это ошибки/скорость, то всё вообще не понятно. Если это 30% от соотношения, делаемого худшей моделью, то возникает вопрос, сколько ошибок делает худшая модель на обычном тексте. Вообще мне срать на метрики, если я не могу использовать эти метрики чтобы понять, годится мне модель, или нет.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #20 Ответы: #42

23. Сообщение от john_erohin (?), 17-Ноя-21, 12:03   +1 +/
1) интеграция с СОРМ-1 (не путать с СОРМ-2) есть ?

2) хорошо ли распознаются спецтермины: взрывчатка, оружие, убийство, ликвидация, конспирация, детонатор, инициатор, заряд, засада, снайпер ... и далее по списку: https://rense.com/general66/scgh.htm с поправкой на РФ специфику.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #24

24. Сообщение от Аноним (17), 17-Ноя-21, 12:09   +1 +/
У вас неактуальные ключевые слова. Актуальные - это "доллар", "евро", "биткоин", "эфир", "мессенджер", "пенсионный возраст", "Верзилов", "Быков", "Навальный", "Новичок".
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #23 Ответы: #26

25. Сообщение от _hide_ (ok), 17-Ноя-21, 12:09   +2 +/
В общем, слово "минуту" в старой версии он распознавал как "да", а новой версии как "нет". Очень интересный результат.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16 Ответы: #27

26. Сообщение от john_erohin (?), 17-Ноя-21, 12:13   +1 +/
1) или так.
2) классика вечна. и не "тералист", а "борец за свободу" !
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #24

27. Сообщение от 73 (?), 17-Ноя-21, 12:15   +1 +/
бинарный я бы сказал)
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #25 Ответы: #30

29. Сообщение от john_erohin (?), 17-Ноя-21, 12:43   +3 +/
> Мне нравится вот это :-)
>> Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.

1) каких моделей колонок следует избегать, чтобы не работать
поставщиком голосовых данных забесплатно ?

2) как вдуть на голосовые колонки мусор (и какой именно мусор),
чтобы у них всю модель перекосило к чертям ?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #18 Ответы: #39

30. Сообщение от _hide_ (ok), 17-Ноя-21, 12:49   +3 +/
> бинарный я бы сказал)

Не, проблема была в неправильно указанном рейте потока (в примере 16кГц, а у них в русском тесте 8кГц). После исправления этой информации всё в идеальном порядке.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #27

32. Сообщение от gegggregg (?), 17-Ноя-21, 14:29   +/
День добрый, а можно ли этому Dicio подсунуть русские модели vosk? В readme не нашёл ((
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12 Ответы: #37

33. Сообщение от rshadow (ok), 17-Ноя-21, 16:08   +2 +/
1. Заходишь на сайт
2. Выполняешь инструкции Usage examples Python
3. Traceback ... ModuleNotFoundError: No module named 'vosk.vosk_cffi'


Типичная программа на питон

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #34, #40

34. Сообщение от Аноним (34), 17-Ноя-21, 16:36   +/
Вряд ли, скорее всего это твои типичные руки. Но cffi намекает на то, что там обёртка на питоне вместо питона, это довольно нестандартно.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #33 Ответы: #35

35. Сообщение от rshadow (ok), 17-Ноя-21, 16:48   +1 +/
ничуть не сомневался что прибежит какой-нибудь фанатик и будет рассказывать как я по инструкции все неправильно сделал, и что у меня все криво и вообще я сам должен все отладить и допилить напильником
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #34 Ответы: #36

36. Сообщение от Аноним (34), 17-Ноя-21, 17:09   –1 +/
Не знаю как насчёт фанатиков, а то что ты 1 вызов cffi назвал типичной программой на питоне уже многое сообщает окружающим о твоей квалификации.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #35 Ответы: #38

37. Сообщение от nshmyrev (ok), 17-Ноя-21, 18:06   +1 +/
Можно, но пока надо из исходников пересобирать. Скоро сделаем загрузку из приложения.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #32

38. Сообщение от Аноним (38), 17-Ноя-21, 19:52   +1 +/
Или он в курсе и квалифицирован, а инструкция гавно?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #36 Ответы: #43

39. Сообщение от nshmyrev (ok), 17-Ноя-21, 20:22   +/
> каких моделей колонок следует избегать, чтобы не работать поставщиком голосовых данных забесплатно ?

Всех проприетарных. Можно открытые устройства использовать, вроде RPi4 с Воском и микрофонами Respeaker.

> вдуть на голосовые колонки мусор (и какой именно мусор), чтобы у них всю модель перекосило к чертям ?

Мусор фильтруется, особого смысла в нём нет. Можно скрытые данные какие-то посылать, правда, их использовать потом не просто.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29

40. Сообщение от nshmyrev (ok), 17-Ноя-21, 20:23   +/
Для анализа проблемы хорошо было бы увидеть:

1. Версию OS (не Alpine какой-нибудь?)
2. Версию Python
3. Полный вывод из терминала со списком файлов в текущем каталоге.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #33

41. Сообщение от nshmyrev (ok), 17-Ноя-21, 20:25   +/
> Да, простые команды на en-us разбирает (к примеру, Python тест, смутили только
> охи во второй фразе "nine oh two one oh"), русские... Ну
> очень тяжко и выборочно, даже очень простые.
> Может у меня руки такие, пробовал на "примерах API".

oh это слово для нуля по-английски

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16

42. Сообщение от nshmyrev (ok), 17-Ноя-21, 20:27   +/
> А что это за "проценты"? Проценты от чего?

Ошибки распознавания обычно считаются в процентах от числа слов в тестах.

На сайте вообще написано,
> что это соотношение уровень ошибок/скорость. Опять же, всё зависит от единиц
> измерения. Пока что мне эти числа вообще ничего не говорят, кроме
> того, что "мобильная" модель чуть хуже на "колонках" чем "серверная", причём
> на "аудиокнигах" всё выглядит куда менне радужно, там вообще какие-то 30.
> 30 это что? Если модель делает 30 % ошибок, то её
> вообще нельзя использовать, проще руками транскрибировать, чем каждое третье слово переправлять.

На чистых записях процент ближе к 10-15, что приемлемо. 30% обычно на очень шумных записях.

> Вообще мне срать на метрики, если
> я не могу использовать эти метрики чтобы понять, годится мне модель,
> или нет.

Тут только один вариант - попробовать самому.


Ответить | Правка | Наверх | Cообщить модератору
Родитель: #22

43. Сообщение от Аноним (34), 17-Ноя-21, 21:04   +/
Вряд ли, ведь он приплёл питон и сморозил глупость, а не просто поныл на тему низкого качества опенсорса.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #38 Ответы: #45

44. Сообщение от Аноним (44), 18-Ноя-21, 09:11   +/
А агрессивно прунить серверную модель пытались? Если lucky ticket hypothesis верна (а всё указывает, что верна), и если не пытались, есть шанс, что она сильно уменьшится.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #46

45. Сообщение от _hide_ (ok), 18-Ноя-21, 11:51   +/
О чем Вы? Я никаких инструкций не читал, получил ответ "нет модуля такого-то", поставил (через pip3) и дальше проверил.
В чем вопрос? Если Вам ссылку на github дают Вы удивляетесь, что Вам нужен браузер/git client? Или опять ничего не понял?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #43 Ответы: #47

46. Сообщение от nshmyrev (ok), 18-Ноя-21, 11:54   +/
> А агрессивно прунить серверную модель пытались? Если lucky ticket hypothesis верна (а
> всё указывает, что верна), и если не пытались, есть шанс, что
> она сильно уменьшится.

Это в процессе. Рабочих рук не хватает на все идеи, как всегда.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #44

47. Сообщение от Аноним (34), 18-Ноя-21, 13:20   +/
А если сабж просто из pypi накатить? В ридми нет ничего про это, но на сайте есть инструкция. Это называется низкое качество документации. По сайтам никто ходить не будет, и при этом им нужно всех прозондировать телеметрией, посчитать и записать. Ради этого они требуют посещения своего левого сайта.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #45 Ответы: #48, #49

48. Сообщение от _hide_ (ok), 18-Ноя-21, 20:47   +/
Если бы у бабушки было бы pypi, то она бы была бы дедушкой. Если Вы хотите того, чего Вы не понимаете -- это лично Ваши проблемы. Я не защищаю авторов, просто не понимаю позицию хейтера.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #47

49. Сообщение от nshmyrev (ok), 18-Ноя-21, 20:49   +/
> А если сабж просто из pypi накатить? В ридми нет ничего про
> это, но на сайте есть инструкция. Это называется низкое качество документации.
> По сайтам никто ходить не будет, и при этом им нужно
> всех прозондировать телеметрией, посчитать и записать. Ради этого они требуют посещения
> своего левого сайта.

В ридми на гитхабе бесполезно что-то писать, гитхаб гуглом не индексируется (специально это или нет, не знаю). Поэтому процветают всякие мусорные клоны гитхаба вроде fastgit.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #47 Ответы: #50

50. Сообщение от Аноним (34), 18-Ноя-21, 20:55   +1 +/
Т.е, вы полагаете, что разработчик, скопировавший себе репу (или читающий код на гитхабе), пойдёт гуглить how to install project name, вместо того, чтобы открыть текстовый файл INSTALL (в котором перечислены зависимости и процесс сборки/установки)?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #49 Ответы: #51

51. Сообщение от nshmyrev (ok), 18-Ноя-21, 21:49   +/
> Т.е, вы полагаете, что разработчик, скопировавший себе репу (или читающий код на
> гитхабе), пойдёт гуглить how to install project name, вместо того, чтобы
> открыть текстовый файл INSTALL (в котором перечислены зависимости и процесс сборки/установки)?

Да, так большинство "разработчиков" и делают.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #50

52. Сообщение от lockywolf (ok), 19-Ноя-21, 04:17   +/
Совместимость со speech-dispatcher, espeak, и всем таким, имеется? В качестве бэкенда к CMU Sphinx его можно подключить?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #53

53. Сообщение от nshmyrev (ok), 19-Ноя-21, 11:56   +/
> Совместимость со speech-dispatcher, espeak, и всем таким, имеется?

нет, они же для синтеза, а не для распознавания.

> В качестве бэкенда к CMU Sphinx его можно подключить?

нет, тоже особой необходимости в этом нет.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #52 Ответы: #58

54. Сообщение от Shuraemail (??), 20-Ноя-21, 14:23   +/
Попробовал на английском. Какое же убожество, приходится по 10 раз повторять, чтобы он хоть что-то понял.
Не пойму, почему не сделать распознавание по словарю, ведь точность была бы выше.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #55

55. Сообщение от nshmyrev (ok), 20-Ноя-21, 14:32   +/
> Попробовал на английском. Какое же убожество, приходится по 10 раз повторять, чтобы
> он хоть что-то понял.
> Не пойму, почему не сделать распознавание по словарю, ведь точность была бы
> выше.

Распознавание ведётся по словарю. По поводу точности распознавания, мы собираем записи для анализа, можете прислать образец, посмотрим, что там.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #54 Ответы: #56, #57

56. Сообщение от Shuraemail (??), 20-Ноя-21, 19:45   +/
Может словарь слишком велик. Там при установке стоят 4 скилла. Каждый скилл активируется своим набором команд, но распознавание распознаёт вообще любые слова, хотя по логике как стартовое слово должен распознавать только те, которые заданы в скиллах. Вот это странно.
Ну может конечно у меня произношение на английском не очень.

P.S. Нашёл какой-то родственный что ли проект https://github.com/alphacep/kaldi-android-demo/releases/down... так вот там на русском всё отлично. Как бы его вот сюда прикрутить?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #55

57. Сообщение от Shuraemail (??), 20-Ноя-21, 19:56   +/
А, блин, я коммент не сюда добавил. Пробовал-то я приложение dicio
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #55

58. Сообщение от lockywolf (ok), 21-Ноя-21, 06:24   +/
> нет, они же для синтеза, а не для распознавания.

Да, это я проспал, конечно,

>> В качестве бэкенда к CMU Sphinx его можно подключить?
> нет, тоже особой необходимости в этом нет.

А это вот странно. Многие годы Сфинкс был стандартным движком распознавания голоса для Linux.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #53


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру