The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Библиотека для распознавания русской речи на Android и Linux без сети

11.01.2020 18:37

Опубликована версия 0.3 библиотеки vosk для локального распознавания слитной речи, поддерживающая русский язык. Для платформы Android подготовлен APK-пакет, а для Linux можно использовать Python-библиотеку (пример использования), производительности которой достаточно для работы на платах Raspberry Pi. Библиотека работает на усовершенствованном движке Kaldi. Языковая модель занимает всего 50Мб и работает точнее DeepSpeech (модель размером более 1Гб). Поддерживаются языки: русский, английский, немецкий, французский, китайский. Ожидается поддержка испанского, хинди, арабского и португальского.

  1. Главная ссылка к новости (https://github.com/alphacep/ka...)
  2. OpenNews: Компания Mozilla представила движок распознавания речи DeepSpeech 0.6
  3. Что не так с DeepSpeech и Common Voice от Mozilla
  4. OpenNews: Facebook опубликовал открытую систему распознавания речи Wav2letter++
  5. OpenNews: Инициатива по созданию полнофункциональной свободной системы распознавания речи
  6. OpenNews: Тестовый выпуск свободной системы распознавания речи Simon 0.4.80
Автор новости: nshmyrev
Тип: Программы
Ключевые слова: vosk, speech
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение (143) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (-), 19:27, 11/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +7 +/
    Русский мат он распознает?
     
     
  • 2.32, Аноним (-), 22:16, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • –10 +/
    Интересно, отсылает ли эта библиотека телеметрию по частоте использования различных слов.
     
     
  • 3.77, Суп из потрошков (?), 09:09, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    К тебе уже выехали из КГБ нравов.
     

  • 1.2, Аноним (2), 19:30, 11/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    На сони zx1 не ставится (
     
     
  • 2.3, nshmyrev (ok), 19:31, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Что пишет? Не ставится через скачивание или через adb?
     
     
  • 3.35, Аноним (35), 22:51, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Тыкаю в скачанный apk. Пытается поставить, потом молча пишет "не установлено". Как поставить, чтобы была видна ошибка?
     
     
  • 4.38, nshmyrev (ok), 22:53, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > Тыкаю в скачанный apk. Пытается поставить, потом молча пишет "не установлено". Как
    > поставить, чтобы была видна ошибка?

    Такое есть?

    Menu > Settings > Applications and make sure “Unknown sources” is checked

     
     
  • 5.45, zzz (??), 23:47, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Если бы этой галки не стояло, то он вообще не начал бы ставиться, сперва предложив поставить галку. Очевидно, что раз приложение ставится, значит, галка стоит.

    Тут, скорее, надо смотреть в сторону гапсов, поскольку аналогичное поведение я уже как-то наблюдал на старом смартфоне при попытке установить скайп - крутилась установка, потом вылетало сообщение о сбое приложения com.android.чтототам, потом еще немного - и привет "приложение не установлено".

     
  • 5.56, gregg (?), 00:49, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >> Тыкаю в скачанный apk. Пытается поставить, потом молча пишет "не установлено". Как
    >> поставить, чтобы была видна ошибка?
    > Такое есть?
    > Menu > Settings > Applications and make sure “Unknown sources” is checked

    Да, поставлена галка. Андроид 5.1.1

     
     
  • 6.57, nshmyrev (ok), 00:51, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    >>> Тыкаю в скачанный apk. Пытается поставить, потом молча пишет "не установлено". Как
    >>> поставить, чтобы была видна ошибка?
    >> Такое есть?
    >> Menu > Settings > Applications and make sure “Unknown sources” is checked
    > Да, поставлена галка. Андроид 5.1.1

    logcat осилите собрать? adb logcat.

    или загрузить проект в android studio и оттуда запустить.

     
  • 6.78, Суп из потрошков (?), 09:10, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • –3 +/
    А чего не 4?
     
     
  • 7.108, Ан оНим (?), 19:18, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    А работает идеально.
     
  • 4.47, Аноним (47), 23:56, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • –6 +/
    >minSdkVersion 21

    Это всё, что надо знать об авторе этого пакета.

     
     
  • 5.48, nshmyrev (ok), 00:02, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    >>minSdkVersion 21
    > Это всё, что надо знать об авторе этого пакета.

    А что с этим не так? Android Lolipop 5.0 выпуска 2014 года.

     
     
  • 6.54, Аноним (47), 00:34, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • –28 +/
    Сделав такое ограничение все с меньшими версиями де-факто были объявлены у****м*****и, недостойными юзать вашу программу. Это https://ru.wikipedia.org/wiki/Потребительство какое-то, не сказать хуже.
     
     
  • 7.55, nshmyrev (ok), 00:44, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +9 +/
    > Сделав такое ограничение все с меньшими версиями де-факто были объявлены у****м*****и,
    > недостойными юзать вашу программу. Это https://ru.wikipedia.org/wiki/Потребительство
    > какое-то, не сказать хуже.

    Там у ndk проблемы с рантаймом C++ для более ранних версий, не все функции поддерживались. Более ранние версии можно поддержать, но не просто.

     
     
  • 8.59, Аноним (47), 01:03, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Понятно Извиняюсь Спасибо за информацию ... текст свёрнут, показать
     
  • 7.66, groosha (?), 03:40, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    По состоянию на май 2019 года на SDK 20 (Android 4.4) и ниже приходилось около 10% устройств.
    https://developer.android.com/about/dashboards

    Им уже больше 5 лет, закопайте стюардессу. Даже если бы ограничение по SDK 21+ было вызвано не плюсовыми библиотеками, а хотелкой автора, он всё равно прав.

     
     
  • 8.69, Аноним (69), 05:50, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Ну так 10 устройств означает что каждый 10 юзер имеет основания махать факом Э... текст свёрнут, показать
     
     
  • 9.79, Суп из потрошков (?), 09:12, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    У меня 10 ведро и я махаю вам этим самым Можно ... текст свёрнут, показать
     
     
  • 10.96, Злостный Анон (?), 15:36, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Ну, Дунька, ты и дура - не можешь ты этим махать ... текст свёрнут, показать
     
  • 8.83, Аноним (47), 11:19, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Толсто ... текст свёрнут, показать
     
  • 8.93, Аноним (93), 14:29, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    в Apple приложениях - до сих пор IOS 8 поддерживают А когда он вышел 2014 год... текст свёрнут, показать
     
     
  • 9.131, iPony129412 (?), 06:58, 13/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Пошёл смотреть Случайная вообще нет, ибо первое, что вспомнил просто из прил... текст свёрнут, показать
     
  • 5.86, Аноним (86), 12:16, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    дедушка с android-1.0 на nokia. это все что нужно знать про этого анонима.
     
  • 2.74, Аноним (74), 07:40, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    на спектруме тоже не взлетело
     
  • 2.84, Я (??), 11:22, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    поставилась, работает.
    приятно, что ест не так много ресурсов - соня не нагрелась.
     

  • 1.4, nshmyrev (ok), 19:33, 11/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    @модератор. Видео тут не совсем в тему, к сожалению.
     
     
  • 2.6, Аноним (6), 19:38, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Почему? Там же про концепцию vosk во второй половине доклада?
     
     
  • 3.9, nshmyrev (ok), 19:41, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Это видео про серверное приложение для тренировки, а не про библиотеку для андроида.

    Библиотека работает на kaldi доработанном.

     

  • 1.5, Аноним (5), 19:35, 11/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Нормально, нужно. Для китайского и японского сделайте плиз, а то у меня небольшие проблемы с переводом устной речи в письменную (звучит одинаково, а пишется по-разному). Онлайн распознавание плохо справляется.
     
     
  • 2.7, nshmyrev (ok), 19:40, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Китайский есть, моделька на гитхабе. Не знаю, насколько надёжно будет работать. Скорее всего, хуже чем по сети. Но может пригодиться.
     
     
  • 3.14, Аноним (5), 19:50, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +5 +/
    Японский был бы интересней, почему-то про него все забывают. Китайский я почти не понимаю, японский разговорный и письменный в некоторой мере вполне. Но сложности с тем, как записать, я думаю будут те же (т.е. нужна эвристика и словари с угадыванием и выбором из нескольких вариантов).
     
     
  • 4.62, анонимуслинус (?), 02:03, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    с этим и японцы плачут.)) недаром они спрашивают , да и объясняют что значит имя и как пишется)) но штука интересная надо смотреть.
     
     
  • 5.138, Аноним (138), 05:14, 14/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Они спрашивают из-за иероглифов - есть много способов записать одни и те же звуки (типа яблоко и йаблоко), плюс все иероглифы имеют по несколько значений. И родители с этим всем любят изгаляться по всякому, когда дают имя ребёнку.
    С обычными словами у них всё более-менее понятно, хотя иероглифы усложняют письменность. Кстати, эти иероглифы (около 5 тысяч всего) им нужны только потому, что они слова без пробелов пишут :)
     
  • 4.80, Суп из потрошков (?), 09:14, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Отаку? Смотришь онимэ без субтитров?
     
     
  • 5.119, анонимуслинус (?), 22:29, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    у нас эта культура как то не сильно прижилась. хотя да учить японский по аниме проще)) пример реальной речи за бесплатно. а с правильными сабами так ваще огонь)) и я имею ввиду именно реальной речи, а не той что в учебниках. но русский все равно сложнее. ))
     
     
  • 6.141, Cadet (?), 09:43, 14/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    >у нас эта культура как то не сильно прижилась

    Зато аниме прижилось.
    И рок.
    Типичный пример увлечения молодежи.

     
     
  • 7.147, axredneck (?), 23:16, 14/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > И рок

    Скорее уж рэп
    (сам слушаю металл)

     
  • 6.142, Cadet (?), 10:08, 14/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    У нас прижились говноозвучки. Я вот не представляю себе, чтобы какой-нибудь рядовой американец взялся озвучивать фильм (да еще выкладывать в безальтернативном порядке). Еще у нас водится такое явление, как закадровый перевод. Который можно встретить разве что в Польше (но там обычно один диктор). В мире царствуют дубляж и субтитры. Дубляж делают редко и в основном для детей. Правда, немцы любят дублировать все подряд и довольно неплохо. Может, потому что там сильна русская культура?

    Я уже смотрю французские и немецкие фильмы вообще без перевода. Предварительно посмотрев с ним, конечно. С возрастом озвучки вообще разлюбил, даже профессиональные. А уж дубляжи та еще приторная гадость.

     

  • 1.8, user90 (?), 19:41, 11/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • –10 +/
    И практическая польза этого ..? Ну если откинуть киберпанк и "тупые колонки"? ;)
     
     
  • 2.11, AlexYeCu_not_logged (?), 19:47, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +5 +/
    >И практическая польза этого ..? Ну если откинуть киберпанк и "тупые колонки"? ;)

    Управление различными устройствами, когда руки заняты: ответить на звонок, отклонить звонок, позвонить и т.д.
    Аналогично, но для людей с ограниченной подвижностью
    Компьютерные игры.
    Обучающие упражнения для некоторых профессий.

    Пока проблем две: низкое качество распознавания и (там где оно повыше) привязка к не всегда доступным серверам.

     
     
  • 3.16, user90 (?), 20:02, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • –18 +/
    > когда руки заняты

    Хорошо, что не рот, ХА-ХА-ХА.

    Вот про инвалидов чот не подумал, да.. ну а для игр можно применить вообще_любую технологию))

     
     
  • 4.22, AlexYeCu_not_logged (?), 21:03, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +13 +/
    >Хорошо, что не рот, ХА-ХА-ХА.

    Если запишешь, как ты ртом управляешь автомобилем, прокладываешь слаботочку под потолком, сортируешь кроликов, пересаживаешь цветы, месишь тесто или убираешь снег — выкладывай на ютуб и кидай ссылку сюда.

    Если же твой основной род занятий,  дела по дому или хобби предполагают всё время занятый рот — выкладывать ничего не надо. Хотя оно, наверное, к лучшему, что рот-то у тебя по большей части занят.

     
  • 4.67, CrazyAlex (?), 04:38, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Ну, кому поржать, а я вот к управлению мультиметром прикрутить попробую.
     
     
  • 5.92, JL2001 (ok), 13:26, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > Ну, кому поржать, а я вот к управлению мультиметром прикрутить попробую.

    у вас мультиметр с андройдом/ линуксом и микрофоном? или это какой-то usb-подключаемый?
    ссылку на поглазеть бы

     
     
  • 6.117, CrazyAlex (?), 22:28, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Нет, у меня старенький HP, который умеет управляться по GPIB. А переходник на GPIB тривиально делается из ардуинки.

    Впрочем, новых модных USB-подключаемых вроде тоже хватает, но я не интересовался. Сейчас вообще подобного хватает - ЛБП те же.

    Хм, а общий выключатель, срабатывающий по команде "гаси всё н@x" тоже, пожалуй, будет неплохой идеей

     
     
  • 7.120, анонимуслинус (?), 22:31, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    это к инженерам умного дома. но они тож ох""ревать будут.))
     
     
  • 8.121, CrazyAlex (?), 22:35, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Не, это я применительно к своей возне с электроникой В умном доме посложнее над... текст свёрнут, показать
     
  • 7.135, sdkisik (?), 10:24, 13/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    >переходник на GPIB тривиально делается из ардуинки.

    Не поделитесь ссылкой?

     
     
  • 8.136, CrazyAlex (?), 11:18, 13/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    https github com Twilight-Logic AR488 ... текст свёрнут, показать
     
  • 2.12, Аноним ещё один (?), 19:49, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +5 +/
    Пользы никакой. Можешь бухать дальше.
     
  • 2.13, Sluggard (ok), 19:49, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Инвалидам может помочь голосовой набор. Стенограммы.
     
  • 2.31, Ordu (ok), 21:54, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Можно общаться в чате не прибегая к помощи экранной клавиатуры.
     
  • 2.143, pofigist (?), 14:28, 14/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    RealDoll с распознованием речи :)
     

  • 1.10, Nekrasov33 (ok), 19:47, 11/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    > Опубликована версия 0.3 библиотеки vosk для локального распознавания слитной речи, поддерживающая
    > русский язык. Для платформы Android подготовлен...

    чем дальше, тем ближе Алиса Селезнева )


     
     
  • 2.15, Аноним (15), 20:01, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    set Apocalypse {Алиса Селезнёва}
     

  • 1.17, Аноним (17), 20:33, 11/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • –16 +/
    У меня есть сири.красиво и просто работает
     
     
  • 2.19, Аноним (19), 20:49, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +9 +/
    И тоже без привязки к серверам?
    Здесь фишка именно в том, чтобы командовать железками, не ставя об этом в известность Гугл или Эппл.
     
     
  • 3.41, Michael Shigorin (ok), 23:16, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +14 +/
    Человек не догадывается, что это _он_ есть у Сири.  А у гуппла "благодаря" ему -- и окружающие :-/
     
  • 2.26, Аноним (26), 21:19, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +8 +/
    Кто чей в этой связке это ещё бабушка надвое сказала.
     
     
  • 3.110, Ан оНим (?), 19:23, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Угу. Попытка читать релиз нотсы ооочень подводит к этой идее.
     

  • 1.18, Константавр (ok), 20:33, 11/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Успехов проекту. Рад, что кто-то занимается этим. Я какое-то время назад пытался толкать паровоз, тренировать сфинкса, но единственное приложение, которое позволяло голосом управлять десктопом (Simon) бросили, с тех пор в этой сфере прям дыра была. Особенно в русской среде.

    Рад за разработчиков, но немного не понимаю, а какие приложения подхватят ваш движок? опять всё будет только для Андроида и будет использоваться только шпионящими программами? А полезное? Чтобы голосом сказать "закрой окно", "открой фаерфокс" и пр?

     
     
  • 2.20, nshmyrev (ok), 20:49, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +5 +/
    Сейчас много появляется полезных приложений для RPi и мобильных. Rhasspy набирает популярность, например, и куча других умных домов.

    В Kodi можно встроить эту распознавалку, управлять голосом, пока руки не дошли, но скоро будет.

    Эта библиотека распознаёт гораздо лучше, чем pocketsphinx, тренировать её не нужно.

     
     
  • 3.23, Константавр (ok), 21:05, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Верю Но меня интересует именно десктоп Есть полупарализованный знакомый, котор... большой текст свёрнут, показать
     
     
  • 4.28, Аноним (28), 21:27, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Сделай сам, вон там пример на питоне есть. Для начала можно все свести к карте соответствий «фраза - шелл-команда»
     
  • 4.30, nshmyrev (ok), 21:38, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +4 +/
    > А русскоязычные проекты тем более, вот в Альте, например, было несколько движков
    > чтения (не знаю как сейчас), но как заставить десктопное приложение читать
    > этим движком? они же умеют или espeak, или festival и больше
    > ничего. И толку мне с хороших русскоязычных движков, которыми ни одно
    > приложение не умеет пользоваться?

    Для чтения у нас есть

    https://github.com/alphacep/tn2-wg

    Пример

    https://raw.githubusercontent.com/alphacep/tn2-wg/master/test.wav

    Правда, для быстрой работы нужна CUDA + NVIDIA карта. И с ударениями не всегда гладко, работаем над этим.


     
     
  • 5.33, Константавр (ok), 22:31, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >CUDA + NVIDIA

    Это уже перебор. А результат не так уж и убедителен. Фестиваль почти так же читает. Немного больше проработки чувствуется, но целую куду на это бросать??? А что делать владельцам стааарых лаптопов с интелловской встройкой? Я понимаю, ЖД, какиенить, для оповещения о поезде, могут себе позволить такое. Народ! Спуститесь с небес, на землю, к инвалидам!

     
     
  • 6.51, Аноним (5), 00:05, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Нвидия дешевле амд, если что. Апушки в любом случае будут давать маржинальный буст и нагреваться до температуры плавления за секуды, можно не рассматривать.

    >стааарых лаптопов

    Жируете, у вас лаптопы есть. Процессора в старых лаптопах тоже не хватит, например. Давайте жаловаться на процессоры в старых лаптопах.

     
     
  • 7.63, Константавр (ok), 02:35, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    На что не хватит? Старые движки на кофеварках работают.
     
  • 6.71, Аноним (71), 06:19, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Гляньте RHVoice. Весит немного, работает быстро, но русская (и не только) речь довольно качественная для столь небольшого движка.
     
  • 5.50, Аноним (47), 00:03, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >Правда, для быстрой работы нужна CUDA + NVIDIA карта.

    Пробовали модель перевести в ONNX и завести инференс на mxnet/plaidml (оба на OpenCL)?

     
     
  • 6.53, nshmyrev (ok), 00:15, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    >>Правда, для быстрой работы нужна CUDA + NVIDIA карта.
    > Пробовали модель перевести в ONNX и завести инференс на mxnet/plaidml (оба на
    > OpenCL)?

    Не до этого пока, синтез как и везде пока хромает.

     
  • 4.44, Michael Shigorin (ok), 23:20, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    TTS есть, но почти не видящий человек, который это всё направление тащил -- ушёл из компании (и из команды) после закрытия проекта deepsolver, где упёрлись в конфликт SAT-солверов и альтернатив в репозитории.

    Для озвучки orca вроде была, этот класс ПО называется screenreader.

    Думаю, можно всё так же пользоваться списком рассылки https://lists.altlinux.org/mailman/listinfo/homeros для таких вопросов и обсуждений.

     
     
  • 5.49, Константавр (ok), 00:03, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Не, Альтом я уже давно не пользуюсь, просто привёл пример, что у вас там было несколько пакетов читалок, от которых в самом же дистрибутиве никакой пользы, потому что ни одна программа их не использовала.

    Программа  Орка - это издевательство какое-то (было, когда я последний раз этим пробовал пользоваться) оно читает всё что ненужно. А то что нужно - хрен допросисси (инвалиду она больше мешает) и не заткнуть рот ей никак. оооо... Это капец какой-то.

    А вообще, именно парализованному человеку важнее управление голосом. И тут совсем туго в линуксе. и дошло одно время даже до того, что из пакетов qt и gtk начали выкидывать поддержку at-spi, мол, всё равно никому не нужна. И на этом, в принципе, я окончательно поставил крест на линуксе как среде с голосовым управлением.

     
     
  • 6.52, Аноним (5), 00:12, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Не знаю как парализованным, но для слепых в вин10 вроде всё есть. Линукс действительно не очень френдли для инвалидов, но при большом желании можно накалякать достаточной для использования поддержки. Правда, делать это придётся более полноценным товарищам. И воркфлоу будет довольно специфический. А в весь софт пропихивать смысла действительно нет (тем более неотключаемо), как это делают сейчас.
     
     
  • 7.64, KonstantinB (??), 03:05, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    для совсем слепых, мне кажется, мак с его мультитачем будет удобнее - там есть voiceover gestures.
     
  • 2.21, vosk (?), 20:54, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +3 +/
    > "закрой окно"

    Упс... Хозяин, похоже, я оконной рамой кота перерубила...

     
     
  • 3.27, Дегенератор (ok), 21:21, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +3 +/
    У меня один раз студент, которому я в конце занятий сказал закрыть все открытые окна, с каменным лицом полез на подоконник. Я даже сразу и не понял в чем дело.
     

  • 1.24, Аноним (26), 21:13, 11/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А есть такое же, но со вкусом эсперанто?
     
     
  • 2.76, Организация Объединённых Тюленей (?), 08:50, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Faru gxin vi mem.
     

  • 1.25, Аноним (25), 21:18, 11/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    А чем https://github.com/alphacep/vosk от https://pypi.org/project/vosk/ отличается? На первый взгляд разные библиотеки.
     
     
  • 2.29, nshmyrev (ok), 21:32, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > А чем https://github.com/alphacep/vosk от https://pypi.org/project/vosk/ отличается?
    > На первый взгляд разные библиотеки.

    https://github.com/alphacep/vosk - для тренировки
    https://github.com/alphacep/vosk-api - сборка для pypi (загружается на https://pypi.org/project/vosk/)

     

  • 1.34, corvuscor (ok), 22:46, 11/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Главный то вопрос - какая точность распознавания? Понятно, что точнее DeepSpeech, но это сколько в граммах?
     
     
  • 2.37, nshmyrev (ok), 22:51, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Главный то вопрос - какая точность распознавания? Понятно, что точнее DeepSpeech, но
    > это сколько в граммах?

    На IWSLT тесте (ted talks)

    deepspeech 0.6  (1Gb)                                WER 21.10%

    deepspeech tflite для андроида (50Mb)  WER 48.57%

    Jasper (Nemo from Nvidia)                         WER 12.9%

    Kaldi (aspire model)                                     WER 12.7 (серверная модель)

    android-en-us                                              WER 14.3 (модель для андроида)

     
     
  • 3.43, corvuscor (ok), 23:18, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    О, неплохо так. Надо бы потестить.
     
  • 3.106, QQQQ (?), 18:44, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Что-то я не понял, точность всего 48.57%? Как так если системы распознавания образов в компьютерном зрении имеют уже больше 95% точность, почему тут такая низка тончость?
     
     
  • 4.109, Annoynymous (ok), 19:21, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Потому что маленькая библиотека звуков. Чем больше библиотека — тем меньеше ошибка.

    Всегда ваш, К.О.

     
  • 4.129, corvuscor (ok), 04:44, 13/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    WER сиречь Word Error Rate. Например.
     

  • 1.39, Аноним (47), 23:01, 11/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    >alphaceph

    Это в честь крайзиса что-ли?

     
  • 1.40, Виталий (??), 23:15, 11/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    С микрофона не распознает
     
     
  • 2.42, nshmyrev (ok), 23:18, 11/01/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > С микрофона не распознает

    Модель телефона какая?

    Ассистент какой-нибудь в фоне работает?

    Желательно ещё logcat посмотреть.

     

  • 1.46, Аноним (47), 23:49, 11/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >Языковая модель занимает всего 50Мб и работает точнее DeepSpeech (модель размером более 1Гб).
    >The index is really huge, it is not expected to fit a memory of single server

    Как это понимать?

     
     
  • 2.73, Аноним (71), 06:38, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Это про обучение моделей, а не про само распознавание.
     

  • 1.58, Аноним (58), 00:59, 12/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Почему именно 16 kHz в примере?

    1. Пробовал записать wav файл с микрофона командой 'arecord -vv -fdat test.wav' (48 kHz)

    2. Заменил в примере 16000 на 48000

    3. Скормил wav-файл скрипту, в результате удалось распознать только одну букву

     
     
  • 2.60, nshmyrev (ok), 01:07, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Почему именно 16 kHz в примере?
    > 1. Пробовал записать wav файл с микрофона командой 'arecord -vv -fdat test.wav'
    > (48 kHz)
    > 2. Заменил в примере 16000 на 48000
    > 3. Скормил wav-файл скрипту, в результате удалось распознать только одну букву

    В исходниках там ожидается 16000, 48000 работать не будет, надо перекодировать. Можно 'arecord -r 16000', можно потом с помощью sox перекодировать.

    Либо в исходниках исправить 16000 на KaldiRecognizer(model, 48000)

     
     
  • 3.61, nshmyrev (ok), 01:11, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >> Почему именно 16 kHz в примере?
    >> 1. Пробовал записать wav файл с микрофона командой 'arecord -vv -fdat test.wav'
    >> (48 kHz)
    >> 2. Заменил в примере 16000 на 48000
    >> 3. Скормил wav-файл скрипту, в результате удалось распознать только одну букву
    > В исходниках там ожидается 16000, 48000 работать не будет, надо перекодировать. Можно
    > 'arecord -r 16000', можно потом с помощью sox перекодировать.
    > Либо в исходниках исправить 16000 на KaldiRecognizer(model, 48000)

    Ещё надо проконтролировать mono/stereo, стерео работать не будет.

     
     
  • 4.87, Аноним (58), 12:26, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Да, все получилось! Распознает достаточно точно, отличная либа.

    p.s.: если стрипнуть '_vosk.so', то можно сэкономить ~140mb (150mb -> 11mb)

     
     
  • 5.88, Аноним (58), 12:35, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Хотя слово "тест" не хочет ни в какую распознавать.
     
  • 5.89, nshmyrev (ok), 12:46, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Да, все получилось! Распознает достаточно точно, отличная либа.
    > p.s.: если стрипнуть '_vosk.so', то можно сэкономить ~140mb (150mb -> 11mb)

    Отлично, да, в следующий раз добавлю strip в сборку.

     
  • 2.85, Анонъ (?), 11:25, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Наверно, потому что голосовой диапазон такой, когда-то и 4кГц было норм. Зачем грузить проц лишними данными.
     
     
  • 3.130, Аноним (-), 06:53, 13/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > Наверно, потому что голосовой диапазон такой, когда-то и 4кГц было норм.

    Вообще-то 8. Потому что человеческий голос до примерно 4кГц. И то - с "телефонным" качеством. Это тех древних штук, где голос как из унитаза.

     

  • 1.65, Аноним (65), 03:24, 12/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Попробовал - дико круто!
    Такую штуку бы с каким-нибудь Tasker подружить и уже можно было бы какие-то сценарии писать
     
  • 1.68, Аноним (-), 05:32, 12/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > Python on Linux, Windows and RPi

    Футыб%#!!! Автыры не смогли в нормальную либу с нормальным апи?

     
     
  • 2.70, Аноним (71), 06:17, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +7 +/
    На Python там лишь обёртка для собранной библиотеки.
    Просьба в дальнейшем воздержаться от преждевременного гавканья в комментариях, пока не разберёшься что к чему.
     

  • 1.72, Аноним (72), 06:23, 12/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > Ожидается поддержка испанского, хинди, арабского и португальского.

    А японский?

     
     
  • 2.81, Vas Yan (?), 09:54, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    А также суахили и язык Навахо.
     
     
  • 3.82, Аноним (5), 10:12, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > А также суахили и язык Навахо.

    Ваш сарказм неуместен мне кажется https://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers#E)

     
     
  • 4.97, Злостный Анон (?), 15:39, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +2 +/
    В очередь, леди, в очередь.

    Пусть япона-мама проспонсирует этот проект, тогда и поговорим.

     
     
  • 5.116, Аноним (5), 22:17, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > В очередь, леди, в очередь.
    > Пусть япона-мама проспонсирует этот проект, тогда и поговорим.

    Никогда этого не случится, и я их прекрасно понимаю. Очень всё плохо с поддержкой cjk в открытых системах.

     
  • 3.107, QQQQ (?), 18:49, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    К сожалению язык перуанских индецев им никак не добавить. Один путешественник лингвист жаловался, что когда у этих индейцев умирает вожд они забывают слово которым звали вождя и ему приходилось часто переделывать словарь который он составлял вплот до переделки каждые два месяца.
     

  • 1.90, x0r (??), 12:54, 12/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    https://github.com/alphacep/vosk-api/issues/13
     
     
  • 2.91, nshmyrev (ok), 13:23, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > https://github.com/alphacep/vosk-api/issues/13

    Спасибо за тестирование, ответил на гитхабе

    Под винду скоро сделаем сборку, надо appveyor освоить.

     
     
  • 3.112, Данил (??), 20:28, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Не подскажете на каких русскоязычных датасетах вы обучали вашу модель?  
     

  • 1.99, Аноним (99), 17:17, 12/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Не ставится:

    $ pip3 install vosk
    Collecting vosk
      Could not find a version that satisfies the requirement vosk (from versions: )
    No matching distribution found for vosk

    Чего ему не хватает?

     
     
  • 2.100, Аноним (99), 17:24, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Вдогонку:
    $ python3 --version
    Python 3.6.9
    $ pip3 --version
    pip 9.0.1 from /usr/lib/python3/dist-packages (python 3.6)
     
     
  • 3.101, nshmyrev (ok), 17:30, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > Вдогонку:
    > $ python3 --version
    > Python 3.6.9
    > $ pip3 --version
    > pip 9.0.1 from /usr/lib/python3/dist-packages (python 3.6)

    pip 9 вроде manylinux2010 не поддерживает, что если попробовать

    pip3 install pip --upgrade

    сначала?

     
     
  • 4.102, Аноним (99), 17:37, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    В Убунту 18.04 обновлять pip можно только через apt, где доступен только 9.0.1. Иначе ломается.

    Именно это у меня и произошло:

    $ pip3 install pip --upgrade
    Collecting pip
      Downloading https://files.pythonhosted.org/packages/00/b6/9cfa56b4081ad13874b0c6f96af8ce16 (1.4MB)
        100% |████████████████████████████████| 1.4MB 606kB/s
    Installing collected packages: pip
    Successfully installed pip-19.3.1

    $ pip3 install vosk
    Traceback (most recent call last):
      File "/usr/bin/pip3", line 9, in <module>
        from pip import main
    ImportError: cannot import name 'main'

     
     
  • 5.103, nshmyrev (ok), 17:42, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Не ломается, просто старый надо удалить, его bash подхватывает ошибочно. После обновления можно

    /usr/local/bin/pip3 install vosk

     
     
  • 6.104, nshmyrev (ok), 17:47, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Вот тут ещё много советов на разный вкус:

    https://stackoverflow.com/questions/28210269/importerror-cannot-import-name-ma

     
     
  • 7.113, Аноним (99), 20:59, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Спасибо, 1-й совет сработал. vosk поставился.
     

  • 1.111, Annoynymous (ok), 19:23, 12/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Добавить бы эту библиотечку в какую-нибудь опенсорсную клавиатуру для Android, была бы тема. Кто возьмётся?
     
  • 1.115, Аноним (115), 22:13, 12/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Samsung Galaxy J2 андроид 7.1.1 устанлвилось нлрмально, но интерфейс "спартанский" тестовый , и мой голос распознает с ошибками, очень приблизительно
     
     
  • 2.118, nshmyrev (ok), 22:28, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > Samsung Galaxy J2 андроид 7.1.1 устанлвилось нлрмально, но интерфейс "спартанский" тестовый
    > , и мой голос распознает с ошибками, очень приблизительно

    Можно сделать запись в файл, я посмотрю.

     
     
  • 3.122, Аноним (122), 22:57, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Не нашел как в программе записать лог, записал видео с процессом
    https://yadi.sk/i/61FY7hiOWfwibQ
     
     
  • 4.123, nshmyrev (ok), 23:09, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > Не нашел как в программе записать лог, записал видео с процессом
    > https://yadi.sk/i/61FY7hiOWfwibQ

    Ну норм, одно слово пропустил всего. Задержка есть, надо нейросетку оптимизировать ещё.

    А где с ошибками-то?

     
     
  • 5.124, Аноним (122), 23:27, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Молодцы! разработка прекрасная, буду думать как ее внедрить.

    Про ошибки распознавания: я слишком требователен ))

    Из тестов, что не попали в запись, было больше ошибок. Из плюсов: слово редкое по звучанию ("математика") распознавалось надежно, когда несколько созвучных слов было - ошибки были ))

    Давно искал подобную офф-лайн библиотеку, надо бы программу на свой специальный словарь натренировать, чтобы на ключевых отраслевых словах не ошибалась.


     
     
  • 6.125, nshmyrev (ok), 23:35, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    > Молодцы! разработка прекрасная, буду думать как ее внедрить.
    > Про ошибки распознавания: я слишком требователен ))
    > Из тестов, что не попали в запись, было больше ошибок. Из плюсов:
    > слово редкое по звучанию ("математика") распознавалось надежно, когда несколько созвучных
    > слов было - ошибки были ))
    > Давно искал подобную офф-лайн библиотеку, надо бы программу на свой специальный словарь
    > натренировать, чтобы на ключевых отраслевых словах не ошибалась.

    Хорошо, тренировать можно. Попозже выложим скрипты. Обращайтесь.

     
     
  • 7.126, Аноним (122), 23:39, 12/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Спасибо! ))
     

  • 1.127, хотел спросить (?), 03:05, 13/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    А сырцы где? На гитхабе написано, что это байндинги.
     
     
  • 2.128, KonstantinB (??), 03:15, 13/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Если вбить в гугл то, на что binding-и, первые же ссылки будут на сорцы.
     

  • 1.132, Аноним (132), 09:11, 13/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Так а как хотя бы ввести что-то в текстовик или поисковик голосом с помощью этого? На Андроиде
     
  • 1.133, Аноним (132), 09:21, 13/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    в эстонскую Konele можно добавить в f-droid уже есть
     
  • 1.134, Аноним (134), 10:18, 13/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Нужно
     
  • 1.137, Аноним (137), 18:55, 13/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Оффлайн распознавалка голоса? Неужели дождались. А то всё питоно-электроно-монстры на 800 мегабайт, являющеся оболочкой над Google Assistant.
     
  • 1.139, DmA (??), 08:29, 14/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Неужели сбылось то, что обещала 25 лет назад OS/2 Warp -голосовое управление компьютером :)
     
  • 1.140, Cadet (?), 09:32, 14/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Интересно, это лучше, чем обученный русскому Dragon NaturallySpeaking?
    Для оффтопика русские разрабатывают Voco. Вроде бы бесплатно не найти. Системные требования i5, 4Gb RAM, стоимость 1700-14000руб, зависит от версии. А в сабже размер всего 50 мб.
    Сделали ли бы прогу для автоматического титрования фильмов. Пусть даже если криво, потом можно исправить ошибки.
     
     
  • 2.144, Crazy Alex (??), 18:15, 14/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Наоборот - какой смысл в указанной вами проприетарщине, если вот оно - открытое, вполне приемлемо жрущее и неплохо распознающее?

    Что до субтитров - это тривиально делается скриптами, я так, помнится, свою коллекцию обучающих видео обрабатывал, чтобы индекс создать для локального поиска. Типа этого: https://github.com/agermanidis/autosub - при желании можно заменить там гугловскую распознавалку на сабж или любую другую альтернативу. Качество выходит дрянь, но для индекса - достаточно.

     
     
  • 3.148, Аноним (148), 16:41, 15/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Звучит интересно. Но на Ubuntu 16.04 не поставилось. Лог https://pastebin.com/raw/VB2CdGKk
    Failed building wheel for unknown
    Попробую на openSUSE Tumbleweed. Там пакеты свежее.
     
     
  • 4.149, Аноним (148), 16:44, 15/01/2020 [^] [^^] [^^^] [ответить]  
  • +/
    Из под sudo можно запускать? А то что-то python pip знатно гадит в хомяк.
     

  • 1.145, Zed (??), 21:20, 14/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    На старые дроиды принципиально не дают ставить или же есть объективные причины?
     
     
  • 2.146, nshmyrev (ok), 22:09, 14/01/2020 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > На старые дроиды принципиально не дают ставить или же есть объективные причины?

    На старых NDK были проблемы с libstdc++ в части математических функций вроде такой.

    https://eigen.tuxfamily.org/bz/show_bug.cgi?id=876

    В принципе, можно собрать с небольшим напильником, но лень.

     

  • 1.150, chukcha (??), 22:17, 16/01/2020 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А можно ли скрестить эту распознавалку речи с синтезатором речи?
    Например, через | (конвеер).

    Синтезаторов полно, начиная с "Festival" - http://linux.tiflocomp.ru/docs/ux_synths.php

    В результате получится идеальный вокодер, в котором ваш голос уже точно никто не угадает!

    Может, в этих "Быстро-новостях" голоса так и сделаны?
    https://www.youtube.com/watch?v=-EEDEL63AR8

    >

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Спонсоры:
    Слёрм
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2020 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру