URL: https://www.opennet.ru/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 112884
[ Назад ]

Исходное сообщение
"Проект Mozilla выпустил открытую систему распознавания речи"

Отправлено opennews , 29-Ноя-17 20:46 
Проект Mozilla опубликовал (https://blog.mozilla.org/blog/2017/11/29/announcing-the-init.../) первый выпуск модели (https://hacks.mozilla.org/2017/11/a-journey-to-10-word-error.../) для системы машинного обучения, ориентированной на распознавание речи. Также опубликован использованный для  тренировки модели набор (https://medium.com/mozilla-open-innovation/sharing-our-commo...) голосовых данных, собранный в результате инициативы Common Voice (https://voice.mozilla.org/) и включающий (https://voice.mozilla.org/data) примеры произношения около 20 тысяч людей, которые надиктовали почти 400 тысяч записей суммарной продолжительностью 500 часов.

Благодаря участию в проекте большого числа добровольцев, удалось сформировать одну из крупнейших баз голосовых шаблонов, учитывающих всё разнообразие голосов и манер речи. Собранная база позволила натренировать модель для системы машинного обучения до уровня распознавания речи, при котором число ошибок примерно соответствует распознаванию обычным человеком при прослушивании тех же записей. В текущем виде число ошибок распознавания составляет 6.5% при использовании тестового набора LibriSpeech (http://www.openslr.org/12/). Для сравнения,  уровень ошибок при распознавании человеком оценивается в 5.83%, а уровень ошибок при работе Google Speech составляет 6.64%, wit.ai  - 7.94%, Bing Speech - 11.73%, Apple Dictation -  14.24%.


В основе системы распознавания речи Mozilla лежит (https://research.mozilla.org/machine-learning/) движок
DeepSpeech (https://github.com/mozilla/DeepSpeech), созданный с использованием открытой компанией Google платформы машинного обучения TensorFlow (https://www.opennet.ru/opennews/art.shtml?num=46058). DeepSpeech реализует в коде одноимённую архитектуру распознавания речи, предложенную (https://arxiv.org/abs/1412.5567) исследователями из компании Baidu. Предложенный (https://github.com/mozilla/DeepSpeech) Mozilla набор помимо  модели распознавания речи и примеров произношения включает готовые к применению модули  для Python и NodeJS, позволяющие без лишних усложнений встроить в свои программы функции распознавания речи. Также поставляется инструментарий для распознавания из командной строки. Движок распознавания речи достаточно быстр и не требователен к ресурсам, что позволяет использовать его даже на платах Raspberry Pi.


DeepSpeech значительно проще традиционных систем и при этом обеспечивает более высокое качество распознавания при наличии постороннего шума. В разработке не используются традиционные акустические модели и концепция фонем, вместо которых применяется хорошо оптимизированная система машинного обучения на основе нейронной сети, что позволяет обойтись без разработки отдельных компонентов для моделирования различных отклонений, таких как шум, эхо и особенности  речи.  Особенностью DeepSpeech  является то, что для получения качественного распознавания данная архитектура требует большого объёма разнородных данных для осуществления обучения, надиктованных в реальных условиях разными голосами и при наличии естественных шумов.

Опубликованный набор голосовых данных не ограничен применением в DeepSpeech и может оказаться полезным и для других открытых проектов, занимающихся распознаванием речи, таких как Sphinx (https://cmusphinx.github.io/), Kaldi (https://sourceforge.net/projects/kaldi/),  VoxForge (http://www.voxforge.org/), ISIP (https://www.isip.piconepress.com/projects/speech/), HTK (http://htk.eng.cam.ac.uk/) и Julius (http://julius.osdn.jp/en_index.php). До сих пор исследователям и разработчикам были доступны только ограниченные наборы голосовых данных, а стоимость полноценных коллекций голосовых выборок исчислялась десятками тысяч долларов, что сильно тормозило независимые исследования в области распознавание речи. В настоящее время работа сосредоточена только на распознавании английского языка, но в первой половине 2018 года планируется приступить к сбору примеров произношения для других языков.


URL: https://blog.mozilla.org/blog/2017/11/29/announcing-the-init.../
Новость: https://www.opennet.ru/opennews/art.shtml?num=47648


Содержание

Сообщения в этом обсуждении
"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 29-Ноя-17 20:54 
Качественное распознавание голоса без зондов, впервые.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 29-Ноя-17 22:29 
Мозилла? Без зондов? Хорошая шутка. В браузере килотонны телеметрии.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 29-Ноя-17 22:41 
Как вы тут такие вообще представляете себе распознавание речи без телеметрии и накоплении глобальных баз данных?

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 29-Ноя-17 22:53 
Да-да, отличная причина толкать всем умные телевизоры сосунг со встроенными микрофонами и камерой. Замечательное оправдание. ;)

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 29-Ноя-17 23:00 
Да-да, отличная причина толкать всем умные телефоны сосунг со встроенными микрофонами
и камерой. Замечательное оправдание. ;)

#оченьбыстрофикс



"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Вулх , 29-Ноя-17 23:23 
Где новость, а где телевизоры, вы читали тест новости и текст комментария на который отвечаете?

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 30-Ноя-17 20:39 
Со временем уберут, надо только научиться мыслепреступления прямо из мозга считывать.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено meequz , 30-Ноя-17 11:06 
По-твоему, телеметрия и зонды это синонимы?

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 30-Ноя-17 13:30 
Применительно к Веб - да.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 01-Дек-17 16:20 
> Качественное распознавание голоса без зондов, впервые.

За мозиллой это еще неплохо бы проверить. Там какая-то питонятина навалена, да еще с предложением вгружать ее по сети, без аутентификации. Что там реально закачается в результате, одному ктулху известно.


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 29-Ноя-17 20:54 
Чего говорите, "расширения отвалились"? Извините, мы делаем очередную распознавалку речи.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Free Speech , 29-Ноя-17 20:55 
Херня все это. KDE тоже 100 лет назад что-то выпустил, a воз и ныне там. Вот нашел - Simon называется. Она даже английский за столько лет нормально распарсить не научилась, остальных языков при нашей жизни точно не дождемся.

https://simon.kde.org/

Есть еще несколько опенсорсных распознавалок речи, и все они мягко говоря так же в жопе. Почему с мозиллой будет по-другому?


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено A.Stahl , 29-Ноя-17 21:00 
>Почему с мозиллой будет по-другому?

Дай я тебе помогу и процитирую немного статью. Там просто нужная для тебя информация была через очень-очень много букв и ты, видимо, устал читать.

>Число ошибок распознавания составляет 6.5% ... уровень ошибок при распознавании человеком оценивается в 5.83%


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Виталий Нилл , 29-Ноя-17 21:12 
Давай теперь я тебе кое-что расскажу. Уже 10 лет читаю, не меньше, в пресс-релизной инфе вот таких опенсорсных поделий, похожие цифры: "Мы добились офигительных результатов, высокая точность распознавания и все такое". 10 лет читаю, а в дистрибутивах до сих пор тыкаюсь мышкой и набираю с клавиатуры. Вопрос: Если все в вашей реальности так о%енно, то почему обещания не превращаются в нечто материальное? В то чем можно пользоваться в повседневности? Нахрен все это, если мы будем тыкаться мышкой и клавой еще 10 лет?

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено A.Stahl , 29-Ноя-17 21:27 
Не знаю как там в вашей рельности уродило сено, но в моей всякие Сири/Кортаны и прочие давно уже заняли нишу и показывают хорошие результаты. Попробуй ковокс отключить -- его писки могут заглушать твой голос мешая распознаванию.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено zubastik , 29-Ноя-17 21:35 
Мсье тyпой или прикидывается? С каких пор сири/кортавая стала опенсорсом? Почему ты сравниваешь закрытый коммерческий продукт титанов индустрии с наколенными бесплатными опенсорсными пoделками?

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено A.Stahl , 29-Ноя-17 21:38 
Потому что новость почитай. На базе чего сделана эта титаническая "наколенная поделка".
Впрочем, у меня бисер закончился. На сегодня хватит.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 30-Ноя-17 11:09 
На базе открытой платформы со странными лицензиями?

Однако, приводя в пример закрытые системы в виде Кортавой и Сри, в таком случае стоит вспомнить IBM и из OS/2 3 Warp, в которой распознавалка IBM ViaVoice шла "из коробки". К сожалению, только английский был. Русским они тоже делали вместе с нашими специалистами, но, видимо, всё заглохло. Зато эта ViaVoice была портирована в Linux и распространялась бесплатно, но оставалась закрытой.

Так что ваши Картаны и проч. -- хомячкой пример, что не удивительно.

Мазила изобрела велосипед. Дело нужное.


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Клыкастый , 30-Ноя-17 12:18 
> в таком случае стоит вспомнить IBM и из OS/2 3 Warp

и работала же, зараза такая. правда люди всё попадались непередовые. поиграются с голосовым управлением и назад к клаве и мышке.


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 30-Ноя-17 13:37 
Так и представляю гиков в консоли без клавы, но с голосовым вводом.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 30-Ноя-17 20:43 
И с трехмертым пальцетыкательным интерфейсом. И требование диплома об окончании дирижерского факультета от айтишников.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 01-Дек-17 17:27 
> Мазила изобрела велосипед. Дело нужное.

Когда мозилла изобретает велосипед, получается ашанбайк-двухподвес. Тяжелый, кривой, но выглядит почти как настоящий.


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 29-Ноя-17 23:10 
Пробовал Кортаной проги запускать, работало только на некоторых. А на "open telegram" после нескольких неудач начало искать в инете "woman taliban"...

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 29-Ноя-17 23:45 
Половина зубов хотя бы на месте? Что с прикусом? Я честно хз с ваших проблем с Кортаной на англ. Я с Сири плотно шпарю по-русски уже пару лет. А она только расцветает, красава ;)
Она у меня даже склонения имён и фамилий из контактов распознаёт. Я могу ей давать задания почти как живому человеку. Ему(!) давать задания - кому как нравится.



"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено microsoft , 30-Ноя-17 13:05 
> Я честно хз с ваших проблем с Кортаной на англ.

понимаете какое дело - суть картавой не в хорошем угадаве речи, а в хорошем угадаве что именно интересно (не "нужно") пользователю (для этого, а вовсе не для голосовой распознавалки, она want to know you closely).
Поэтому, если она у вас регулярно ищет "талибан" - дело не только в дефектах речи, и мы бы советовали не услуги логопеда, а поменьше посещать сайты для шахидов и фейсбучные тусовки по-читателей корана. А то телеметрия в ЦРУ отправляется, знаете-ли, автоматически, и в какой-то непрекрасный момент вас примут в аэропорту.


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 30-Ноя-17 20:45 
Майкроствт гнобит Кортану. Предсказуемо.
Впрочем, все равно надо идти на речной вокзал.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено username , 30-Ноя-17 11:09 
Мало того, сири в машине не англ имена и фамилии крайне плохо распознает. Может бы и пользовался для набора но пока внучную в с меню быстрее будет.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено rshadow , 29-Ноя-17 22:33 
Все распознавалки которые я щупал были похожи на выдернутые откуда то потрошка. Куски кода, без вменяемого интерфейса. Они работали, и даже неплохо, но чтобы их применить нужно быть программистом. Есть отличные наработки, а законченные продукты только у проприетарщиков.

Тот же SaLT например: кормишь ему словарь из нескольких слов и он четко определяет какое слово произнесено, но блин просто срет логом и даже через пайп не понятно как команду запустить на конкретное слово. Как в том анекдоте: ответ абсолютно верный, и абсолютно бесполезный.


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Anonymoustus , 01-Дек-17 10:10 
10 лет? Посмеялся, спасибо. Эти занимаются уже несколько десятилетий, да при финансировании и поддержке, да при невероятном улучшении доступных аппаратных ресурсов — но всё как-то без решительных побед.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 01-Дек-17 16:22 
>>Число ошибок распознавания составляет 6.5% ... уровень ошибок при распознавании человеком оценивается в 5.83%

А еще каждый год выходят прессрелизы о том что придумана новая технология аккумуляторов, так что вот-вот гаджеты будут работать целый год без подзарядки. Но пока единственный такой гаджет - наручные часы. Не умные нифига, да и то если подсветкой не сильно пользоваться.


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Ordu , 29-Ноя-17 21:34 
> KDE тоже 100 лет назад что-то выпустил

Даже если бы он выпустил что-то не 100 лет назад, а 10, то это пoдeлиe морально устарело бы и единственным подходящим ему местом был бы музей. С тех пор технологии распознавания речи продвинулись очень сильно. Причём не только в теоретическом плане, но и в технологическом -- сегодня есть, например, тот же тензорфлоу.

Плюс в новости же есть описание, что мало всяких там технологий, Мозилла создала базу данных для обучения: эти данные сегодня -- полдела в разработке очередного применения AI.


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 29-Ноя-17 22:18 
Значит скоро нас ждут большие возможности?? Или не ждут. Я запутался.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено mommy , 13-Янв-20 08:55 
Неа не будут, тезор выпилен из дебианов ибо собираецо соожна

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Я. Р. Ош , 29-Ноя-17 22:02 
Начнём с того, что это не KDE изначально выпустила этот проект.
Остальной твой звиздежь, если продраться через школололо обороты, такого же качества и достоверности.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Виталий , 29-Ноя-17 23:14 
так раньше на телеге ездили, не все сидят и ждут как ты
не получилось у тебя аргументированной критики дружище

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено iPony , 30-Ноя-17 12:27 
> Херня все это. KDE тоже 100 лет назад что-то выпустил, a воз и ныне там... Почему с мозиллой будет по-другому?

Сравнивал называется наколенных делателей десктопа, которых уже даже из Suse Enterprise выгнали с крупным игроком браузерного рынка.


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено разговоры с браузером , 29-Ноя-17 22:20 
Когда запилят в браузер? Будет ли встроенная телеметрия по сбору голосов в АНБ?

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено АНБ , 29-Ноя-17 22:30 
ты чо, совсем дурак, что-ли? Мы для чего эту технологию-то спонсируем, чтоб тонны твоего унц-унц-унц хранить на своих дисках? Телеметрия будет собирать не голос, а распознанный текст, в котором мы сможем пользоваться удобным поиском.


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 29-Ноя-17 22:54 
Я тебе недоверяю.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено АНБ , 30-Ноя-17 00:12 
А для нас это и не важно.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено ЦРУ , 02-Дек-17 12:26 
Коллеги, не хотелось мне о работе но ладно. Не надо заниматься распознаванием на устройстве, потом не проверить ж. Проще к нам высылать, а мы там это как можем. Люди разные бывают, поэтому иногда тут только ручной анализ работает.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 29-Ноя-17 22:40 
Я думаю, что до той же Сири там всегда будет как до Китая раком, хотя бы потому, что пользователей Сири не спрашивают, что они хотят передавать голосом на серверы, а что нет. Последние пару лет я везде где возможно использую голосовое взаимодействие с устройствами и меня эта тётка уже реально пугает. 4 года назад ещё так не пугала. С ней уже можно просто разговаривать, чего никак не скажешь о гугль-ассистенте, хотя, казалось бы, должно быть наоборот. Видимо, у двух компаний разный кпд и выхлоп ;)

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 29-Ноя-17 22:51 
Я думаю он вообще не выйдет. Пошумят и заглохнет, как всегда.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 30-Ноя-17 02:58 
А знаете ведь так и есть в крупных компаниях вообще очень сложно сделать любое начинание. В основном сплошной саботаж. Это я сейчас про Microsfot в частности говорю. Хотя сверху все вполне красиво выглядит в самом низу полнейший кошмар ... К сожалению, жто и погубит майкрософт скорее всего да впрочем любуюкомпанию.

У меня деж теория есть что развиваться может только небольшой стратап остальные только стагнировать и умирать...


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Виталий , 29-Ноя-17 23:43 
Похоже вы путаете распознавание голоса с искусственным интеллектом и биг датой используемые в сири для общения с вами.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Anonymoustus , 01-Дек-17 10:16 
Сири только притворяется тёткой. На самом деле в аппаратной сидят бородатые индусы в наушниках с микрофоном.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 30-Ноя-17 10:12 
Вы видели картинки этой системы? Как можно что-то в нее сказать, если во рту микрофон в виде лакомки???

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 30-Ноя-17 11:00 
Для русского языка имхо лучше KALDI с натренировонной моделью http://alphacephei.com/kaldi/kaldi-ru-0.3.tar.gz в опенсорсе ничего нет. Есть ещё sphinx, тоже хорош и тренируем. Но Kaldi показала лучше.
Был loguendo ASR, но он продавался только телекомам за какие то неопредлённые деньги, а сейчас вообще в недрах nuance канул. Да и без исходников он был.

Так что для русского языка KALDI очень хорош. Каналы по теме
https://t.me/cmusphinx
https://t.me/cmusphinx_ru


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 30-Ноя-17 14:46 
а саму модель-то я не нашёл.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Alex , 30-Ноя-17 18:39 
https://github.com/mozilla/DeepSpeech/releases/download/v0.1...

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено rvs2016 , 30-Ноя-17 20:33 
А кто-нибудь делает ли системы распознавания речи, которые умеют эту речь распознавать без интернета? А то распознают речь не на устройствах пользователя, а на своих серверах, к которым доступ может в любое время отвалиться и ещё чем-то там пытаются гордиться. :-)

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 01-Дек-17 03:57 
вот как раз Мозилла и сделала такую. Есть ещё cmu sphinx и julius, но это по сравнению с нейросетевыми вообще рандом.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 01-Дек-17 12:38 
KALDI на нейросетках

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Anonymoustus , 01-Дек-17 10:06 
Браузер-то уже достиг совершенства — почему бы не попробовать силы в чём-то ещё.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено Аноним , 01-Дек-17 16:23 
> Браузер-то уже достиг совершенства — почему бы не попробовать силы в чём-то ещё.

На вид это еще больше макет программы чем мозильский браузер.


"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено DmA , 01-Дек-17 23:11 
Чтобы сделать нормальную распознавалку речи, нужно начинать не с какого-то одного языка, а с  распознавания международного фонетического алфавита(фактически всех звуков, которые использует горло для передачи звуков речи). Далее создавать словари всех языков мира, в которых слова на каком-то языке записаны символами этого международного алфавита и искать по базе слов.Если такой набор звуков есть а нескольких языках, то тут уже спрашивать у человека, какой он предпочитает язык выдачи.

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено rvs2016 , 13-Ноя-19 15:33 
А как эту систему распознавания речи прикрутить к своему сайту? Ну чтобы не гугло-распознавателями через гугло-серверы распознавать, а только через свой сервер.