The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги | ]

29.11.2017 20:11  Проект Mozilla выпустил открытую систему распознавания речи

Проект Mozilla опубликовал первый выпуск модели для системы машинного обучения, ориентированной на распознавание речи. Также опубликован использованный для тренировки модели набор голосовых данных, собранный в результате инициативы Common Voice и включающий примеры произношения около 20 тысяч людей, которые надиктовали почти 400 тысяч записей суммарной продолжительностью 500 часов.

Благодаря участию в проекте большого числа добровольцев, удалось сформировать одну из крупнейших баз голосовых шаблонов, учитывающих всё разнообразие голосов и манер речи. Собранная база позволила натренировать модель для системы машинного обучения до уровня распознавания речи, при котором число ошибок примерно соответствует распознаванию обычным человеком при прослушивании тех же записей. В текущем виде число ошибок распознавания составляет 6.5% при использовании тестового набора LibriSpeech. Для сравнения, уровень ошибок при распознавании человеком оценивается в 5.83%, а уровень ошибок при работе Google Speech составляет 6.64%, wit.ai - 7.94%, Bing Speech - 11.73%, Apple Dictation - 14.24%.

В основе системы распознавания речи Mozilla лежит движок DeepSpeech, созданный с использованием открытой компанией Google платформы машинного обучения TensorFlow. DeepSpeech реализует в коде одноимённую архитектуру распознавания речи, предложенную исследователями из компании Baidu. Предложенный Mozilla набор помимо модели распознавания речи и примеров произношения включает готовые к применению модули для Python и NodeJS, позволяющие без лишних усложнений встроить в свои программы функции распознавания речи. Также поставляется инструментарий для распознавания из командной строки. Движок распознавания речи достаточно быстр и не требователен к ресурсам, что позволяет использовать его даже на платах Raspberry Pi.

DeepSpeech значительно проще традиционных систем и при этом обеспечивает более высокое качество распознавания при наличии постороннего шума. В разработке не используются традиционные акустические модели и концепция фонем, вместо них применяется хорошо оптимизированная система машинного обучения на основе нейронной сети, что позволяет обойтись без разработки отдельных компонентов для моделирования различных отклонений, таких как шум, эхо и особенности речи. Особенностью DeepSpeech является то, что для получения качественного распознавания данная архитектура требует большого объёма разнородных данных для осуществления обучения, надиктованных в реальных условиях разными голосами и при наличии естественных шумов.

Опубликованный набор голосовых данных не ограничен применением в DeepSpeech и может оказаться полезным и для других открытых проектов, занимающихся распознаванием речи, таких как Sphinx, Kaldi, VoxForge, ISIP, HTK и Julius. До сих пор исследователям и разработчикам были доступны только ограниченные наборы голосовых данных, а стоимость полноценных коллекций голосовых выборок исчислялась десятками тысяч долларов, что сильно тормозило независимые исследования в области распознавание речи. В настоящее время работа сосредоточена только на распознавании английского языка, но в первой половине 2018 года планируется приступить к сбору примеров произношения для других языков.

  1. Главная ссылка к новости (https://blog.mozilla.org/blog/...)
  2. OpenNews: Mozilla развивает свою систему распознавания речи
  3. OpenNews: В Firefox началось тестирование отправки файлов, голосового ввода и заметок
  4. OpenNews: Mozilla планирует протестировать в Firefox возможности Lockbox, Tabsplit, ThemesRfun и Foxy
  5. OpenNews: Тестовый выпуск свободной системы распознавания речи Simon 0.4.80
  6. OpenNews: Представлен Sirius, открытый персональный ассистент, напоминающий Apple Siri и Google Now
Лицензия: CC-BY
Тип: Интересно / К сведению
Ключевые слова: mozilla, voice, speach
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Ajax/Линейный | Раскрыть все сообщения | RSS
 
  • 1.2, Аноним (-), 20:54, 29/11/2017 [ответить] [показать ветку] [···]    [к модератору]
  • +7 +/
    Качественное распознавание голоса без зондов, впервые.
     
     
  • 2.19, Аноним (-), 22:29, 29/11/2017 [^] [ответить]    [к модератору]
  • –7 +/
    Мозилла? Без зондов? Хорошая шутка. В браузере килотонны телеметрии.
     
     
  • 3.23, Аноним (-), 22:41, 29/11/2017 [^] [ответить]    [к модератору]
  • +3 +/
    Как вы тут такие вообще представляете себе распознавание речи без телеметрии и накоплении глобальных баз данных?
     
     
  • 4.28, Аноним (-), 22:53, 29/11/2017 [^] [ответить]    [к модератору]
  • –3 +/
    Да-да, отличная причина толкать всем умные телевизоры сосунг со встроенными микрофонами и камерой. Замечательное оправдание. ;)
     
     
  • 5.31, Аноним (-), 23:00, 29/11/2017 [^] [ответить]    [к модератору]
  • +2 +/
    Да-да, отличная причина толкать всем умные телефоны сосунг со встроенными микрофонами
    и камерой. Замечательное оправдание. ;)

    #оченьбыстрофикс


     
  • 5.36, Вулх (?), 23:23, 29/11/2017 [^] [ответить]    [к модератору]  
  • +/
    Где новость, а где телевизоры, вы читали тест новости и текст комментария на который отвечаете?
     
  • 5.56, Аноним (-), 20:39, 30/11/2017 [^] [ответить]    [к модератору]  
  • +1 +/
    Со временем уберут, надо только научиться мыслепреступления прямо из мозга считывать.
     
  • 3.44, meequz (ok), 11:06, 30/11/2017 [^] [ответить]    [к модератору]  
  • +/
    По-твоему, телеметрия и зонды это синонимы?
     
     
  • 4.50, Аноним (-), 13:30, 30/11/2017 [^] [ответить]    [к модератору]  
  • +1 +/
    Применительно к Веб - да.
     
  • 2.66, Аноним (-), 16:20, 01/12/2017 [^] [ответить]     [к модератору]  
  • +/
    За мозиллой это еще неплохо бы проверить Там какая-то питонятина навалена, да е... весь текст скрыт [показать]
     
  • 1.3, Аноним (-), 20:54, 29/11/2017 [ответить] [показать ветку] [···]    [к модератору]  
  • –1 +/
    Чего говорите, "расширения отвалились"? Извините, мы делаем очередную распознавалку речи.
     
  • 1.4, Free Speech (?), 20:55, 29/11/2017 [ответить] [показать ветку] [···]    [к модератору]  
  • +22 +/
    Херня все это. KDE тоже 100 лет назад что-то выпустил, a воз и ныне там. Вот нашел - Simon называется. Она даже английский за столько лет нормально распарсить не научилась, остальных языков при нашей жизни точно не дождемся.

    https://simon.kde.org/

    Есть еще несколько опенсорсных распознавалок речи, и все они мягко говоря так же в жопе. Почему с мозиллой будет по-другому?

     
     
  • 2.5, A.Stahl (ok), 21:00, 29/11/2017 [^] [ответить]     [к модератору]  
  • –3 +/
    Дай я тебе помогу и процитирую немного статью Там просто нужная для тебя информ... весь текст скрыт [показать]
     
     
  • 3.6, Виталий Нилл (?), 21:12, 29/11/2017 [^] [ответить]    [к модератору]  
  • +16 +/
    Давай теперь я тебе кое-что расскажу. Уже 10 лет читаю, не меньше, в пресс-релизной инфе вот таких опенсорсных поделий, похожие цифры: "Мы добились офигительных результатов, высокая точность распознавания и все такое". 10 лет читаю, а в дистрибутивах до сих пор тыкаюсь мышкой и набираю с клавиатуры. Вопрос: Если все в вашей реальности так о%енно, то почему обещания не превращаются в нечто материальное? В то чем можно пользоваться в повседневности? Нахрен все это, если мы будем тыкаться мышкой и клавой еще 10 лет?
     
     
  • 4.8, A.Stahl (ok), 21:27, 29/11/2017 [^] [ответить]     [к модератору]  
  • –6 +/
    Не знаю как там в вашей рельности уродило сено, но в моей всякие Сири Кортаны и ... весь текст скрыт [показать]
     
     
  • 5.10, zubastik (?), 21:35, 29/11/2017 [^] [ответить]    [к модератору]  
  • +8 +/
    Мсье тyпой или прикидывается? С каких пор сири/кортавая стала опенсорсом? Почему ты сравниваешь закрытый коммерческий продукт титанов индустрии с наколенными бесплатными опенсорсными пoделками?
     
     
  • 6.11, A.Stahl (ok), 21:38, 29/11/2017 [^] [ответить]    [к модератору]  
  • –4 +/
    Потому что новость почитай. На базе чего сделана эта титаническая "наколенная поделка".
    Впрочем, у меня бисер закончился. На сегодня хватит.
     
     
  • 7.46, Аноним (-), 11:09, 30/11/2017 [^] [ответить]     [к модератору]  
  • +1 +/
    На базе открытой платформы со странными лицензиями Однако, приводя в пример зак... весь текст скрыт [показать]
     
     
  • 8.47, Клыкастый (ok), 12:18, 30/11/2017 [^] [ответить]    [к модератору]  
  • +1 +/
    > в таком случае стоит вспомнить IBM и из OS/2 3 Warp

    и работала же, зараза такая. правда люди всё попадались непередовые. поиграются с голосовым управлением и назад к клаве и мышке.

     
     
  • 9.51, Аноним (-), 13:37, 30/11/2017 [^] [ответить]    [к модератору]  
  • +/
    Так и представляю гиков в консоли без клавы, но с голосовым вводом.
     
     
  • 10.57, Аноним (-), 20:43, 30/11/2017 [^] [ответить]    [к модератору]  
  • +/
    И с трехмертым пальцетыкательным интерфейсом. И требование диплома об окончании дирижерского факультета от айтишников.
     
  • 8.69, Аноним (-), 17:27, 01/12/2017 [^] [ответить]    [к модератору]  
  • +/
    > Мазила изобрела велосипед. Дело нужное.

    Когда мозилла изобретает велосипед, получается ашанбайк-двухподвес. Тяжелый, кривой, но выглядит почти как настоящий.

     
  • 6.33, Аноним (-), 23:10, 29/11/2017 [^] [ответить]    [к модератору]  
  • +/
    Пробовал Кортаной проги запускать, работало только на некоторых. А на "open telegram" после нескольких неудач начало искать в инете "woman taliban"...
     
     
  • 7.38, Аноним (-), 23:45, 29/11/2017 [^] [ответить]     [к модератору]  
  • –1 +/
    Половина зубов хотя бы на месте Что с прикусом Я честно хз с ваших проблем с К... весь текст скрыт [показать]
     
     
  • 8.49, microsoft (?), 13:05, 30/11/2017 [^] [ответить]     [к модератору]  
  • +/
    понимаете какое дело - суть картавой не в хорошем угадаве речи, а в хорошем угад... весь текст скрыт [показать]
     
     
  • 9.58, Аноним (-), 20:45, 30/11/2017 [^] [ответить]    [к модератору]  
  • +/
    Майкроствт гнобит Кортану. Предсказуемо.
    Впрочем, все равно надо идти на речной вокзал.
     
  • 6.45, username (??), 11:09, 30/11/2017 [^] [ответить]    [к модератору]  
  • +/
    Мало того, сири в машине не англ имена и фамилии крайне плохо распознает. Может бы и пользовался для набора но пока внучную в с меню быстрее будет.
     
  • 4.21, rshadow (ok), 22:33, 29/11/2017 [^] [ответить]     [к модератору]  
  • +/
    Все распознавалки которые я щупал были похожи на выдернутые откуда то потрошка ... весь текст скрыт [показать]
     
  • 4.63, Anonymoustus (ok), 10:10, 01/12/2017 [^] [ответить]     [к модератору]  
  • +/
    10 лет Посмеялся, спасибо Эти занимаются уже несколько десятилетий, да при фин... весь текст скрыт [показать]
     
  • 3.67, Аноним (-), 16:22, 01/12/2017 [^] [ответить]     [к модератору]  
  • +/
    А еще каждый год выходят прессрелизы о том что придумана новая технология аккуму... весь текст скрыт [показать]
     
  • 2.9, Ordu (ok), 21:34, 29/11/2017 [^] [ответить]     [к модератору]  
  • +1 +/
    Даже если бы он выпустил что-то не 100 лет назад, а 10, то это пoдeлиe морально ... весь текст скрыт [показать]
     
     
  • 3.17, Аноним (-), 22:18, 29/11/2017 [^] [ответить]    [к модератору]  
  • +/
    Значит скоро нас ждут большие возможности?? Или не ждут. Я запутался.
     
  • 2.12, Я. Р. Ош (?), 22:02, 29/11/2017 [^] [ответить]    [к модератору]  
  • +1 +/
    Начнём с того, что это не KDE изначально выпустила этот проект.
    Остальной твой звиздежь, если продраться через школололо обороты, такого же качества и достоверности.
     
  • 2.34, Виталий (??), 23:14, 29/11/2017 [^] [ответить]    [к модератору]  
  • +/
    так раньше на телеге ездили, не все сидят и ждут как ты
    не получилось у тебя аргументированной критики дружище
     
  • 2.48, iPony (?), 12:27, 30/11/2017 [^] [ответить]     [к модератору]  
  • +/
    Сравнивал называется наколенных делателей десктопа, которых уже даже из Suse Ent... весь текст скрыт [показать]
     
  • 1.18, разговоры с браузером (?), 22:20, 29/11/2017 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    Когда запилят в браузер? Будет ли встроенная телеметрия по сбору голосов в АНБ?
     
     
  • 2.20, АНБ (?), 22:30, 29/11/2017 [^] [ответить]     [к модератору]  
  • +4 +/
    ты чо, совсем дурак, что-ли Мы для чего эту технологию-то спонсируем, чтоб тонн... весь текст скрыт [показать]
     
     
  • 3.30, Аноним (-), 22:54, 29/11/2017 [^] [ответить]    [к модератору]  
  • +1 +/
    Я тебе недоверяю.
     
     
  • 4.40, АНБ (?), 00:12, 30/11/2017 [^] [ответить]    [к модератору]  
  • +1 +/
    А для нас это и не важно.
     
  • 3.71, ЦРУ (?), 12:26, 02/12/2017 [^] [ответить]     [к модератору]  
  • +/
    Коллеги, не хотелось мне о работе но ладно Не надо заниматься распознаванием на... весь текст скрыт [показать]
     
  • 1.22, Аноним (-), 22:40, 29/11/2017 [ответить] [показать ветку] [···]     [к модератору]  
  • –2 +/
    Я думаю, что до той же Сири там всегда будет как до Китая раком, хотя бы потому,... весь текст скрыт [показать]
     
     
  • 2.26, Аноним (-), 22:51, 29/11/2017 [^] [ответить]    [к модератору]  
  • +/
    Я думаю он вообще не выйдет. Пошумят и заглохнет, как всегда.
     
     
  • 3.41, Аноним (-), 02:58, 30/11/2017 [^] [ответить]     [к модератору]  
  • +/
    А знаете ведь так и есть в крупных компаниях вообще очень сложно сделать любое н... весь текст скрыт [показать]
     
  • 2.37, Виталий (??), 23:43, 29/11/2017 [^] [ответить]    [к модератору]  
  • +/
    Похоже вы путаете распознавание голоса с искусственным интеллектом и биг датой используемые в сири для общения с вами.
     
  • 2.64, Anonymoustus (ok), 10:16, 01/12/2017 [^] [ответить]    [к модератору]  
  • +/
    Сири только притворяется тёткой. На самом деле в аппаратной сидят бородатые индусы в наушниках с микрофоном.
     
  • 1.42, Аноним (-), 10:12, 30/11/2017 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    Вы видели картинки этой системы? Как можно что-то в нее сказать, если во рту микрофон в виде лакомки???
     
  • 1.43, Аноним (-), 11:00, 30/11/2017 [ответить] [показать ветку] [···]     [к модератору]  
  • +2 +/
    Для русского языка имхо лучше KALDI с натренировонной моделью http alphacephei... весь текст скрыт [показать]
     
  • 1.52, Аноним (-), 14:46, 30/11/2017 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    а саму модель-то я не нашёл.
     
  • 1.55, rvs2016 (ok), 20:33, 30/11/2017 [ответить] [показать ветку] [···]    [к модератору]  
  • –1 +/
    А кто-нибудь делает ли системы распознавания речи, которые умеют эту речь распознавать без интернета? А то распознают речь не на устройствах пользователя, а на своих серверах, к которым доступ может в любое время отвалиться и ещё чем-то там пытаются гордиться. :-)
     
     
  • 2.61, Аноним (-), 03:57, 01/12/2017 [^] [ответить]    [к модератору]  
  • +1 +/
    вот как раз Мозилла и сделала такую. Есть ещё cmu sphinx и julius, но это по сравнению с нейросетевыми вообще рандом.
     
     
  • 3.65, Аноним (-), 12:38, 01/12/2017 [^] [ответить]    [к модератору]  
  • +/
    KALDI на нейросетках
     
  • 1.62, Anonymoustus (ok), 10:06, 01/12/2017 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    Браузер-то уже достиг совершенства — почему бы не попробовать силы в чём-то ещё.
     
     
  • 2.68, Аноним (-), 16:23, 01/12/2017 [^] [ответить]    [к модератору]  
  • +/
    > Браузер-то уже достиг совершенства — почему бы не попробовать силы в чём-то ещё.

    На вид это еще больше макет программы чем мозильский браузер.

     
  • 1.70, DmA (??), 23:11, 01/12/2017 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    Чтобы сделать нормальную распознавалку речи, нужно начинать не с какого-то одного языка, а с  распознавания международного фонетического алфавита(фактически всех звуков, которые использует горло для передачи звуков речи). Далее создавать словари всех языков мира, в которых слова на каком-то языке записаны символами этого международного алфавита и искать по базе слов.Если такой набор звуков есть а нескольких языках, то тут уже спрашивать у человека, какой он предпочитает язык выдачи.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2018 by Maxim Chirkov  
    ДобавитьПоддержатьВебмастеруГИД  
    Hosting by Ihor