The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги ]

29.11.2017 20:11  Проект Mozilla выпустил открытую систему распознавания речи

Проект Mozilla опубликовал первый выпуск модели для системы машинного обучения, ориентированной на распознавание речи. Также опубликован использованный для тренировки модели набор голосовых данных, собранный в результате инициативы Common Voice и включающий примеры произношения около 20 тысяч людей, которые надиктовали почти 400 тысяч записей суммарной продолжительностью 500 часов.

Благодаря участию в проекте большого числа добровольцев, удалось сформировать одну из крупнейших баз голосовых шаблонов, учитывающих всё разнообразие голосов и манер речи. Собранная база позволила натренировать модель для системы машинного обучения до уровня распознавания речи, при котором число ошибок примерно соответствует распознаванию обычным человеком при прослушивании тех же записей. В текущем виде число ошибок распознавания составляет 6.5% при использовании тестового набора LibriSpeech. Для сравнения, уровень ошибок при распознавании человеком оценивается в 5.83%, а уровень ошибок при работе Google Speech составляет 6.64%, wit.ai - 7.94%, Bing Speech - 11.73%, Apple Dictation - 14.24%.

В основе системы распознавания речи Mozilla лежит движок DeepSpeech, созданный с использованием открытой компанией Google платформы машинного обучения TensorFlow. DeepSpeech реализует в коде одноимённую архитектуру распознавания речи, предложенную исследователями из компании Baidu. Предложенный Mozilla набор помимо модели распознавания речи и примеров произношения включает готовые к применению модули для Python и NodeJS, позволяющие без лишних усложнений встроить в свои программы функции распознавания речи. Также поставляется инструментарий для распознавания из командной строки. Движок распознавания речи достаточно быстр и не требователен к ресурсам, что позволяет использовать его даже на платах Raspberry Pi.

DeepSpeech значительно проще традиционных систем и при этом обеспечивает более высокое качество распознавания при наличии постороннего шума. В разработке не используются традиционные акустические модели и концепция фонем, вместо них применяется хорошо оптимизированная система машинного обучения на основе нейронной сети, что позволяет обойтись без разработки отдельных компонентов для моделирования различных отклонений, таких как шум, эхо и особенности речи. Особенностью DeepSpeech является то, что для получения качественного распознавания данная архитектура требует большого объёма разнородных данных для осуществления обучения, надиктованных в реальных условиях разными голосами и при наличии естественных шумов.

Опубликованный набор голосовых данных не ограничен применением в DeepSpeech и может оказаться полезным и для других открытых проектов, занимающихся распознаванием речи, таких как Sphinx, Kaldi, VoxForge, ISIP, HTK и Julius. До сих пор исследователям и разработчикам были доступны только ограниченные наборы голосовых данных, а стоимость полноценных коллекций голосовых выборок исчислялась десятками тысяч долларов, что сильно тормозило независимые исследования в области распознавание речи. В настоящее время работа сосредоточена только на распознавании английского языка, но в первой половине 2018 года планируется приступить к сбору примеров произношения для других языков.

  1. Главная ссылка к новости (https://blog.mozilla.org/blog/...)
  2. OpenNews: Mozilla развивает свою систему распознавания речи
  3. OpenNews: В Firefox началось тестирование отправки файлов, голосового ввода и заметок
  4. OpenNews: Mozilla планирует протестировать в Firefox возможности Lockbox, Tabsplit, ThemesRfun и Foxy
  5. OpenNews: Тестовый выпуск свободной системы распознавания речи Simon 0.4.80
  6. OpenNews: Представлен Sirius, открытый персональный ассистент, напоминающий Apple Siri и Google Now
Лицензия: CC-BY
Тип: Интересно / К сведению
Ключевые слова: mozilla, voice, speach
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Линейный вид | Ajax | Показать все | RSS
 
  • 1.2, Аноним, 20:54, 29/11/2017 [ответить] [смотреть все]
  • +7 +/
    Качественное распознавание голоса без зондов, впервые.
     
     
  • 2.19, Аноним, 22:29, 29/11/2017 [^] [ответить] [смотреть все] [показать ветку]
  • –7 +/
    Мозилла? Без зондов? Хорошая шутка. В браузере килотонны телеметрии.
     
     
  • 3.23, Аноним, 22:41, 29/11/2017 [^] [ответить] [смотреть все]
  • +3 +/
    Как вы тут такие вообще представляете себе распознавание речи без телеметрии и н... весь текст скрыт [показать]
     
     
  • 4.28, Аноним, 22:53, 29/11/2017 [^] [ответить] [смотреть все]  
  • –3 +/
    Да-да, отличная причина толкать всем умные телевизоры сосунг со встроенными микр... весь текст скрыт [показать]
     
     
  • 5.31, Аноним, 23:00, 29/11/2017 [^] [ответить] [смотреть все]  
  • +2 +/
    Да-да, отличная причина толкать всем умные телефоны сосунг со встроенными микроф... весь текст скрыт [показать]
     
  • 5.36, Вулх, 23:23, 29/11/2017 [^] [ответить] [смотреть все]  
  • +/
    Где новость, а где телевизоры, вы читали тест новости и текст комментария на кот... весь текст скрыт [показать]
     
  • 5.56, Аноним, 20:39, 30/11/2017 [^] [ответить] [смотреть все]  
  • +1 +/
    Со временем уберут, надо только научиться мыслепреступления прямо из мозга считы... весь текст скрыт [показать]
     
  • 3.44, meequz, 11:06, 30/11/2017 [^] [ответить] [смотреть все]  
  • +/
    По-твоему, телеметрия и зонды это синонимы?
     
     
  • 4.50, Аноним, 13:30, 30/11/2017 [^] [ответить] [смотреть все]  
  • +1 +/
    Применительно к Веб - да.
     
  • 2.66, Аноним, 16:20, 01/12/2017 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    За мозиллой это еще неплохо бы проверить Там какая-то питонятина навалена, да е... весь текст скрыт [показать] [показать ветку]
     
  • 1.3, Аноним, 20:54, 29/11/2017 [ответить] [смотреть все]  
  • –1 +/
    Чего говорите, расширения отвалились Извините, мы делаем очередную распознава... весь текст скрыт [показать]
     
  • 1.4, Free Speech, 20:55, 29/11/2017 [ответить] [смотреть все]  
  • +22 +/
    Херня все это. KDE тоже 100 лет назад что-то выпустил, a воз и ныне там. Вот нашел - Simon называется. Она даже английский за столько лет нормально распарсить не научилась, остальных языков при нашей жизни точно не дождемся.

    https://simon.kde.org/

    Есть еще несколько опенсорсных распознавалок речи, и все они мягко говоря так же в жопе. Почему с мозиллой будет по-другому?

     
     
  • 2.5, A.Stahl, 21:00, 29/11/2017 [^] [ответить] [смотреть все] [показать ветку]  
  • –3 +/
    Дай я тебе помогу и процитирую немного статью Там просто нужная для тебя информ... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.6, Виталий Нилл, 21:12, 29/11/2017 [^] [ответить] [смотреть все]  
  • +16 +/
    Давай теперь я тебе кое-что расскажу. Уже 10 лет читаю, не меньше, в пресс-релизной инфе вот таких опенсорсных поделий, похожие цифры: "Мы добились офигительных результатов, высокая точность распознавания и все такое". 10 лет читаю, а в дистрибутивах до сих пор тыкаюсь мышкой и набираю с клавиатуры. Вопрос: Если все в вашей реальности так о%енно, то почему обещания не превращаются в нечто материальное? В то чем можно пользоваться в повседневности? Нахрен все это, если мы будем тыкаться мышкой и клавой еще 10 лет?
     
     
  • 4.8, A.Stahl, 21:27, 29/11/2017 [^] [ответить] [смотреть все]  
  • –6 +/
    Не знаю как там в вашей рельности уродило сено, но в моей всякие Сири Кортаны и ... весь текст скрыт [показать]
     
     
  • 5.10, zubastik, 21:35, 29/11/2017 [^] [ответить] [смотреть все]  
  • +8 +/
    Мсье тyпой или прикидывается? С каких пор сири/кортавая стала опенсорсом? Почему ты сравниваешь закрытый коммерческий продукт титанов индустрии с наколенными бесплатными опенсорсными пoделками?
     
     
  • 6.11, A.Stahl, 21:38, 29/11/2017 [^] [ответить] [смотреть все]  
  • –4 +/
    Потому что новость почитай На базе чего сделана эта титаническая наколенная по... весь текст скрыт [показать]
     
     
  • 7.46, Аноним, 11:09, 30/11/2017 [^] [ответить] [смотреть все]  
  • +1 +/
    На базе открытой платформы со странными лицензиями Однако, приводя в пример зак... весь текст скрыт [показать]
     
     
  • 8.47, Клыкастый, 12:18, 30/11/2017 [^] [ответить] [смотреть все]  
  • +1 +/
    и работала же, зараза такая правда люди всё попадались непередовые поиграются ... весь текст скрыт [показать]
     
     
  • 9.51, Аноним, 13:37, 30/11/2017 [^] [ответить] [смотреть все]  
  • +/
    Так и представляю гиков в консоли без клавы, но с голосовым вводом.
     
     
  • 10.57, Аноним, 20:43, 30/11/2017 [^] [ответить] [смотреть все]  
  • +/
    И с трехмертым пальцетыкательным интерфейсом И требование диплома об окончании ... весь текст скрыт [показать]
     
  • 8.69, Аноним, 17:27, 01/12/2017 [^] [ответить] [смотреть все]  
  • +/
    Когда мозилла изобретает велосипед, получается ашанбайк-двухподвес Тяжелый, кри... весь текст скрыт [показать]
     
  • 6.33, Аноним, 23:10, 29/11/2017 [^] [ответить] [смотреть все]  
  • +/
    Пробовал Кортаной проги запускать, работало только на некоторых А на open tele... весь текст скрыт [показать]
     
     
  • 7.38, Аноним, 23:45, 29/11/2017 [^] [ответить] [смотреть все]  
  • –1 +/
    Половина зубов хотя бы на месте Что с прикусом Я честно хз с ваших проблем с К... весь текст скрыт [показать]
     
     
  • 8.49, microsoft, 13:05, 30/11/2017 [^] [ответить] [смотреть все]  
  • +/
    понимаете какое дело - суть картавой не в хорошем угадаве речи, а в хорошем угад... весь текст скрыт [показать]
     
     
  • 9.58, Аноним, 20:45, 30/11/2017 [^] [ответить] [смотреть все]  
  • +/
    Майкроствт гнобит Кортану Предсказуемо Впрочем, все равно надо идти на речной ... весь текст скрыт [показать]
     
  • 6.45, username, 11:09, 30/11/2017 [^] [ответить] [смотреть все]  
  • +/
    Мало того, сири в машине не англ имена и фамилии крайне плохо распознает Может ... весь текст скрыт [показать]
     
  • 4.21, rshadow, 22:33, 29/11/2017 [^] [ответить] [смотреть все]  
  • +/
    Все распознавалки которые я щупал были похожи на выдернутые откуда то потрошка ... весь текст скрыт [показать]
     
  • 4.63, Anonymoustus, 10:10, 01/12/2017 [^] [ответить] [смотреть все]  
  • +/
    10 лет? Посмеялся, спасибо. Эти занимаются уже несколько десятилетий, да при финансировании и поддержке, да при невероятном улучшении доступных аппаратных ресурсов — но всё как-то без решительных побед.
     
  • 3.67, Аноним, 16:22, 01/12/2017 [^] [ответить] [смотреть все]  
  • +/
    А еще каждый год выходят прессрелизы о том что придумана новая технология аккуму... весь текст скрыт [показать]
     
  • 2.9, Ordu, 21:34, 29/11/2017 [^] [ответить] [смотреть все] [показать ветку]  
  • +1 +/
    Даже если бы он выпустил что-то не 100 лет назад, а 10, то это пoдeлиe морально ... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.17, Аноним, 22:18, 29/11/2017 [^] [ответить] [смотреть все]  
  • +/
    Значит скоро нас ждут большие возможности?? Или не ждут. Я запутался.
     
  • 2.12, Я. Р. Ош, 22:02, 29/11/2017 [^] [ответить] [смотреть все] [показать ветку]  
  • +1 +/
    Начнём с того, что это не KDE изначально выпустила этот проект Остальной твой з... весь текст скрыт [показать] [показать ветку]
     
  • 2.34, Виталий, 23:14, 29/11/2017 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    так раньше на телеге ездили, не все сидят и ждут как ты не получилось у тебя арг... весь текст скрыт [показать] [показать ветку]
     
  • 2.48, iPony, 12:27, 30/11/2017 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    Сравнивал называется наколенных делателей десктопа, которых уже даже из Suse Ent... весь текст скрыт [показать] [показать ветку]
     
  • 1.18, разговоры с браузером, 22:20, 29/11/2017 [ответить] [смотреть все]  
  • +/
    Когда запилят в браузер? Будет ли встроенная телеметрия по сбору голосов в АНБ?
     
     
  • 2.20, АНБ, 22:30, 29/11/2017 [^] [ответить] [смотреть все] [показать ветку]  
  • +4 +/
    ты чо, совсем дурак, что-ли Мы для чего эту технологию-то спонсируем, чтоб тонн... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.30, Аноним, 22:54, 29/11/2017 [^] [ответить] [смотреть все]  
  • +1 +/
    Я тебе недоверяю.
     
     
  • 4.40, АНБ, 00:12, 30/11/2017 [^] [ответить] [смотреть все]  
  • +1 +/
    А для нас это и не важно.
     
  • 3.71, ЦРУ, 12:26, 02/12/2017 [^] [ответить] [смотреть все]    [к модератору]  
  • +/
    Коллеги, не хотелось мне о работе но ладно. Не надо заниматься распознаванием на устройстве, потом не проверить ж. Проще к нам высылать, а мы там это как можем. Люди разные бывают, поэтому иногда тут только ручной анализ работает.
     
  • 1.22, Аноним, 22:40, 29/11/2017 [ответить] [смотреть все]  
  • –2 +/
    Я думаю, что до той же Сири там всегда будет как до Китая раком, хотя бы потому,... весь текст скрыт [показать]
     
     
  • 2.26, Аноним, 22:51, 29/11/2017 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    Я думаю он вообще не выйдет. Пошумят и заглохнет, как всегда.
     
     
  • 3.41, Аноним, 02:58, 30/11/2017 [^] [ответить] [смотреть все]  
  • +/
    А знаете ведь так и есть в крупных компаниях вообще очень сложно сделать любое н... весь текст скрыт [показать]
     
  • 2.37, Виталий, 23:43, 29/11/2017 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    Похоже вы путаете распознавание голоса с искусственным интеллектом и биг датой и... весь текст скрыт [показать] [показать ветку]
     
  • 2.64, Anonymoustus, 10:16, 01/12/2017 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    Сири только притворяется тёткой. На самом деле в аппаратной сидят бородатые индусы в наушниках с микрофоном.
     
  • 1.42, Аноним, 10:12, 30/11/2017 [ответить] [смотреть все]  
  • +/
    Вы видели картинки этой системы Как можно что-то в нее сказать, если во рту мик... весь текст скрыт [показать]
     
  • 1.43, Аноним, 11:00, 30/11/2017 [ответить] [смотреть все]  
  • +2 +/
    Для русского языка имхо лучше KALDI с натренировонной моделью http alphacephei... весь текст скрыт [показать]
     
  • 1.52, Аноним, 14:46, 30/11/2017 [ответить] [смотреть все]  
  • +/
    а саму модель-то я не нашёл.
     
  • 1.55, rvs2016, 20:33, 30/11/2017 [ответить] [смотреть все]  
  • –1 +/
    А кто-нибудь делает ли системы распознавания речи, которые умеют эту речь распознавать без интернета? А то распознают речь не на устройствах пользователя, а на своих серверах, к которым доступ может в любое время отвалиться и ещё чем-то там пытаются гордиться. :-)
     
     
  • 2.61, Аноним, 03:57, 01/12/2017 [^] [ответить] [смотреть все] [показать ветку]  
  • +1 +/
    вот как раз Мозилла и сделала такую Есть ещё cmu sphinx и julius, но это по сра... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.65, Аноним, 12:38, 01/12/2017 [^] [ответить] [смотреть все]  
  • +/
    KALDI на нейросетках
     
  • 1.62, Anonymoustus, 10:06, 01/12/2017 [ответить] [смотреть все]  
  • +/
    Браузер-то уже достиг совершенства — почему бы не попробовать силы в чём-то ещё.
     
     
  • 2.68, Аноним, 16:23, 01/12/2017 [^] [ответить] [смотреть все] [показать ветку]  
  • +/
    На вид это еще больше макет программы чем мозильский браузер ... весь текст скрыт [показать] [показать ветку]
     
  • 1.70, DmA, 23:11, 01/12/2017 [ответить] [смотреть все]  
  • +/
    Чтобы сделать нормальную распознавалку речи, нужно начинать не с какого-то одного языка, а с  распознавания международного фонетического алфавита(фактически всех звуков, которые использует горло для передачи звуков речи). Далее создавать словари всех языков мира, в которых слова на каком-то языке записаны символами этого международного алфавита и искать по базе слов.Если такой набор звуков есть а нескольких языках, то тут уже спрашивать у человека, какой он предпочитает язык выдачи.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2017 by Maxim Chirkov  
    ДобавитьРекламаВебмастеруГИД  
    Hosting by Ihor