The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Индекс форумов
Составление сообщения

Исходное сообщение
"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено opennews, 29-Ноя-17 20:46 
Проект Mozilla опубликовал (https://blog.mozilla.org/blog/2017/11/29/announcing-the-init.../) первый выпуск модели (https://hacks.mozilla.org/2017/11/a-journey-to-10-word-error.../) для системы машинного обучения, ориентированной на распознавание речи. Также опубликован использованный для  тренировки модели набор (https://medium.com/mozilla-open-innovation/sharing-our-commo...) голосовых данных, собранный в результате инициативы Common Voice (https://voice.mozilla.org/) и включающий (https://voice.mozilla.org/data) примеры произношения около 20 тысяч людей, которые надиктовали почти 400 тысяч записей суммарной продолжительностью 500 часов.

Благодаря участию в проекте большого числа добровольцев, удалось сформировать одну из крупнейших баз голосовых шаблонов, учитывающих всё разнообразие голосов и манер речи. Собранная база позволила натренировать модель для системы машинного обучения до уровня распознавания речи, при котором число ошибок примерно соответствует распознаванию обычным человеком при прослушивании тех же записей. В текущем виде число ошибок распознавания составляет 6.5% при использовании тестового набора LibriSpeech (http://www.openslr.org/12/). Для сравнения,  уровень ошибок при распознавании человеком оценивается в 5.83%, а уровень ошибок при работе Google Speech составляет 6.64%, wit.ai  - 7.94%, Bing Speech - 11.73%, Apple Dictation -  14.24%.


В основе системы распознавания речи Mozilla лежит (https://research.mozilla.org/machine-learning/) движок
DeepSpeech (https://github.com/mozilla/DeepSpeech), созданный с использованием открытой компанией Google платформы машинного обучения TensorFlow (https://www.opennet.ru/opennews/art.shtml?num=46058). DeepSpeech реализует в коде одноимённую архитектуру распознавания речи, предложенную (https://arxiv.org/abs/1412.5567) исследователями из компании Baidu. Предложенный (https://github.com/mozilla/DeepSpeech) Mozilla набор помимо  модели распознавания речи и примеров произношения включает готовые к применению модули  для Python и NodeJS, позволяющие без лишних усложнений встроить в свои программы функции распознавания речи. Также поставляется инструментарий для распознавания из командной строки. Движок распознавания речи достаточно быстр и не требователен к ресурсам, что позволяет использовать его даже на платах Raspberry Pi.


DeepSpeech значительно проще традиционных систем и при этом обеспечивает более высокое качество распознавания при наличии постороннего шума. В разработке не используются традиционные акустические модели и концепция фонем, вместо которых применяется хорошо оптимизированная система машинного обучения на основе нейронной сети, что позволяет обойтись без разработки отдельных компонентов для моделирования различных отклонений, таких как шум, эхо и особенности  речи.  Особенностью DeepSpeech  является то, что для получения качественного распознавания данная архитектура требует большого объёма разнородных данных для осуществления обучения, надиктованных в реальных условиях разными голосами и при наличии естественных шумов.

Опубликованный набор голосовых данных не ограничен применением в DeepSpeech и может оказаться полезным и для других открытых проектов, занимающихся распознаванием речи, таких как Sphinx (https://cmusphinx.github.io/), Kaldi (https://sourceforge.net/projects/kaldi/),  VoxForge (http://www.voxforge.org/), ISIP (https://www.isip.piconepress.com/projects/speech/), HTK (http://htk.eng.cam.ac.uk/) и Julius (http://julius.osdn.jp/en_index.php). До сих пор исследователям и разработчикам были доступны только ограниченные наборы голосовых данных, а стоимость полноценных коллекций голосовых выборок исчислялась десятками тысяч долларов, что сильно тормозило независимые исследования в области распознавание речи. В настоящее время работа сосредоточена только на распознавании английского языка, но в первой половине 2018 года планируется приступить к сбору примеров произношения для других языков.


URL: https://blog.mozilla.org/blog/2017/11/29/announcing-the-init.../
Новость: https://www.opennet.ru/opennews/art.shtml?num=47648

 

Ваше сообщение
Имя*:
EMail:
Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.
Заголовок*:
Сообщение*:
 
При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру