forum.opennet.ru

Составление сообщения

Исходное сообщение

"Проект Mozilla выпустил открытую систему распознавания речи"
Отправлено opennews, 29-Ноя-17 20:46

Проект Mozilla опубликовал (https://blog.mozilla.org/blog/2017/11/29/announcing-the-init.../) первый выпуск модели (https://hacks.mozilla.org/2017/11/a-journey-to-10-word-error.../) для системы машинного обучения, ориентированной на распознавание речи. Также опубликован использованный для  тренировки модели набор (https://medium.com/mozilla-open-innovation/sharing-our-commo...) голосовых данных, собранный в результате инициативы Common Voice (https://voice.mozilla.org/) и включающий (https://voice.mozilla.org/data) примеры произношения около 20 тысяч людей, которые надиктовали почти 400 тысяч записей суммарной продолжительностью 500 часов.
Благодаря участию в проекте большого числа добровольцев, удалось сформировать одну из крупнейших баз голосовых шаблонов, учитывающих всё разнообразие голосов и манер речи. Собранная база позволила натренировать модель для системы машинного обучения до уровня распознавания речи, при котором число ошибок примерно соответствует распознаванию обычным человеком при прослушивании тех же записей. В текущем виде число ошибок распознавания составляет 6.5% при использовании тестового набора LibriSpeech (http://www.openslr.org/12/). Для сравнения,  уровень ошибок при распознавании человеком оценивается в 5.83%, а уровень ошибок при работе Google Speech составляет 6.64%, wit.ai  - 7.94%, Bing Speech - 11.73%, Apple Dictation -  14.24%.

В основе системы распознавания речи Mozilla лежит (https://research.mozilla.org/machine-learning/) движок
DeepSpeech (https://github.com/mozilla/DeepSpeech), созданный с использованием открытой компанией Google платформы машинного обучения TensorFlow (https://www.opennet.ru/opennews/art.shtml?num=46058). DeepSpeech реализует в коде одноимённую архитектуру распознавания речи, предложенную (https://arxiv.org/abs/1412.5567) исследователями из компании Baidu. Предложенный (https://github.com/mozilla/DeepSpeech) Mozilla набор помимо  модели распознавания речи и примеров произношения включает готовые к применению модули  для Python и NodeJS, позволяющие без лишних усложнений встроить в свои программы функции распознавания речи. Также поставляется инструментарий для распознавания из командной строки. Движок распознавания речи достаточно быстр и не требователен к ресурсам, что позволяет использовать его даже на платах Raspberry Pi.

DeepSpeech значительно проще традиционных систем и при этом обеспечивает более высокое качество распознавания при наличии постороннего шума. В разработке не используются традиционные акустические модели и концепция фонем, вместо которых применяется хорошо оптимизированная система машинного обучения на основе нейронной сети, что позволяет обойтись без разработки отдельных компонентов для моделирования различных отклонений, таких как шум, эхо и особенности  речи.  Особенностью DeepSpeech  является то, что для получения качественного распознавания данная архитектура требует большого объёма разнородных данных для осуществления обучения, надиктованных в реальных условиях разными голосами и при наличии естественных шумов.
Опубликованный набор голосовых данных не ограничен применением в DeepSpeech и может оказаться полезным и для других открытых проектов, занимающихся распознаванием речи, таких как Sphinx (https://cmusphinx.github.io/), Kaldi (https://sourceforge.net/projects/kaldi/),  VoxForge (http://www.voxforge.org/), ISIP (https://www.isip.piconepress.com/projects/speech/), HTK (http://htk.eng.cam.ac.uk/) и Julius (http://julius.osdn.jp/en_index.php). До сих пор исследователям и разработчикам были доступны только ограниченные наборы голосовых данных, а стоимость полноценных коллекций голосовых выборок исчислялась десятками тысяч долларов, что сильно тормозило независимые исследования в области распознавание речи. В настоящее время работа сосредоточена только на распознавании английского языка, но в первой половине 2018 года планируется приступить к сбору примеров произношения для других языков.

URL: https://blog.mozilla.org/blog/2017/11/29/announcing-the-init.../
Новость: https://www.opennet.ru/opennews/art.shtml?num=47648

Исходное сообщение
"Проект Mozilla выпустил открытую систему распознавания речи" Отправлено opennews, 29-Ноя-17 20:46
Проект Mozilla опубликовал (https://blog.mozilla.org/blog/2017/11/29/announcing-the-init.../) первый выпуск модели (https://hacks.mozilla.org/2017/11/a-journey-to-10-word-error.../) для системы машинного обучения, ориентированной на распознавание речи. Также опубликован использованный для тренировки модели набор (https://medium.com/mozilla-open-innovation/sharing-our-commo...) голосовых данных, собранный в результате инициативы Common Voice (https://voice.mozilla.org/) и включающий (https://voice.mozilla.org/data) примеры произношения около 20 тысяч людей, которые надиктовали почти 400 тысяч записей суммарной продолжительностью 500 часов. Благодаря участию в проекте большого числа добровольцев, удалось сформировать одну из крупнейших баз голосовых шаблонов, учитывающих всё разнообразие голосов и манер речи. Собранная база позволила натренировать модель для системы машинного обучения до уровня распознавания речи, при котором число ошибок примерно соответствует распознаванию обычным человеком при прослушивании тех же записей. В текущем виде число ошибок распознавания составляет 6.5% при использовании тестового набора LibriSpeech (http://www.openslr.org/12/). Для сравнения, уровень ошибок при распознавании человеком оценивается в 5.83%, а уровень ошибок при работе Google Speech составляет 6.64%, wit.ai - 7.94%, Bing Speech - 11.73%, Apple Dictation - 14.24%. В основе системы распознавания речи Mozilla лежит (https://research.mozilla.org/machine-learning/) движок DeepSpeech (https://github.com/mozilla/DeepSpeech), созданный с использованием открытой компанией Google платформы машинного обучения TensorFlow (https://www.opennet.ru/opennews/art.shtml?num=46058). DeepSpeech реализует в коде одноимённую архитектуру распознавания речи, предложенную (https://arxiv.org/abs/1412.5567) исследователями из компании Baidu. Предложенный (https://github.com/mozilla/DeepSpeech) Mozilla набор помимо модели распознавания речи и примеров произношения включает готовые к применению модули для Python и NodeJS, позволяющие без лишних усложнений встроить в свои программы функции распознавания речи. Также поставляется инструментарий для распознавания из командной строки. Движок распознавания речи достаточно быстр и не требователен к ресурсам, что позволяет использовать его даже на платах Raspberry Pi. DeepSpeech значительно проще традиционных систем и при этом обеспечивает более высокое качество распознавания при наличии постороннего шума. В разработке не используются традиционные акустические модели и концепция фонем, вместо которых применяется хорошо оптимизированная система машинного обучения на основе нейронной сети, что позволяет обойтись без разработки отдельных компонентов для моделирования различных отклонений, таких как шум, эхо и особенности речи. Особенностью DeepSpeech является то, что для получения качественного распознавания данная архитектура требует большого объёма разнородных данных для осуществления обучения, надиктованных в реальных условиях разными голосами и при наличии естественных шумов. Опубликованный набор голосовых данных не ограничен применением в DeepSpeech и может оказаться полезным и для других открытых проектов, занимающихся распознаванием речи, таких как Sphinx (https://cmusphinx.github.io/), Kaldi (https://sourceforge.net/projects/kaldi/), VoxForge (http://www.voxforge.org/), ISIP (https://www.isip.piconepress.com/projects/speech/), HTK (http://htk.eng.cam.ac.uk/) и Julius (http://julius.osdn.jp/en_index.php). До сих пор исследователям и разработчикам были доступны только ограниченные наборы голосовых данных, а стоимость полноценных коллекций голосовых выборок исчислялась десятками тысяч долларов, что сильно тормозило независимые исследования в области распознавание речи. В настоящее время работа сосредоточена только на распознавании английского языка, но в первой половине 2018 года планируется приступить к сбору примеров произношения для других языков. URL: https://blog.mozilla.org/blog/2017/11/29/announcing-the-init.../ Новость: https://www.opennet.ru/opennews/art.shtml?num=47648

Ваше сообщение

Имя*:

EMail:

Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.

Заголовок*:

Сообщение*:

> Проект Mozilla опубликовал (https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/) 
> первый выпуск модели (https://hacks.mozilla.org/2017/11/a-journey-to-10-word-error-rate/) 
> для системы машинного обучения, ориентированной на распознавание речи. Также опубликован 
> использованный для  тренировки модели набор (https://medium.com/mozilla-open-innovation/sharing-our-common-voice-mozilla-releases-second-largest-public-voice-data-set-e88f7d6b7666) 
> голосовых данных, собранный в результате инициативы Common Voice (https://voice.mozilla.org/) 
> и включающий (https://voice.mozilla.org/data) примеры произношения около 20 тысяч людей, 
> которые надиктовали почти 400 тысяч записей суммарной продолжительностью 500 часов.

> Благодаря участию в проекте большого числа добровольцев, удалось сформировать одну из крупнейших 
> баз голосовых шаблонов, учитывающих всё разнообразие голосов и манер речи. Собранная 
> база позволила натренировать модель для системы машинного обучения до уровня распознавания 
> речи, при котором число ошибок примерно соответствует распознаванию обычным человеком 
> при прослушивании тех же записей. В текущем виде число ошибок распознавания 
> составляет 6.5% при использовании тестового набора LibriSpeech (http://www.openslr.org/12/). 
> Для сравнения,  уровень ошибок при распознавании человеком оценивается в 5.83%, 
> а уровень ошибок при работе Google Speech составляет 6.64%, wit.ai  
> - 7.94%, Bing Speech - 11.73%, Apple Dictation -  14.24%.

> В основе системы распознавания речи Mozilla лежит (https://research.mozilla.org/machine-learning/) 
> движок 
> DeepSpeech (https://github.com/mozilla/DeepSpeech), созданный с использованием открытой 
> компанией Google платформы машинного обучения TensorFlow (https://www.opennet.ru/opennews/art.shtml?num=46058). 
> DeepSpeech реализует в коде одноимённую архитектуру распознавания речи, предложенную 
> (https://arxiv.org/abs/1412.5567) исследователями из компании Baidu. Предложенный 
> (https://github.com/mozilla/DeepSpeech) Mozilla набор помимо  модели распознавания 
> речи и примеров произношения включает готовые к применению модули  для 
> Python и NodeJS, позволяющие без лишних усложнений встроить в свои программы 
> функции распознавания речи. Также поставляется инструментарий для распознавания из командной 
> строки. Движок распознавания речи достаточно быстр и не требователен к ресурсам, 
> что позволяет использовать его даже на платах Raspberry Pi.

> DeepSpeech значительно проще традиционных систем и при этом обеспечивает более высокое 
> качество распознавания при наличии постороннего шума. В разработке не используются традиционные 
> акустические модели и концепция фонем, вместо которых применяется хорошо оптимизированная 
> система машинного обучения на основе нейронной сети, что позволяет обойтись без 
> разработки отдельных компонентов для моделирования различных отклонений, таких как шум, 
> эхо и особенности  речи.  Особенностью DeepSpeech  является то, 
> что для получения качественного распознавания данная архитектура требует большого объёма 
> разнородных данных для осуществления обучения, надиктованных в реальных условиях разными 
> голосами и при наличии естественных шумов.

> Опубликованный набор голосовых данных не ограничен применением в DeepSpeech и может оказаться 
> полезным и для других открытых проектов, занимающихся распознаванием речи, таких как 
> Sphinx (https://cmusphinx.github.io/), Kaldi (https://sourceforge.net/projects/kaldi/), 
>  VoxForge (http://www.voxforge.org/), ISIP (https://www.isip.piconepress.com/projects/speech/), 
> HTK (http://htk.eng.cam.ac.uk/) и Julius (http://julius.osdn.jp/en_index.php). До 
> сих пор исследователям и разработчикам были доступны только ограниченные наборы голосовых 
> данных, а стоимость полноценных коллекций голосовых выборок исчислялась десятками тысяч 
> долларов, что сильно тормозило независимые исследования в области распознавание речи. 
> В настоящее время работа сосредоточена только на распознавании английского языка, но 
> в первой половине 2018 года планируется приступить к сбору примеров произношения 
> для других языков.

> URL: https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/ 
 
> Новость: https://www.opennet.ru/opennews/art.shtml?num=47648

При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру