The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Компания Mozilla опубликовала голосовые данные Common Voice

01.03.2019 20:21

Компания Mozilla опубликовала набор голосовых данных, собранный в результате инициативы Common Voice и включающий примеры произношения 42 тысяч людей. В результате инициативы было получено почти 1400 часов речевого материала на 18 языках (русский язык отсутствует), который можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. Данные опубликованы как общественное достояние (CC0).

Напомним, что проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагалось озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах. До сих пор исследователям и разработчикам были доступны только ограниченные наборы голосовых данных, а стоимость полноценных коллекций голосовых выборок исчислялась десятками тысяч долларов, что сильно тормозило независимые исследования в области распознавание речи.

  1. Главная ссылка к новости (https://blog.mozilla.org/blog/...)
  2. OpenNews: Facebook опубликовал открытую систему распознавания речи Wav2letter++
  3. OpenNews: Mozilla рассматривает возможность создания системы голосовой навигации для браузера
  4. OpenNews: Проект Mozilla выпустил открытую систему распознавания речи
  5. OpenNews: Компания Mozilla представила систему синтеза речи LPCNet
  6. OpenNews: Mozilla развивает свою систему распознавания речи
Лицензия: CC-BY
Тип: К сведению
Ключевые слова: mozilla, voice
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Ajax/Линейный | Раскрыть все сообщения | RSS
 
  • 1.1, A.Stahl (ok), 20:27, 01/03/2019 [ответить] [показать ветку] [···]    [к модератору]
  • +1 +/
    ~12GiB
     
  • 1.2, Анонтоним (?), 20:53, 01/03/2019 [ответить] [показать ветку] [···]    [к модератору]
  • +4 +/
    Пол
        41%    Мужской
        10%    Женский
     
     
  • 2.10, Аноним84701 (ok), 22:27, 01/03/2019 [^] [ответить]    [к модератору]
  • +/
    > Пол
    >     41%    Мужской
    >     10%    Женский

    Это opt-in данные:
    https://voice.mozilla.org/en
    см. в самом низу (3 срина, за графиками, логином, аж под картинкой с роботом), "Optional demographic data: sex/age".
    Спрятано хорошо -- если не знать, то можно запросто пройти на "запись"/"прослушивание" и не даже не подозревать о своем "упущении".

     
  • 1.3, Аноним (3), 20:59, 01/03/2019 [ответить] [показать ветку] [···]    [к модератору]
  • +/
    Плохо пиарили.
     
  • 1.4, YetAnotherOnanym (ok), 21:02, 01/03/2019 [ответить] [показать ветку] [···]    [к модератору]
  • +/
    > русский язык отсутствует

    Понятно.

     
     
  • 2.5, Аноним84701 (ok), 21:18, 01/03/2019 [^] [ответить]    [к модератору]  
  • +/
    >> русский язык отсутствует
    > Понятно.

    .
    >> As a community-driven project, people around the world who care about having a voice dataset in their language have been responsible
    >> Our latest additions include Dutch, [b]Hakha-Chin[/b], Esperanto, Farsi, Basque, and Spanish. In some cases, a new language launch on Common Voice is the beginning of that language’s internet presence

    https://discourse.mozilla.org/t/russian-speech/18572
    > The best way to contribute right now would be to find and review (or write) sentences in the public domain, and submit at PR to the mai
    > и … тишина

    Заговор, не иначе!

     
  • 2.6, Анимус (?), 21:31, 01/03/2019 [^] [ответить]    [к модератору]  
  • +2 +/
    Кляти иллюминати.
     
  • 2.17, Gannet (ok), 02:31, 02/03/2019 [^] [ответить]    [к модератору]  
  • +/
    санкции (?)
     
  • 1.8, Коробов (?), 21:59, 01/03/2019 [ответить] [показать ветку] [···]    [к модератору]  
  • +2 +/
    Зато есть 'Чувашский'.
     
     
  • 2.9, Crazy Alex (ok), 22:24, 01/03/2019 [^] [ответить]    [к модератору]  
  • +/
    Забавно, да.
     
     
  • 3.12, nshmyrev (ok), 00:08, 02/03/2019 [^] [ответить]    [к модератору]  
  • +1 +/
    Китайский тоже только в тайваньском варианте. Неспроста.
     
  • 3.14, НяшМяш (ok), 00:22, 02/03/2019 [^] [ответить]    [к модератору]  
  • +2 +/
    Видать нашёлся чуваш, который не знает про опеннет. А то вместо записи семплов голоса мог бы проводить время с пользой в комментариях.
     
     
  • 4.15, nshmyrev (ok), 00:37, 02/03/2019 [^] [ответить]    [к модератору]  
  • +/
    > Видать нашёлся чуваш, который не знает про опеннет. А то вместо записи
    > семплов голоса мог бы проводить время с пользой в комментариях.

    Чувашский и бурятский (и другие тюркские языки) там развиваются не чувашами, а ирландцем на гранты от ВШЭ http://lattice.cnrs.fr/cmld/presentations/presentation_tyers.pdf

     
     
  • 5.16, Аноним (-), 00:57, 02/03/2019 [^] [ответить]    [к модератору]  
  • –3 +/
    А всё потому что местечковые диалекты нужны не самим "чувашам" и "бурятам", а для поддержки тезиса многонациональности СССРФ.
     
  • 1.11, nshmyrev (ok), 23:59, 01/03/2019 [ответить] [показать ветку] [···]    [к модератору]  
  • +1 +/
    Что не так с речью в Мозилле

    Common Voice:

    1) собираются голоса молодых людей мужского пола 20-30 лет, нет женских, детских, нет голосов старшего возраста.
    2) тексты для записи ограничены тысячей предложений, нет вариативности словаря, в дальнейшем будут трудности со словами.
    3) записи распространяются в mp3, что вносит искажения в голосовой сигнал. Оригиналы не дают, видимо, не хотят конкуренции.
    4) традиционно вместо того, чтобы развивать существующий проект (voxforge) запилили свой.
    5) проверка записей делается вручную, хотя может делаться автоматическими средствами.
    6) сейчас таких данных можно просто накачать с youtube за пару часов в 10 раз больше, чем они собрали за год для всех языков.

    DeepSpeech

    1) взяли чужую технологию от Baidu
    2) за пару лет ничего не сделали, даже не добились нормальной точности, точность гораздо хуже передовых результатов.
    3) зато кричат о себе на всех углах, получили европейский грант
    4) когда стало поджимать, скопировали втихушку чужую библиотеку libctcdecode, не упомянув автора, выкинув весь свой предыдущий код
    5) декодер всё ещё требует 4гб памяти, работает очень медленно
    7) в коммитах бесконечно переделывают справку и конфигурационные файлы, ни одного реального улучшения. ну ещё обертки для языков пишут
    8) модели не может натренировать простой любитель, нужен суперкомпьютер с 8 GPU

    В итоге этот проект недалеко ушёл от предыдущего (мобильной ОС)

     
     
  • 2.13, nshmyrev (ok), 00:15, 02/03/2019 [^] [ответить]    [к модератору]  
  • +1 +/
    Ну и по синтезу (mozilla/TTS)

    1) Опять скопировали чужой проект на github, назвали своим. Автору пришлось напоминать https://github.com/mozilla/TTS/issues/2
    2) Куча хороших проектов на тему существует, до сих пор пилят "своё". Потихоньку копируют, что другие сделали, например, Tacotron2 внесли (скопировали) только сегодня, сходимость моделей была никакая.
    3) Wavenet так и не добавили.

     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2019 by Maxim Chirkov  
    ДобавитьПоддержатьВебмастеруГИД  
    Hosting by Ihor