The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Обновление голосовых данных Mozilla Common Voice 7.0

01.08.2021 10:52

Компании NVIDIA и Mozilla представили обновление наборов голосовых данных, собранных в результате инициативы Common Voice и включающих примеры произношения 182 тысяч людей, что на 25% больше, чем 6 месяцев назад. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи.

По сравнению с прошлым обновлением размер объём речевого материала в коллекции увеличился с 9 до 13.9 тысяч часов речи. Число поддерживаемых языков возросло с 60 до 76, в том числе впервые добавлена поддержка белорусского, казахского, узбекского, болгарского, армянского, азербайджанского и башкирского языков. Набор для русского языка охватывает 2136 участников и 173 часа речевого материала (было 1412 участников и 111 часов), а для украинского языка - 615 участников и 66 часов (было 459 участников и 30 часов).

В подготовке материалов на английском языке приняли участие более 75 тысяч человек, надиктовавших 2637 часов подтверждённой речи (было 66 тысяч участников и 1686 часов). Интересно, что на втором месте по размеру накопленных данных язык руанда, для которого собрано 2260 часов. Затем следуют немецкий (1040), каталонский (920) и эсперанто (840). Из наиболее динамично наращивающих размер голосовых данных языков называются тайский язык (рост базы в 20 раз, с 12 до 250 часов), луганда (с 8 до 80 часов), эсперанто (со 100 до 840 часов) и тамильский язык (с 24 до 220 часов).

В рамках своего участия в проекте Common Voice компания NVIDIA подготовила на базе собранных данных готовые натренированные модели для систем машинного обучения (поддерживается PyTorch). Модели распространяются в составе бесплатного и открытого инструментария NVIDIA NeMo, который, например, уже используется в автоматизированных голосовых сервисах МТС и Сбербанка. Модели ориентированы на использование в системах распознавания речи, синтеза речи и обработки информации на естественном языке, и могут оказаться полезными для исследователей, занимающихся созданием голосовых диалоговых систем, платформ для транскрипции и автоматизированных колл-центров. В отличие от доступных ранее проектов, опубликованные модели не ограничиваются распознанием английского языка и охватывают различные языки, акценты и формы речи.

Напомним, что проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах.

По мнению автора библиотеки распознавания слитной речи Vosk недостатками набора Common Voice является однобокость голосового материала (преобладание людей мужского пола 20-30 лет, и недостаток материала с голосом женщин, детей и пожилых людей), отсутствие вариативности словаря (повторение одних и тех же фраз) и распространение записей во вносящем искажения формате MP3.

  1. Главная ссылка к новости (https://developer.nvidia.com/b...)
  2. OpenNews: NVIDIA инвестирует 1.5 млн долларов в проект Mozilla Common Voice
  3. OpenNews: Компания Mozilla представила движок распознавания речи DeepSpeech 0.9
  4. OpenNews: Mozilla свернула разработку проектов Voice Fill и Firefox Voice
  5. OpenNews: Компания Mozilla опубликовала голосовые данные Common Voice
  6. OpenNews: Проект Mozilla выпустил открытую систему распознавания речи
Лицензия: CC-BY
Наводку на новость прислал Artem S. Tashkinov
Тип: К сведению
Короткая ссылка: https://opennet.ru/55571-voice
Ключевые слова: voice, mozilla
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение (36) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 10:48, 01/08/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Я тут заметил, что качество автогенерируемых субтитров на тытрупе ощутимо выросло (в том числе, на русском языке, хоть и хуже). Причём, распознавание работает несмотря на музыку и шум. Я что-то пропустил? Как такого добиться?
     
     
  • 2.2, Аноним (2), 10:52, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Люди постят субтитры. Тытруп стал получше, но с японским он все так же лажает как и с русским.
     
     
  • 3.3, Аноним (1), 10:56, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Люди постят субтитры. Тытруп стал получше, но с японским он все так
    > же лажает как и с русским.

    Часто бывает такое, что я не могу понять, что за слово (из-за дефектов речи или особенностей дикции), а оно вот распознаёт верно. Так в целом конечно много ошибок.

     
  • 3.30, Аноним (-), 08:29, 02/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > Люди постят субтитры.

    Гугол придумал как дешево и сердито заапгрейдить нейросетки на порядки, без нвидии :)

     
  • 2.5, Аноним (5), 11:44, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Не заметил какой-либо разницы в английском и японском, автоперево (особенно для азиатской группы языков) всё такой же трешак.
     
     
  • 3.29, nebularia (ok), 06:18, 02/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Речь всё-таки не про перевод, а про распознавание. С ним довольно хорошо, видео ютуба с нужными гайдами по работе без звука смотрятся неплохо
     
     
  • 4.35, Аноним (35), 12:17, 02/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Так я и писал не только про перевод. Распознавание такое же костыльное - спотыкается на созвучных словах и даже иногда на артиклях. Точно так же было и год-два назад.
     
     
  • 5.42, nebularia (ok), 10:52, 03/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > спотыкается на созвучных словах

    Поэтому оригинал читать можно, так как понятно, что там могло быть. А при переводе превращается в кашу.

     

  • 1.4, Аноним (4), 11:26, 01/08/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +4 +/
    >Данные опубликованы как общественное достояние (CC0).

    Единственная нормальная свободная лицензия.

     
     
  • 2.7, 1111 (??), 12:39, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >Единственная нормальная свободная лицензия.

    единственная нормальная - это жпл, потому что не заставляет нахаляву работать сообщество на копиистов и капиталистов, ну или точнее заставляет паразитов что то отдавать сообществу назад.

     
     
  • 3.11, Аноним (-), 13:28, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • +3 +/
    >>Единственная нормальная свободная лицензия.
    > единственная нормальная - это жпл, потому что не заставляет нахаляву работать сообщество
    > на копиистов и капиталистов, ну или точнее заставляет паразитов что то отдавать сообществу назад.

    И как там с исправлением и улучшением EXT от гугла? Уже заставили? Или опять  "не нужно и вообще, не очень хотелось - мы тут EXT4 успели написать и даже собрать почти все грабли!" ?


     
     
  • 4.24, maximnik0 (?), 23:32, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    >И как там с исправлением и улучшением EXT от гугла? Уже заставили?

    Есть  физ.лицо и есть юр.лицо ,компания.Пока гпл код пользуется внутри компании,право выкладывать его не возникает,т.к они приобретают права потребителя согласно лицензии (по крайне мере такое объяснение было в статье linuxformat).И была неопределенность для   сетевых сервисов- это недостаток гпл2,в 3 версии промах устранили.

     
     
  • 5.26, Аноним (-), 02:27, 02/08/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >> единственная нормальная - это жпл, потому что не заставляет нахаляву работать сообщество
    > на копиистов и капиталистов,
    > Есть  физ.лицо и есть юр.лицо ,компания.Пока гпл код пользуется внутри компании,право
    > выкладывать его не возникает,т.к они приобретают права потребителя согласно лицензии

    Угу, кто бы сомневался, что облачные сервисы гугло-амазонов, с многомиллиардными прибылями и выкладыванием "на тебе Бож^W сообщество то, что невыгодно поддерживать нам самим" - "это другое" и "лицензия позволяет!".

    >> Mere interaction with a user through a computer network, with no transfer of a copy, is not conveying.
    > (по крайне мере такое объяснение было в статье linuxformat).И была неопределенность для
    > сетевых сервисов- это недостаток гпл2,в 3 версии промах устранили.

    Ага, только совсем не в пользу "сообщества". Возможно, вы хотели указать на AGPL?


     
  • 4.31, Аноним (-), 08:31, 02/08/2021 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Опять этот чувак с родовой травмой EXT'а. Блин, ext4 то уже не сильно нужен стал, а его не попустит. И он все так же не покажет альтернативы где все это сработало бы лучше.
     
     
  • 5.38, Аноним (-), 15:10, 02/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > Опять этот чувак с родовой травмой EXT'а.

    Классический и известный пример, что не так, чудик? Даже если тебе лично патчи на производительность и надежность ext2 не нужны были, потому что ты тогда под вендой сидел.

    Лицензия, которая типа "заставляет нахаляву работать сообщество на копиистов и капиталистов, ну или точнее заставляет паразитов что то отдавать сообществу назад", позволяет отдавать гугло-амазону-клаудфляри хоть дырку от бублика, хоть только то, что просто невыгодно поддерживать самим - поди узнай, что они еще назажимали "для внутреннего пользования".

    > Блин, ext4 то уже не сильно нужен стал, а его не попустит.
    >> "не нужно и вообще, не очень хотелось - мы тут EXT4 успели написать и даже собрать почти все грабли!"

    Да-да, "это было давно и поэтому почти неправда!"
    Но все же, какое меткое описание получилось.

     
  • 3.16, Аноним (16), 17:17, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Но это уже не свободная лицензия, раз она ограничивает чьи-то права
     
     
  • 4.22, Аноним (-), 19:49, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • –3 +/
    Не занимался демагогией. Дураков тут нет.
     
  • 4.28, Ordu (ok), 03:44, 02/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > CC0 enables scientists, educators, artists and other creators and owners of copyright- or database-protected content to waive those interests in their works and thereby place them as completely as possible in the public domain, so that others may freely build upon, enhance and reuse the works for any purposes without restriction under copyright or database law.
    > ...
    > while no tool, not even CC0, can guarantee a complete relinquishment of all copyright and database rights in every jurisdiction, we believe it provides the best and most complete alternative for contributing a work to the public domain given the many complex and diverse copyright and database systems around the world.[1]

    [1] https://creativecommons.org/share-your-work/public-domain/cc0/

     
  • 4.34, Анонимный Аноним (?), 10:30, 02/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > это уже не свободная лицензия, раз она ограничивает чьи-то права

    Любая лицензия ограничивает какие-либо права - такова природа лицензий. Лицензия на то и существует, чтобы отделить правомерные условия использования от неправомерных, а это уже ограничение чьих-то прав и интересов.

     
  • 3.21, Аноним (-), 19:47, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • –4 +/
    Согласен с тобой, но про капиталистов ты перегнул. Очистки свою башку от коммунизма.
     
     
  • 4.39, Аноним (39), 16:43, 02/08/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Начни с очистки своей. Судя по твоему короткому комментарию, там есть чем заняться.
     
  • 2.8, th3m3 (ok), 12:43, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Да, но копирасты и тут влезают. Издают произведения в коммерческих целях, а потом блочат материалы по всей сети, якобы у них есть какие-то права.
     
     
  • 3.9, Аноним (4), 12:50, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Так ведь по дате надо смотреть. Если что-то по cc0 опубликованно раньше, то всё. Копирастец идёт на конец
     
     
  • 4.10, th3m3 (ok), 13:13, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Ага, передайте привет Литресу)
     
     
  • 5.12, dullish (ok), 13:56, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    По многочисленным заявкам передаём привет и ставим песню группы "Ленинград"...
     
     
  • 6.13, Аноним (4), 14:19, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    >и ставим песню группы "Ленинград"...

    Дорожную?

     

  • 1.17, Аноним (17), 18:52, 01/08/2021 Скрыто модератором [﹢﹢﹢] [ · · · ]
  • +1 +/
     
  • 1.18, Kuromi (ok), 19:39, 01/08/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    "Интересно, что на втором месте по размеру накопленных данных язык руанда, для которого собрано 2260 часов."

    Да все просто, наверное Мозилла с Невидией платят какую-то копейку носителю языка за его диктовку, а в Руанде работы нет ВООБЩЕ, так что все население ломанулось диктовать...
    Это примерно та же ситуация когда рост битков помогал выживанию населения Венесуэллы, майнящего потихоньку на бесплатном электричестве.

     
  • 1.20, Аноним (-), 19:46, 01/08/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Голоса алкашей распознает?
     
     
  • 2.23, Аноним (23), 20:18, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Я пока что не тестировал
     
     
  • 3.36, Аноним (-), 12:46, 02/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Проблема речи алкашей в том, что они невнятные.
     
  • 2.25, Аноним (25), 23:34, 01/08/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Внутренние?
     
  • 2.27, Аноним (27), 02:47, 02/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Нет, твой не распознает.
     

  • 1.32, Аноним (32), 08:55, 02/08/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Бэкдорчик для корпораций зла по сбору телеметрии. Мозилка скатилась конечно. Хотя после прошедших событий я ничему не удивляюсь. Сам жертвовал мозилке, а потом обнаружил что они деньги угрохивают в ИНКЛЮЗИВНОСТЬ и прочие нетехнические ЛГБТ-%#^, одновременно сокращая тех. персонал (Rust считай закопали).
     
     
  • 2.44, Аноним (44), 16:56, 03/08/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Так потому что фонды это фуфельность. Сегодня уже есть возможность сделать инвестирование в фичу. В частности был полудохлый проект БоунтиБоне или как-то так и там можно было предложить фичу и на нее переводить деньги и как только кто-то ее реализует и сообщество как-то подтвердит реализацию бабло делилось по контрибьюторам. Вот будущее фондов, а так да всякое гомно финансировали. Я вот тоже теперь хочу офрмить возврат инвестиций в фонд мозиллы
     

  • 1.46, Аноним (46), 21:43, 05/08/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    MP3, когда есть OGG, Opus — это конечно сильно.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Спонсоры:
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2021 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру