Компания Mozilla представила обновление наборов голосовых данных Common Voice, включающих примеры произношения около 200 тысяч людей. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился на 30% - с 13.9 до 18.2 тысяч часов речи. Число поддерживаемых языков возросло с 67 до 87...Подробнее: https://www.opennet.ru/opennews/art.shtml?num=56608
Есть же аналог GPL для медиа файлов?
Общественное достояние защищает от претензий?А как насчёт согласия людей в этих данных?
> А как насчёт согласия людей в этих данных?( ͡° ͜ʖ ͡°)
1. Семейство лицензий Creative Commons - это он и есть. Аналог копилефта не на программный код, а на творческие произведения.
2. Да, кроме близких к собственническим CC BY-NC-ND и CC BY-NC-SA. CC0 - аналог общественного достояния
https://creativecommons.org/licenses/?lang=ru
3. "Отправляя ваши данные ... бла-бла-бла ... вы согласны, что они будут распространятся под СС0 и отказываетесь от всех претензий". Тут уже был срачи про такие договоры, вполне себе легальная акцепт-офертная схема
Спасибо, интересно.
>распространение записей во вносящем искажения формате MP3.И что им мешает использовать другой формат?
А что тебе мешает забить на это? Ну серьезно, не пофиг ли?
FLAC рулит! Благо сейчас накопители большого объема — не роскошь.
На что денег хватило.
Современные "погромисты" из мозиллы вряд ли знают что-то кроме МРЗ - Московского РадиоЗаавода.
Про OGG слышали, наверное, единицы, а про форматы без потерь так вообще одни легенды ходят.
А может все гораздо проще? Функции-заклинания из библиотеки-гримуара для эмпэтри они вызывать научились, а потом просто тяп-ляп и в продакшн?
> Про OGG слышали, наверное, единицы, а про форматы без потерь так вообще одни легенды ходят.opus лучше.
opus - патентованное говно.
Можно поподробнее? Какие ограничения у opus?
Нет, не лучше. Он вносит кучу отсебятины в исходный сигнал, чтобы замаскировать искажения от потерь. На слух терпимо, а вот по приборам - сущий ад. Самый честный в этом плане в настоящий момент - AAC. Ну или LossyFlac/LossyWav.
А зачем?
А затем, чтобы не приходилось при использовании модели кодировать/раскодировать звук из микрофона в mp3 для лучшего распознавания.
Некогда один из лучших браузеров успешно закопали, теперь можно и в синтез речи поиграться.
Синтез речи это здорово на самом деле. Правда нее очень понятно, почему этим занимается "браузер".
Они что, всех белорусов опросили? Откуда такой большой скачок для них?
> Они что, всех белорусов опросили?Хаха... А ещё, судя по всему, всех оставшихся в мире носителях русского языка: "русского языка охватывает 2452 участника".
> Откуда такой большой скачок для них?
Простой гуглинг подсказывает, что была новость на самом большом (по посещаемости) сайте байнета (новостном). И куча перепечаток на новостных сайтах поменьше.
Просто выступления Лукашенко под разными именами записали))
>распространение записей во вносящем искажения формате MP3Использовать для хранения Ogg Vorbis не судьба?
Чува-а-а-ак, это надо раскуривать либы к ворбису. А это НЕ потраченное на смуззи и травлю сторонников Трампа в твиттере время. Смекаешь?
затея изначально дно, либо поставляйте лосслесс либо вы саботируете развитие технологий совершая преступление против человечества
Лослесс проприетарный, лучше от него держатся подальше. FLAC - копилефтный формат.
flac к сведению без потерь, плюс есть ещё несколько форматов без потерь, которые свободны. С другой стороны даже флак будет означать, что 5ГБ превратятся в 40-80 ГБ, что ПМСМ совсем плохо, особенно если вообще взять белорусский или английский.
Сегодня такой размер датасета это ни о чём, особенно учитывая, в каких условиях будут тренировать сети. Можно хоть вообще wave формат раздавать. И да, голос весьма эффективно жмётся.
>Можно хоть вообще wave формат раздавать.WAVE - маздаевский, его использовать не надо. Всё что создано Microsoft должно быть уничтожено.
При этом нормального аналога так и нет.
Кстати, у RIFF ноги ещё с Амиги растут.
Флак не копилефтный, копилефтные только консольные утилиты для работы с ним. Мп3 для сравнения как формат только пару лет назад перестал быть проприетарным и требовать отчислений за использование (и то с оговорками емнип) и это как-то не мешало использовать его как в коммерческом так и в свободном софте (в основном конечно в коммерческом, потому что кому интересно платить отчисления).
Какое жалкое стремление, во чтобы ни стало, держаться MP3, у MP3 подпорченная репутация.
speex /thread
Двачую xDDDDD
deprecated
Цырк. В стародавние времена (1997???) в составе дистрибутива IBM OS/2 4.0 Merlin было приложение VoiceType. Оно не только "произносило" тексты, но и записывало их под диктовку. Правда, на английском, но отлично обучалось советскому произношению диктовавшего. И все это работало на первом пентиуме со ста двадцатью мегабайтами памяти.