The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Новый выпуск системы синтеза речи Silero"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Новый выпуск системы синтеза речи Silero"  +/
Сообщение от opennews (ok), 22-Апр-22, 15:25 
Доступен новый публичный выпуск нейросетевой системы синтеза речи Silero Text-to-Speech. Проект в первую очередь нацелен на создание современной высококачественной системы синтеза речи, не уступающей коммерческим решениям от корпораций и доступной для всех желающих без использования дорогого серверного оборудования...

Подробнее: https://www.opennet.ru/opennews/art.shtml?num=57061

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от dullish (ok), 22-Апр-22, 15:25   +/
Прям вот отличные голоса! Но, пока не будет апэкашек для андроида, не взлетит.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #17, #18

2. Сообщение от Аноним (2), 22-Апр-22, 15:38   +4 +/
Время TTS на десктопах приближается.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #19

3. Сообщение от Аноним (3), 22-Апр-22, 15:52   +10 +/
> Решены "детские проблемы": нестабильность и пропуск слов;

У меня в детстве таких проблем не было.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #15

4. Сообщение от keydon (ok), 22-Апр-22, 16:07   +/
> Вопреки сложившемуся тренду решения Silero успешно запускаются даже на 1 потоке x86 процессора Intel c инструкциями AVX2. На 4 потоках процессора синтез позволяет синтезировать от 30 до 60 секунд в секунду в режиме синтеза 8 kHz, в режиме 24 kHz - 15-20 сек., а в режиме 48 kHz - около 10 сек.

Как будто на школьный утренник попал где считают что "1 поток процессора" это неизменная величина по которой можно судить о быстродействии софта.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #6, #7

5. Сообщение от Аноним (5), 22-Апр-22, 16:13   +3 +/
Ребята молодцы, крутая штука!
Ответить | Правка | Наверх | Cообщить модератору

6. Сообщение от Аноним (6), 22-Апр-22, 16:54   +/
судя по этой страничке https://github.com/snakers4/silero-models/wiki/Performance-B...
там CPU - Intel i7-6800K CPU @ 3.40GHz
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4

7. Сообщение от Аноним (6), 22-Апр-22, 16:58   +/
или
All of the below benchmarks and estimates were run on 6 cores (12 threads) of AMD Ryzen Threadripper 1920X 12-Core Processor (3500 МHz).
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #22

8. Сообщение от Аноним (8), 22-Апр-22, 18:55   +/
наверни торч
наверни сабж
выкачай модель
накидай пихтоноскрипт

ты же хочешь просто книжки почитать как icebook reader c digalo nikolai во времена winxp, да?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #11

10. Сообщение от Аноним (10), 22-Апр-22, 19:15   +/
>но развивающая проект компания не раскрывает механизм тренировки моделей

Засуньте в https://github.com/lutzroeder/netron

Ответить | Правка | Наверх | Cообщить модератору

11. Сообщение от Аноним (11), 22-Апр-22, 19:29   –1 +/
Это буквально в 2 клика. На то, чтобы найти варезник с ice book reader, сегодня куда больше времени потратишь. Да и качество там такое себе было.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8 Ответы: #12

12. Сообщение от Аноним (8), 22-Апр-22, 19:55   +/
>буквально в 2 клика
>ERROR: Could not find a version that satisfies the requirement torchaudio==0.10.0 (from silero)
>ERROR: No matching distribution found for torchaudio==0.10.0
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #11 Ответы: #24

13. Сообщение от Аноним (13), 22-Апр-22, 20:39   –3 +/
У них второй год просят докер-образ сделать с RestAPI каким-нибудь, а воз и ныне там ((
Прям хоть самому изучить пайтон и сделать...
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #16

14. Сообщение от prokoudineemail (ok), 23-Апр-22, 01:04   –1 +/
> Модели стали в 10 раз быстрее и, например, в режиме 24 kHz позволяют синтезировать до 20 секунд аудио в секунду на 4 потоках процессора;

Перешли на HiFi-GAN что ли?

Ответить | Правка | Наверх | Cообщить модератору

15. Сообщение от Аноним (15), 23-Апр-22, 10:01   +/
Да, ладно!
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #3

16. Сообщение от Аноним (16), 23-Апр-22, 10:46   +2 +/
можно быть спокойным за то, что ни ты, ни другое трепло с опеннета этим не займется
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13 Ответы: #23

17. Сообщение от Первая буква (?), 23-Апр-22, 14:59   –1 +/
Чем отличные? Заложенным носом?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

18. Сообщение от Аноним (-), 25-Апр-22, 01:02   +/
> развивающая проект компания не раскрывает механизм тренировки моделей.
> Для запуска можно использовать PyTorch

Чемодан батареек и внешнюю видяху сначала докупи.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #20

19. Сообщение от Аноним (-), 25-Апр-22, 01:03   +/
Все это было уже лет 20. И их главная проблема была вовсе не в качестве как таковом.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2

20. Сообщение от dullish (ok), 25-Апр-22, 01:46   +/
> Чемодан батареек и внешнюю видяху сначала докупи.

Разрабы говорят, что, в теории, андроид потянет, но у них лапки. Да и во всех современных смартах, включая бюджетники есть какой-никакой "нейроускоритель". Если его каким-то макаром прицепить, то, возможно, чемодан батареек не понадобится.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #18 Ответы: #21

21. Сообщение от Александр (??), 26-Апр-22, 09:44   +/
Мы явно указываем, что наши модели запускаются и вменяемо работают даже на 1 потоке процессора.

Откуда все эти сказки про обязательность видеокарт - вероятно понятно только автору таких комментариев.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #20 Ответы: #25

22. Сообщение от Александр (??), 26-Апр-22, 09:48   +3 +/
Не совсем понимаю, в чем здесь претензия.

Если софту достаточно одного потока процессора для работы - это огромное достижение, с учетом того, что большинство современных публикаций по синтезу вообще мягко намекают, что нужны карточки уровня V100 для работы их синтеза.

То, что вы нашли никак не связанный с новым релизом бенчмарк старых моделей STT и натянули ее на глобус, тоже вызывает скорее только ухмылку.

Понятно, что чем слабее процессор, тем медленнее будет работать, но весь этот хейт на пустом месте кажется просто курам насмех, с учетом того, что "модные" сетки не запускаются на карточках с менее чем 16 GB VRAM.


Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7

23. Сообщение от Александр (??), 26-Апр-22, 09:49   +/
У коммерческой версии такой докер-образ естественно есть.
Если вы хотите сервис - будьте добры купить лицензию.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16

24. Сообщение от Александр (??), 26-Апр-22, 09:50   +/
Такой вопрос лучше задать в репозитории.
Но вообще для синтеза torchaudio не нужен.
Просто посмотрите standalone примеры в приложенном колаб-ноутбуке.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

25. Сообщение от dullish (ok), 26-Апр-22, 18:14   +/
> Мы явно указываем, что наши модели запускаются и вменяемо работают даже на
> 1 потоке процессора.
> Откуда все эти сказки про обязательность видеокарт - вероятно понятно только автору
> таких комментариев.

Как я понимаю, речь идёт об одном потоке сферического зиона в вакууме. Да и критерий "вменяемости" немного расплывчатый. Отсюда и странные толкования.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #21

26. Сообщение от Анонимemail (26), 27-Апр-22, 00:14   +1 +/
Как ЭТО установить не пойму?
Ответить | Правка | Наверх | Cообщить модератору

27. Сообщение от Пятьюшестьвеник (?), 10-Ноя-22, 20:12   +/
Работает!
Я впихнул pytorch в embedded python 3.10 - на win10 это нормально прокатывает ;) Скачал модель.
На основе примеров соорудил питон-скрипт, делящий текст на части < 1000 символов и озвучивающий их. И чтобы ffmpeg на лету переводила wav -> mp3.
Получилась переносимая сборка - на флешку помещается. Запускал на ноуте с i7, threads=4, rate=48000. Книжка средних размеров переводится в аудио минут за 30..40 :))
Ответить | Правка | Наверх | Cообщить модератору

28. Сообщение от Пятьюшестьвеник (?), 12-Ноя-22, 17:04   +/
Читает шикарно ;)
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #29

29. Сообщение от Дмитрийemail (??), 15-Ноя-22, 20:52   +/
Приветствую. Так будь же добрым человеком, расшарь где нить для ламеров свой вариант для флэшки!!!! Я бы, например, был тебе очень благодарен...
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #28

30. Сообщение от Пятьюшестьвеникemail (?), 23-Ноя-22, 16:24   +/
На форуме https://mytts-info.ucoz.net/
есть свободный доступ аж к 3 сборкам разных авторов :)

В теме Программы, использующие синтез речи в Windows » другие программы

От Pin240: https://t.me/myttsinfo/287
(Инициатор создания сборки для Silero, свою всё еще дорабатывает)

Oт tonio_k: сообщение #47: https://mytts-info.ucoz.net/forum/20-159-4
ссылки на скачивание + инструкция. Стартовал вторым - но на финише первый, сборка - рабочая.

Последним спохватился я: https://disk.yandex.ru/d/9oyIVwAzQJH5Cg
Экспериментальная сборка, содержит модели Silero для 6 языков, в т.ч. русский.
Подробности: http://aloys.narod.ru/sof/1/demagog.htm#18
параграф Demagog-x64 + SileroTTS. Там же прямая ссылка и на сборку tonio_k.

Ответить | Правка | Наверх | Cообщить модератору


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру