Как создать свою голосовую модель для ИИ

Элейна · 16 сен 2023

Всем привет
Как вы могли заметить, я не только гениальный дизайнер, но еще и нейродебил. Пока моя моделька тренится, хочу расписать, как создавать модели голосов своих любимых ютуберов/певцов. Некоторые зарабатывают на этом, но для этого вам нужно заиметь имя в местных кругах и иметь возможность принимать деньги из за рубежа. С помощью модельки можно делать аи каверы, или прикалываться в дискордике заменяя свой голос
ПРОЧИТАЙТЕ МОЙ ЗАКРЕПЛЕННЫЙ КОММЕНТАРИЙ ПОСЛЕ ПРОЧТЕНИЯ ТЕМЫ

1. Подготовка датасета
1.1 Загрузка аудио
Для того, чтобы начать тренировать модельку, нам надо подготовить датасет, иными словами, образец голоса какого-то человека.
Для примера я выбрал Selphius, делающую каверы на немецком.
Переходим на сайт https://y2down.cc/ru/youtube-mp3.html и вставляем туда ссылку на любое из видео, далее нужно выбрать формат скачивания MP3. Совершенно не важно какой будет пример голоса, главное - чтобы голос был как можно меньше искажен. На музыку и фоновые звуки все равно, далее я расскажу, как можно бесплатно убрать.
1.2 Бесплатно разделяем музыку и голос (Без ограничений!)
Мы будем использовать UltimateVocalRemover. Если у вас очень слабый пк - вы можете использовать этот сайт, но там очень жесткие ограничения.
Скачать его можно бесплатно здесь (На вирусы ничего не проверял, но у меня все норм) - https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.5.0/UVR_v5.5.1_setup.exe
После установки, сразу запускаем и переходим в настройки

Далее переходим все по скриншоту и ищем модель 5 HP KARAOKE UVR

Жмем на большую кнопку загрузки и закрываем окно настроек.
1.2.2 Краткое обучение использования программы

Во вкладке Select input выбираем все наши мп3 файлы с голосом
Во вкладке Select Output выбираем папку, куда будут загружаться готовые файлы
В Choose Porcess Method выбираем VR Architecture
Формат готового файла выбираем .flac
В Choose VR Model выбираем 5 HP KARAOKE UVR
Ставим галочку напротив Vocals Only, чтобы были файлы только с голосом, галочку напротив GPU ставите в зависимости от своего пк
1.3 Приводим образец в порядок
Скачав несколько аудио (Нам нужно минут 10-15, но если у вас отличное качество голоса, без фонового шума, музыки и прочего мусора, вам может хватить и 5 минут аудио), нам нужно их склеить между собой. Как это сделать я показывать не буду, так как это каждому очевидно. Я использовал FL Studio. Склеив аудио, переходим в AudaCity и вставляем туда наш получившийся аудиофайл.

После чего наводимся на "Особо - Обрезка тишины"

Выставляем настройки так, как у меня на скриншоте. Это удалит тишину, которая может испортить качество датасета, а в дальнейшем и самой нашей модели

Датасет готов, осталось сохранить его в формате .mp3 или .flac, второй вариант будет предпочтительнее

2. Настраиваем нейронку
Если вы хотите тренить нейронку локально - https://github.com/Mangio621/Mangio-RVC-Fork/releases/tag/v23.7.0 скачивайте TRAIN батник и закидывайте его в папку, где будет лежать нейронка. вт - https://www.virustotal.com/gui/file/1af658a603f6a6457ffdc78ce3ad2a06d2c652d6b163983cc2e37608367265b7
Также можно тренить в коллабе, но там ограничение около 3 часов в сутки - https://colab.research.google.com/drive/1TU-kkQWVf-PLO_hSa2QCMZS1XF5xVHqs?usp=sharing там с установкой все понятно, но если что, я помогу в комментариях.
После того, как установили, запускаем батник и скачиваем саму нейронку. После установки, заходим в папку с нейронкой и ищем там папку datasets, кидаем туда наше склееное аудио. Далее, запускаем go_web.bat для запуска нашей нейронки. У вас откроется командная строка, а также браузер с сайтом. Это веб интерфейс нашей нейронки, ничего страшного и пугающего нет. Переходим во вкладку Train

У меня тут уже все расставлено под себя, потому что пока я пишу статью, я треню модельку.
Пройдемся по графам:

Идем слева на право. Первая графа - название вашей модельки. Обязательно запомните, ибо если вы по какой то причине прервете тренировку, нужно будет ввести это слово чтобы продолжить тренировать с момента остановки. В Target sample rate выбираем 40k, в версии выбираем v2. Число CPU не трогаем.

В первом окошке вводим ссылку к нашим датасетам, встроено обычно сразу. Если вы в коллабе - закиньте ваш датасет на гуглдиск, привязанный к коллабу в котором вы трените, а потом скопируйте путь к нему и вставьте сюда. Во втором окошке ничего не пишем и жмем большую кнопку, ждем фразы end preprocess.

Тут даже нечего объяснять, все сделано за нас. выбираем на чем будем тренить, а в соседнем окошке выбираем rvmpe, жмем кнопку, ждем all-feature-done

То, что я зачеркнул - не трогать!
Самое левое окошко - выбираем, как часто будет сохранять результат тренировок. Я выбрал каждые 10 эпох, советую и вам
Далее - общее количество эпох. Чем больше - тем лучше, но и дольше. Советую выбирать 250-300, но не слишком много, ибо можно все испортить
Далее - увеличит скорость тренировки. Если у вас VRAM 12 - пишите 12, если 20 - 20, но желательно выбирать то, что делится на 2 (2, 4, 6, 12, 16, 20 и т.п)
Дальше жмем левую кнопку, Train feature index. Ее можно нажать и после тренировки модели, но желательно сначала. Дальше жмем Start Training и ждем. Вся информация о тренировке будет выводиться в командную строку, не закрывайте ее, иначе все умрет.

3. Собираем нашу модельку
Ваша моделька наконец натренирована? Осталось собрать index и pth файлы для того, чтобы делать с ней каверы или использовать для подмены голоса!
Заходим в корневую папку нейронки, переходим в подпапку weights и ищем наш pth файл. В середине названия файла должно быть число, которые вы указывали в количестве эпох. У меня это 300

Выкидываем его на рабочий стол и идем дальше. Возвращаемся в корневую папку, ищем там подпапку ****, заходим туда. Там будет папка с названием модельки, которую вы начали тренировать. Заходим туда и ищем единственный индекс файл

Его мы тоже кидаем на рабочий стол.

4. Финал
Готово, вы натренировали модель и подготовили файлы для дальнейшего использования. Закиньте эти 2 файлика в какую-нибудь папку для вашего удобства, больше вам ничего не нужно. Ниже я приложу ссылку на ютуб с кавером моей немецкоязычной модели на русскоязычную песню
Не синхронизировал видео с песней потому что похуй чота уже, спать хочу пойти

1. Регистрируемся на сайте https://huggingface.co/
После регистрации тыкаем на свой профиль (правый верхний угол), жмем кнопку New Model

Далее, в поле Model Name вводим название "папки", в которой будет лежать наша моделька.
В поле License вводим OpenRAIL и выбираете License Family
Подтверждаем, создаем

Далее, загружаем наш файл. Переходим в раздел Files and Versions
Жмакаем Add File, Upload File

Теперь файлы index и pth, которые я говорил перекинуть на рабочий стол, закидываем в zip (именно зип) архив, и загружаем туда. После загрузки жмем кнопку commit changes to main.
ВАЖНО
Если у вас долго загружает файл или загрузка/хешинг встал, попробуйте другой браузер. У фаерфокса с этим иногда проблемы.
Далее нас закинет в нашу папку, жмакаем ПКМ на кнопку скачки и копируем ссылку, теперь нейронка или другие люди могут скачивать по ней нашу модель

Нашел более простую версию коллаба для каверов (НЕ ТРЕНИРОВКИ).
Использовать на своем гуглакке на ваш страх и риск
https://colab.research.google.com/g.../AICoverGen_colab.ipynb#scrollTo=NEglTq6Ya9d0

Когда первые 3 ячейки выполнятся, запустится последняя. Там появится паблик ссылка, переходите по ней.
Откроется интерфейс, где будем делать кавер.
Делаем все по скриншоту. Под стрелкой 2 - вводим ссылку на войсмодель с huggingface, в пункте 3 вводим название модели

Далее возвращаемся на главную страницу.
Пункт 2 - обновляем список моделей только после того, как модель успешно скачалась
Пункт 3. Жмем на белую стрелочку, потом выбираем модель из списка.
Пункт 4. Выбираем вырезаный вокал, без музыки (сначала там будет другая кнопка, жмем ее)
Пункт 5. Когда вокал загрузился, жмем кнопку

Результат получился таким:

Элейна · 18 сен 2023

Важное дополнение. Коллаб не особо любит такие приколы, поэтому начал банить аккаунты за использование таких штук (Так уже умер старый коллаб для аи каверов)
Если видите вот такую штуку при запуске (скрин ниже) - запускайте лучше на пустышке

Siski_piski · 16 сен 2023

если не скопипастил-молодец

geekscence · 16 сен 2023

вау, полезная статья, спасибо)

vuchaev2015 · 16 сен 2023

Хорошая статья. Я так же когда-то обучал свои модели для So-vits-svc.
Желательно акапеллы еще через fl studio обработать, почистить от шумов, обрезать кривые участки. А затем уже обучать чтобы результат был лучше

artvor666 · 16 сен 2023

Вроде как реально все хорошо расписано, так-то годнота

2017 · 16 сен 2023

Епать, реально пиздато, +rep

Теперь можно сделать свою гс. неронку и нахуй ничего не говорить в этом еб@анном мире

Rays · 16 сен 2023

Делаем гс модель диктора с ютуба, делаем озвучку того-же реддита
+профит
Спасибо за тему

FAT32 · 16 сен 2023

Это че пересказ ролика

sadness112 · 16 сен 2023

Да в рот я ебал эти нейрокаверы, канал умер из-за них(

Элейна · 16 сен 2023

Раскидал текст в хайды, добавил красивые, на мой взгляд, картиночки. Центровать хайды я не умею, поэтому что есть, то есть

m9xd · 16 сен 2023

статейка норм, правда тема уже баяном отдавать начала

API · 23 сен 2023

колаб умер для генерации этой хуйни, юзать желательно только на локалке

Полный гайд: NFT Подарки в Телеграм от А до Я

Ловим недобросовестного продавца дедов

ПАСТА / Гайд. Как трахать тянок, чтобы те кончали?

********** карта

[NEW] Скрываем значок в профиле Steam

Как правильно переписываться с девушками

Как эффективно знакомиться с девушками в приложениях для знакомств с помощью анкеты

Как попасть в осознанный сон – создай мир своей мечты

Техника бесконечного оргазма и секса

Всё, что нужно знать о деанонах, доксах, сватах и прочих угрозах

"Взлом" электронного дневника в вашей школе, колледже и т.д. [WORK]

Для тех, кто хочет подняться на форуме

Создаем американскую .edu почту

Переносим интернет в Telegram

Почему важно иметь "правильных" понятых при обысках

Как улучшить просмотры на Youtube

Халявные игры в Steam (Youtube 1k sub)

[2025] Работа с логами для новичков и не только

Используем ChatGPT, Gemini, Microsoft Copilot, Claude, Spotify, Notion без ***

Как через AmneziaWG проксировать только Discord (и YouTube)

Покупаем телеграм звезды без верификации дешевле чем на лолзе

PalaceNFT — Продаем NFT стикеры в Telegram

Получаем быстро ****** тора и свапаем айпишник прямо в браузере | SQTorProxy

Получаем 18+ сливы бесплатно + монетизация

10 малоизвестных, но полезных нейронок

Создаем сайты с помощью фото через нейросеть | HTML, CSS/TailwindCSS, FontAwesome, JS | Макет фигмы

TON + Python на примере автоматизации покупок на Fragment

"FREEFOODWORK" или Как питаться бесплатно

[Статья] - Чем же плох Funpay? | Вся правда о данной площадке

Полезные нейросети для студентов

Как создать свою голосовую модель для ИИ