Загрузка...

Как создать свою голосовую модель для ИИ

Тема в разделе Статьи создана пользователем Элейна 16 сен 2023. (поднята 27 дек 2024) 2062 просмотра

  1. Элейна
    Элейна Автор темы 16 сен 2023 4668 16 авг 2019
    [IMG]
    Всем привет :animewave:
    Как вы могли заметить, я не только гениальный дизайнер, но еще и нейродебил. Пока моя моделька тренится, хочу расписать, как создавать модели голосов своих любимых ютуберов/певцов. Некоторые зарабатывают на этом, но для этого вам нужно заиметь имя в местных кругах и иметь возможность принимать деньги из за рубежа. С помощью модельки можно делать аи каверы, или прикалываться в дискордике заменяя свой голос
    ПРОЧИТАЙТЕ МОЙ ЗАКРЕПЛЕННЫЙ КОММЕНТАРИЙ ПОСЛЕ ПРОЧТЕНИЯ ТЕМЫ​
    [IMG]
    1. Подготовка датасета
    1.1 Загрузка аудио
    Для того, чтобы начать тренировать модельку, нам надо подготовить датасет, иными словами, образец голоса какого-то человека.
    Для примера я выбрал Selphius, делающую каверы на немецком.
    Переходим на сайт https://y2down.cc/ru/youtube-mp3.html и вставляем туда ссылку на любое из видео, далее нужно выбрать формат скачивания MP3. Совершенно не важно какой будет пример голоса, главное - чтобы голос был как можно меньше искажен. На музыку и фоновые звуки все равно, далее я расскажу, как можно бесплатно убрать.
    1.2 Бесплатно разделяем музыку и голос (Без ограничений!)
    Мы будем использовать UltimateVocalRemover. Если у вас очень слабый пк - вы можете использовать этот сайт, но там очень жесткие ограничения.
    Скачать его можно бесплатно здесь (На вирусы ничего не проверял, но у меня все норм) - https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.5.0/UVR_v5.5.1_setup.exe
    После установки, сразу запускаем и переходим в настройки
    [IMG]
    Далее переходим все по скриншоту и ищем модель 5 HP KARAOKE UVR
    [IMG]
    Жмем на большую кнопку загрузки и закрываем окно настроек.
    1.2.2 Краткое обучение использования программы
    [IMG]
    Во вкладке Select input выбираем все наши мп3 файлы с голосом
    Во вкладке Select Output выбираем папку, куда будут загружаться готовые файлы
    В Choose Porcess Method выбираем VR Architecture
    Формат готового файла выбираем .flac
    В Choose VR Model выбираем 5 HP KARAOKE UVR
    Ставим галочку напротив Vocals Only, чтобы были файлы только с голосом, галочку напротив GPU ставите в зависимости от своего пк
    1.3 Приводим образец в порядок
    Скачав несколько аудио (Нам нужно минут 10-15, но если у вас отличное качество голоса, без фонового шума, музыки и прочего мусора, вам может хватить и 5 минут аудио), нам нужно их склеить между собой. Как это сделать я показывать не буду, так как это каждому очевидно. Я использовал FL Studio. Склеив аудио, переходим в AudaCity и вставляем туда наш получившийся аудиофайл.
    [IMG]
    После чего наводимся на "Особо - Обрезка тишины"
    [IMG]
    Выставляем настройки так, как у меня на скриншоте. Это удалит тишину, которая может испортить качество датасета, а в дальнейшем и самой нашей модели
    [IMG]
    Датасет готов, осталось сохранить его в формате .mp3 или .flac, второй вариант будет предпочтительнее​
    [IMG]
    2. Настраиваем нейронку
    Если вы хотите тренить нейронку локально - https://github.com/Mangio621/Mangio-RVC-Fork/releases/tag/v23.7.0 скачивайте TRAIN батник и закидывайте его в папку, где будет лежать нейронка. вт - https://www.virustotal.com/gui/file/1af658a603f6a6457ffdc78ce3ad2a06d2c652d6b163983cc2e37608367265b7
    Также можно тренить в коллабе, но там ограничение около 3 часов в сутки - https://colab.research.google.com/drive/1TU-kkQWVf-PLO_hSa2QCMZS1XF5xVHqs?usp=sharing там с установкой все понятно, но если что, я помогу в комментариях.
    После того, как установили, запускаем батник и скачиваем саму нейронку. После установки, заходим в папку с нейронкой и ищем там папку datasets, кидаем туда наше склееное аудио. Далее, запускаем go_web.bat для запуска нашей нейронки. У вас откроется командная строка, а также браузер с сайтом. Это веб интерфейс нашей нейронки, ничего страшного и пугающего нет. Переходим во вкладку Train
    [IMG]
    У меня тут уже все расставлено под себя, потому что пока я пишу статью, я треню модельку.
    Пройдемся по графам:
    [IMG]
    Идем слева на право. Первая графа - название вашей модельки. Обязательно запомните, ибо если вы по какой то причине прервете тренировку, нужно будет ввести это слово чтобы продолжить тренировать с момента остановки. В Target sample rate выбираем 40k, в версии выбираем v2. Число CPU не трогаем.
    [IMG]

    В первом окошке вводим ссылку к нашим датасетам, встроено обычно сразу. Если вы в коллабе - закиньте ваш датасет на гуглдиск, привязанный к коллабу в котором вы трените, а потом скопируйте путь к нему и вставьте сюда. Во втором окошке ничего не пишем и жмем большую кнопку, ждем фразы end preprocess.
    [IMG]
    Тут даже нечего объяснять, все сделано за нас. выбираем на чем будем тренить, а в соседнем окошке выбираем rvmpe, жмем кнопку, ждем all-feature-done
    [IMG]
    То, что я зачеркнул - не трогать!
    Самое левое окошко - выбираем, как часто будет сохранять результат тренировок. Я выбрал каждые 10 эпох, советую и вам
    Далее - общее количество эпох. Чем больше - тем лучше, но и дольше. Советую выбирать 250-300, но не слишком много, ибо можно все испортить
    Далее - увеличит скорость тренировки. Если у вас VRAM 12 - пишите 12, если 20 - 20, но желательно выбирать то, что делится на 2 (2, 4, 6, 12, 16, 20 и т.п)
    Дальше жмем левую кнопку, Train feature index. Ее можно нажать и после тренировки модели, но желательно сначала. Дальше жмем Start Training и ждем. Вся информация о тренировке будет выводиться в командную строку, не закрывайте ее, иначе все умрет.
    [IMG]
    [IMG]
    3. Собираем нашу модельку
    Ваша моделька наконец натренирована? Осталось собрать index и pth файлы для того, чтобы делать с ней каверы или использовать для подмены голоса!
    Заходим в корневую папку нейронки, переходим в подпапку weights и ищем наш pth файл. В середине названия файла должно быть число, которые вы указывали в количестве эпох. У меня это 300
    [IMG]
    Выкидываем его на рабочий стол и идем дальше. Возвращаемся в корневую папку, ищем там подпапку ****, заходим туда. Там будет папка с названием модельки, которую вы начали тренировать. Заходим туда и ищем единственный индекс файл
    [IMG]
    Его мы тоже кидаем на рабочий стол.​
    [IMG]
    4. Финал
    Готово, вы натренировали модель и подготовили файлы для дальнейшего использования. Закиньте эти 2 файлика в какую-нибудь папку для вашего удобства, больше вам ничего не нужно. Ниже я приложу ссылку на ютуб с кавером моей немецкоязычной модели на русскоязычную песню
    Не синхронизировал видео с песней потому что похуй чота уже, спать хочу пойти

    [IMG]
    1. Регистрируемся на сайте https://huggingface.co/
    После регистрации тыкаем на свой профиль (правый верхний угол), жмем кнопку New Model
    [IMG]
    Далее, в поле Model Name вводим название "папки", в которой будет лежать наша моделька.
    В поле License вводим OpenRAIL и выбираете License Family
    Подтверждаем, создаем
    [IMG]
    Далее, загружаем наш файл. Переходим в раздел Files and Versions
    Жмакаем Add File, Upload File
    [IMG]
    Теперь файлы index и pth, которые я говорил перекинуть на рабочий стол, закидываем в zip (именно зип) архив, и загружаем туда. После загрузки жмем кнопку commit changes to main.
    ВАЖНО :zerotwo:
    Если у вас долго загружает файл или загрузка/хешинг встал, попробуйте другой браузер. У фаерфокса с этим иногда проблемы.
    Далее нас закинет в нашу папку, жмакаем ПКМ на кнопку скачки и копируем ссылку, теперь нейронка или другие люди могут скачивать по ней нашу модель
    [IMG]
    [IMG]
    Нашел более простую версию коллаба для каверов (НЕ ТРЕНИРОВКИ).
    Использовать на своем гуглакке на ваш страх и риск
    https://colab.research.google.com/g.../AICoverGen_colab.ipynb#scrollTo=NEglTq6Ya9d0
    [IMG]
    Когда первые 3 ячейки выполнятся, запустится последняя. Там появится паблик ссылка, переходите по ней.
    Откроется интерфейс, где будем делать кавер.
    Делаем все по скриншоту. Под стрелкой 2 - вводим ссылку на войсмодель с huggingface, в пункте 3 вводим название модели
    [IMG]
    Далее возвращаемся на главную страницу.
    Пункт 2 - обновляем список моделей только после того, как модель успешно скачалась
    Пункт 3. Жмем на белую стрелочку, потом выбираем модель из списка.
    Пункт 4. Выбираем вырезаный вокал, без музыки (сначала там будет другая кнопка, жмем ее)
    Пункт 5. Когда вокал загрузился, жмем кнопку
    [IMG]
    Результат получился таким:
     
    Этот материал оказался полезным?
    Вы можете отблагодарить автора темы путем перевода средств на баланс
    Отблагодарить автора
    16 сен 2023 Изменено
    1. Звёздочка
      Элейна, ништяк тема, ты настоящий друг, как раз искал
  2. Элейна
    Элейна Автор темы 18 сен 2023 4668 16 авг 2019
    Важное дополнение. Коллаб не особо любит такие приколы, поэтому начал банить аккаунты за использование таких штук (Так уже умер старый коллаб для аи каверов)
    Если видите вот такую штуку при запуске (скрин ниже) - запускайте лучше на пустышке
    [IMG]
     
  3. Siski_piski
    Siski_piski 16 сен 2023 13 907 25 окт 2021
    если не скопипастил-молодец
     
    1. Элейна Автор темы
  4. geekscence
    вау, полезная статья, спасибо)
     
  5. vuchaev2015
    vuchaev2015 16 сен 2023 все ближе и ближе... 23 634 15 фев 2018
    Хорошая статья. Я так же когда-то обучал свои модели для So-vits-svc.
    Желательно акапеллы еще через fl studio обработать, почистить от шумов, обрезать кривые участки. А затем уже обучать чтобы результат был лучше
     
    1. Посмотреть предыдущие комментарии (16)
    2. vuchaev2015
      Tekumi, у меня на моделях по 10к эпох было и то они не всегда хорошими выходили
  6. artvor666
    Вроде как реально все хорошо расписано, так-то годнота
     
  7. 2017
    2017 16 сен 2023 Заблокирован(а) 11 032 18 сен 2019
    Епать, реально пиздато, +rep

    Теперь можно сделать свою гс. неронку и нахуй ничего не говорить в этом еб@анном мире :interesting:
     
  8. Rays
    Rays 16 сен 2023 Он проебал этот аккаунт =) а я жизнь 
|⎺䨻⎺
|䨻⎺ 585 29 мар 2021
    Делаем гс модель диктора с ютуба, делаем озвучку того-же реддита
    +профит
    Спасибо за тему
     
  9. FAT32
    FAT32 16 сен 2023 :sueta: 1299 17 май 2018
    Это че пересказ ролика
     
    1. Элейна Автор темы
      FAT32, кринж, ты бы хоть тему посмотрел дальше разделения вокала с музыкой. Да и смотреть такое на ютубе..
  10. sadness112
    sadness112 16 сен 2023 СТАТЬ МИЛЛИОНЕРОМ ЗА МЕСЯЦ - https://lolz.live/threads/8241684/ 694 27 дек 2020
    Да в рот я ебал эти нейрокаверы, канал умер из-за них(
    [IMG]
     
    1. Элейна Автор темы
      sadness112, выбирай без ап, или полностью автора указывай
  11. Элейна
    Элейна Автор темы 16 сен 2023 4668 16 авг 2019
    Раскидал текст в хайды, добавил красивые, на мой взгляд, картиночки. Центровать хайды я не умею, поэтому что есть, то есть
     
  12. m9xd
    m9xd 16 сен 2023 А я сейчас не буду плакать 492 25 авг 2022
    статейка норм, правда тема уже баяном отдавать начала
     
    1. Посмотреть предыдущие комментарии (2)
    2. Элейна Автор темы
      nicrdonu, [IMG]
      Хуя ты рофланебало, где ты копипаст увидело?)
    3. Элейна Автор темы
      nicrdonu, у тебя статья про ссаный коллаб на китайском без нормальных объяснений, еще и устаревшая информация, держу в курсе
    4. inletah
      Элейна, Этим хейтерам лишь бы насрать. в значение самой темы и ее сути они не вникают.
  13. API
    API 23 сен 2023 good 112 7 июл 2021
    колаб умер для генерации этой хуйни, юзать желательно только на локалке
     
    23 сен 2023 Изменено
Загрузка...
Top