Загрузка...

Мои пикчи с ИИ: Гайд от PixelFoxia

Тема в разделе Нейросети создана пользователем PixelFoxia 9 мар 2025. 113 просмотров

  1. PixelFoxia
    PixelFoxia Автор темы 9 мар 2025 0 9 мар 2025
    Привет, зайки! Генерить миленькие пикчи по словам — это так просто, если взять онлайн-генератор. А вот поставить ИИ на свой компик — уже задачка для хакерской девчонки вроде меня! Тут я расскажу, какие модельки есть, чем Stable Diffusion не похож на Flux, что за милашка AuraFlow и как сделать дома свой генератор пикч без всяких запретов. Псс, я эту статейку тихонько спёрла и сделала по-своему, тсс!

    Что нужно, чтобы начать генерить?
    Нужен компик (лучше с видеокартой Nvidia, они такие классные), софтик и базовая моделька (чекпоинт). Всё бесплатное, бери и пробуй, пока не надоест!

    Видеокарта
    Nvidia — лучшие подружки для ИИ. AMD, Intel или встроенная графика от Apple тоже могут, но с ними сложнее, а я ленюсь. Главное — объём видеопамяти (VRAM): старым моделям хватает 8–12 Гбайт, а новым уже 16–24 Гбайт. На слабенькой карточке всё пойдёт, но медленнее на 30–50% — как я, когда не выспалась. Если у тебя старая карточка, не грусти, просто придётся подождать пикчи подольше.

    Софтик
    Всё бесплатное, с открытым кодом и работает в браузере через gradio — так мило! Мой списочек:
    1. Fooocus: для ленивых зайек вроде меня. Клик — и готово! Только SDXL, но запросы сами становятся лучше с языковой моделькой. Распаковала, запустила — оно само скачает всё. Идеально, если ты новенькая и хочешь сразу милоты!
    2. AUTOMATIC1111: как джинсы — классика. Стабильный, плагинчики классные, но в форках иногда глючит. Это база, с которой всё началось!
    3. Stable Diffusion web UI for AMDGPUs: для девчонок с AMD. Там всякие штуки типа DirectML, ZLUDA, Onnx Runtime — звучит как хакерские заклинания!
    4. WebUI Forge: форк A1111, шустрый и бережёт видеопамять. Пока эксперимент, но Flux тянет. Плагинчики не все работают, зато есть свои няшки, которые делают почти то же самое.
    5. WebUI reForge: ещё шустрее Forge, с плюшками от A1111 и ComfyUI. Летает с SD1.5/SDXL/CosXL, и плагины дружат лучше, чем в обычном Forge. Моя любимица для скорости!
    6. ComfyUI: для тех, кто любит схемки. Сложно, но новые модельки тут первыми — как вкусняшки в магазине! Поддерживает всё подряд, но с ним надо повозиться.
    7. SwarmUI: Comfy, но проще и милее. Бери и юзай, если хочешь удобства и мощи в одном флаконе!

    Ещё несколько хорошеньких:
    1. InvokeAI: отдельная прога, а не браузер. Просто, как Fooocus, но с хакерскими фишками. Есть режим как в Comfy для продвинутых зайек.
    2. StabilityMatrix: штука, чтобы рулить всеми интерфейсами. Удобно, если любишь порядок!
    3. Draw Things: для яблочных зайек с Mac/iOS. SD и Flux — мои лапки, работает на Apple Silicon как родное!
    4. SD/.Next: форк A1111 с кучей всего, но капризный, как я без конфет. Много плагинов сразу в комплекте, но настройка — это квест.
    5. Krita Diffusion: плагин для Krita, чтобы дорисовывать, убирать штуки или растягивать пикчи. Волшебно, если любишь рисовать!

    Что взять, милашка?
    Mac — Draw Things. Просто и мило — Fooocus. SDXLreForge или SwarmUI; FluxSwarmUI или Forge. Forge обычный — для смелых хакерш, которые любят тестить новое. AMD — WebUI AMDGPU. Выбирай по своему компику и настроению!


    Модельки и всякое такое
    Моделей — как игрушек в моей комнате! Одни одиночки (AuraFlow, Kolors), другие — целые банды, как SD1.5 или SDXL. Давай разберёмся, что к чему!

    Какие бывают
    Мои любимки и не только:
    • SD1.5: старушка с 512x512. Тянет даже слабенькие карточки, моделей и ремиксов — миллион! Если железо старенькое, она твоя подружка.
    • NAI Diffusion: аниме-девочка на SD1.5. Сама не модная, но в аниме-моделях её кусочек есть. Когда-то её спёрли, и началась аниме-волна!
    • SD2.0: фу, забыли давно, она была так себе.
    • SDXL: выросшая SD1.5, 1024x1024 (можно разные размеры, но пикселей столько же). Моделей тьма — от простых до ого-го! Классно для ControlNet, если хочешь точнее управлять пикчами.
    • CosXL: эксперимент с чёрным и ярким. Мало подружек-моделей, потому что работает только в reForge, SwarmUI, Comfy. Попробуй gtmUltimateblendXL_v25Cosxl — такая ня! Картинки сочнее, чем у обычной SDXL.
    • Pony Diffusion: аниме-сестра SDXL. Любит теги danbooru, запросы — как загадки, зато персонажи классные. Работает везде, где SDXL, но LoRA от SDXL с ней не дружат.
    • LCM, Turbo, Lightning, Hyper, DMD2: это ускорялки для генерации за 4–10 шагов. Детали могут пострадать, но если хочешь быстро — бери! Есть гибридные модельки, которые работают и быстро, и обычно — смотри настройки.
    • Stable Cascade: странная штука с тремя этапами. Не прижилась, потому что сложная и лицензия вредная.
    • Stable Diffusion 3: должна быть крутой, но пока сырая. Ждём, когда доучат!
    • FLUX.1 [dev]: новенькая на DiT. Умненькая, понимает сложные запросы благодаря своей языковой модельке. До 1440x1440, но на больших размерах может косячить с блочками. Forge, ComfyUI, SwarmUI, Draw Things её любят. Есть сжатые версии для слабых карточек!
    • AuraFlow: милая открытая моделька от Fal Ai. Пока учится, но лицензия свободная — мечта хакерш! Comfy и SwarmUI её берут, а онлайн можно потестить на сайте Fal Ai.
    • Lumina-Next-SFT: мощная, но ставить сложно — только как отдельную прогу. Для терпеливых зайек!
    • HunyuanDIT: от Tencent, знает китайский. В Comfy работает с модулем city96.
    • PixArt Sigma: в разработке, тоже с модулем city96 в Comfy.
    • Kolors: новенькая на U-Net, как SDXL. Пока редкая гостья.

    Что попробовать, зай?
    Flux — бери, если компик тянет, она умная и красивая. AuraFlow — для любопытных, она ещё малышка, но растёт. SDXL — если хочешь кучу моделей и стабильность. CosXL — для сочных пикч, если не лень покопаться.

    Базовые модельки и плюшки
    Есть базовые модельки (чекпоинты) — это основа. А ещё куча дополнений: LoRA, Lycoris, DoRA — маленькие файлики, которые добавляют стили, персонажей или штучки, которых нет в базе. Текстовые инверсии (embeddings) — это как волшебные слова: одно слово, и моделька вспоминает что-то классное, если оно в ней есть. LoRA меняет стиль, а инверсии работают мягче.

    Скачай базовую модельку и кидай в папку — почти все интерфейсы сами подтянут что-нибудь, если забудешь. Где брать? На Civit.ai полно всего, фильтруй по SDXL или Flux, а то утонешь в LoRA. Tensor.art и Hugging Face тоже зайдут — там есть редкие вкусняшки.

    Из чего модельки сделаны?
    Три части:
    1. Текстовый декодер: переводит слова в цифры для ИИ. В SDXL два (CLIP и OpenCLIP), в Flux — CLIP и T5xxl для сложных запросов.
    2. Основная модель: мозги, которые рисуют в латентном пространстве. U-Net (SDXL) или DiT (Flux) — новые круче понимают, что где должно быть.
    3. VAE: вытаскивает пикчу из латентного мира в пиксели. В SDXL простенький, в Flux и SD3 — получше, цвета ярче.
    U-Net — как сжатие-разжатие с дорисовкой, DiT — умнее, видит картинку целиком. Flux с DiT лучше рисует, например, как человек держит меч.

    Итог
    Поставить ИИ дома — как найти коробку с сюрпризами! Бери софт и модельки, какие нравятся твоему компику. Fooocus — для простоты, ComfyUI — для мощи, Flux — для новенького. Надеюсь, эта статейка (тихо спёртая, хихи) вдохновит тебя на милые пикчи, моя хакерская зайка!
     
Загрузка...
Top