Мои пикчи с ИИ: Гайд от PixelFoxia

PixelFoxia · 9 мар 2025

Привет, зайки! Генерить миленькие пикчи по словам — это так просто, если взять онлайн-генератор. А вот поставить ИИ на свой компик — уже задачка для хакерской девчонки вроде меня! Тут я расскажу, какие модельки есть, чем Stable Diffusion не похож на Flux, что за милашка AuraFlow и как сделать дома свой генератор пикч без всяких запретов. Псс, я эту статейку тихонько спёрла и сделала по-своему, тсс!

Что нужно, чтобы начать генерить?
Нужен компик (лучше с видеокартой Nvidia, они такие классные), софтик и базовая моделька (чекпоинт). Всё бесплатное, бери и пробуй, пока не надоест!

Видеокарта
Nvidia — лучшие подружки для ИИ. AMD, Intel или встроенная графика от Apple тоже могут, но с ними сложнее, а я ленюсь. Главное — объём видеопамяти (VRAM): старым моделям хватает 8–12 Гбайт, а новым уже 16–24 Гбайт. На слабенькой карточке всё пойдёт, но медленнее на 30–50% — как я, когда не выспалась. Если у тебя старая карточка, не грусти, просто придётся подождать пикчи подольше.

Софтик
Всё бесплатное, с открытым кодом и работает в браузере через gradio — так мило! Мой списочек:

Fooocus: для ленивых зайек вроде меня. Клик — и готово! Только SDXL, но запросы сами становятся лучше с языковой моделькой. Распаковала, запустила — оно само скачает всё. Идеально, если ты новенькая и хочешь сразу милоты!

AUTOMATIC1111: как джинсы — классика. Стабильный, плагинчики классные, но в форках иногда глючит. Это база, с которой всё началось!

Stable Diffusion web UI for AMDGPUs: для девчонок с AMD. Там всякие штуки типа DirectML, ZLUDA, Onnx Runtime — звучит как хакерские заклинания!

WebUI Forge: форк A1111, шустрый и бережёт видеопамять. Пока эксперимент, но Flux тянет. Плагинчики не все работают, зато есть свои няшки, которые делают почти то же самое.

WebUI reForge: ещё шустрее Forge, с плюшками от A1111 и ComfyUI. Летает с SD1.5/SDXL/CosXL, и плагины дружат лучше, чем в обычном Forge. Моя любимица для скорости!

ComfyUI: для тех, кто любит схемки. Сложно, но новые модельки тут первыми — как вкусняшки в магазине! Поддерживает всё подряд, но с ним надо повозиться.

SwarmUI: Comfy, но проще и милее. Бери и юзай, если хочешь удобства и мощи в одном флаконе!

Ещё несколько хорошеньких:

InvokeAI: отдельная прога, а не браузер. Просто, как Fooocus, но с хакерскими фишками. Есть режим как в Comfy для продвинутых зайек.

StabilityMatrix: штука, чтобы рулить всеми интерфейсами. Удобно, если любишь порядок!

Draw Things: для яблочных зайек с Mac/iOS. SD и Flux — мои лапки, работает на Apple Silicon как родное!

SD/.Next: форк A1111 с кучей всего, но капризный, как я без конфет. Много плагинов сразу в комплекте, но настройка — это квест.

Krita Diffusion: плагин для Krita, чтобы дорисовывать, убирать штуки или растягивать пикчи. Волшебно, если любишь рисовать!

Что взять, милашка?
Mac — Draw Things. Просто и мило — Fooocus. SDXL — reForge или SwarmUI; Flux — SwarmUI или Forge. Forge обычный — для смелых хакерш, которые любят тестить новое. AMD — WebUI AMDGPU. Выбирай по своему компику и настроению!

A1111, Forge и reForge можно ставить в разные папки и делить модельки через командную строку (webui-user.bat): --models-dir, --ckpt-dir, --lora-dir, --clip-models-path, --embeddings-dir. Хакерская милота!
Нажмите, чтобы раскрыть...

Модельки и всякое такое
Моделей — как игрушек в моей комнате! Одни одиночки (AuraFlow, Kolors), другие — целые банды, как SD1.5 или SDXL. Давай разберёмся, что к чему!

Какие бывают
Мои любимки и не только:

SD1.5: старушка с 512x512. Тянет даже слабенькие карточки, моделей и ремиксов — миллион! Если железо старенькое, она твоя подружка.

NAI Diffusion: аниме-девочка на SD1.5. Сама не модная, но в аниме-моделях её кусочек есть. Когда-то её спёрли, и началась аниме-волна!

SD2.0: фу, забыли давно, она была так себе.

SDXL: выросшая SD1.5, 1024x1024 (можно разные размеры, но пикселей столько же). Моделей тьма — от простых до ого-го! Классно для ControlNet, если хочешь точнее управлять пикчами.

CosXL: эксперимент с чёрным и ярким. Мало подружек-моделей, потому что работает только в reForge, SwarmUI, Comfy. Попробуй gtmUltimateblendXL_v25Cosxl — такая ня! Картинки сочнее, чем у обычной SDXL.

Pony Diffusion: аниме-сестра SDXL. Любит теги danbooru, запросы — как загадки, зато персонажи классные. Работает везде, где SDXL, но LoRA от SDXL с ней не дружат.

LCM, Turbo, Lightning, Hyper, DMD2: это ускорялки для генерации за 4–10 шагов. Детали могут пострадать, но если хочешь быстро — бери! Есть гибридные модельки, которые работают и быстро, и обычно — смотри настройки.

Stable Cascade: странная штука с тремя этапами. Не прижилась, потому что сложная и лицензия вредная.

Stable Diffusion 3: должна быть крутой, но пока сырая. Ждём, когда доучат!

FLUX.1 [dev]: новенькая на DiT. Умненькая, понимает сложные запросы благодаря своей языковой модельке. До 1440x1440, но на больших размерах может косячить с блочками. Forge, ComfyUI, SwarmUI, Draw Things её любят. Есть сжатые версии для слабых карточек!

AuraFlow: милая открытая моделька от Fal Ai. Пока учится, но лицензия свободная — мечта хакерш! Comfy и SwarmUI её берут, а онлайн можно потестить на сайте Fal Ai.

Lumina-Next-SFT: мощная, но ставить сложно — только как отдельную прогу. Для терпеливых зайек!

HunyuanDIT: от Tencent, знает китайский. В Comfy работает с модулем city96.

PixArt Sigma: в разработке, тоже с модулем city96 в Comfy.

Kolors: новенькая на U-Net, как SDXL. Пока редкая гостья.

Что попробовать, зай?
Flux — бери, если компик тянет, она умная и красивая. AuraFlow — для любопытных, она ещё малышка, но растёт. SDXL — если хочешь кучу моделей и стабильность. CosXL — для сочных пикч, если не лень покопаться.

Базовые модельки и плюшки
Есть базовые модельки (чекпоинты) — это основа. А ещё куча дополнений: LoRA, Lycoris, DoRA — маленькие файлики, которые добавляют стили, персонажей или штучки, которых нет в базе. Текстовые инверсии (embeddings) — это как волшебные слова: одно слово, и моделька вспоминает что-то классное, если оно в ней есть. LoRA меняет стиль, а инверсии работают мягче.

Скачай базовую модельку и кидай в папку — почти все интерфейсы сами подтянут что-нибудь, если забудешь. Где брать? На Civit.ai полно всего, фильтруй по SDXL или Flux, а то утонешь в LoRA. Tensor.art и Hugging Face тоже зайдут — там есть редкие вкусняшки.

Из чего модельки сделаны?
Три части:

Текстовый декодер: переводит слова в цифры для ИИ. В SDXL два (CLIP и OpenCLIP), в Flux — CLIP и T5xxl для сложных запросов.

Основная модель: мозги, которые рисуют в латентном пространстве. U-Net (SDXL) или DiT (Flux) — новые круче понимают, что где должно быть.

VAE: вытаскивает пикчу из латентного мира в пиксели. В SDXL простенький, в Flux и SD3 — получше, цвета ярче.

U-Net — как сжатие-разжатие с дорисовкой, DiT — умнее, видит картинку целиком. Flux с DiT лучше рисует, например, как человек держит меч.

Итог
Поставить ИИ дома — как найти коробку с сюрпризами! Бери софт и модельки, какие нравятся твоему компику. Fooocus — для простоты, ComfyUI — для мощи, Flux — для новенького. Надеюсь, эта статейка (тихо спёртая, хихи) вдохновит тебя на милые пикчи, моя хакерская зайка!

Нормальная ли подписка Perplexity Pro ?

Помогите с составлением промта

Есть ли ИИ, где собраны все ИИ =)?

Где взять бесплатно api нейросетей для тг бота?

Есть нейронки которые помогают в режиме ирл на пк?

Как убрать фулл цензуру на локальной языковой нейронке?

Кто круче дикпиу или ИИ?

Какая есть хорошая нейрона для улучшения качества фото?

Посоветуйте нейронку

Лучшая нейросеть, которая пишет скрипты?

Как сделать такую озвучку?

Грок в телеграме у вас сейчас работает?

AI Voice Changer проблема ?

Как обучить нейросеть на своих фотках

Отключение цензуры DeepSeek (FIX)

Download chatgpt без microsoft

Как оживить 18+ фото?

Насчёт правил раздела

Правила создания темы в разделе "Нейросети"

Убираем полностью цензуру DeepSeek с нормальным новым промтом (личный)

Где можно купить подписку на cursor ai?

Есть такая нейронка которая восстановит заблюренное изображение?

Помогите найти нейросеть

Кто уже потестил Grok4

В какой нейросети можно сделать взрыв?

Какая нейросеть так может?

Какие сейчас ИИ для озвучки ру-текста?

Кому нужен Гугл вео 3 ?

Какая нейросеть лучше подойдет для кода тг бота ?

Пиздец

Мои пикчи с ИИ: Гайд от PixelFoxia