Georgii Kucherenko 15.02.2024Poslední aktualizace: 15.02.2024

0 125 Doba čtení: 5 min

Obsah

1 Byla uvolněna nová neuronová síť Stable Diffusion. Vytváří obrázky na základě popisu
2 Stable Diffusion: jak vytváří neuronová síť funguje ve stylu cyberpunku a Disneyho
3 Co je stabilní difúze
4 Jak funguje stabilní difúze?
5 Jak stáhnout Stable Diffusion
6 Jak používat Stable Diffusion online
7 Jak napsat dotaz pro Stable Diffusion
8 Výsledky práce ve Stabilní difúzi

Byla uvolněna nová neuronová síť Stable Diffusion. Vytváří obrázky na základě popisu

Stable Diffusion: jak vytváří neuronová síť funguje ve stylu cyberpunku a Disneyho

Stable Diffusion zaujímá zvláštní místo ve světě neuronových sítí. Jeho autoři záměrně rozvíjejí svůj projekt otevřeně, aby jej mohla podpořit komunita nadšenců. V důsledku toho se objevily stovky modifikací neuronové sítě, které generují obrázky v různých stylech.

Co je stabilní difúze

Stable Diffusion je open-source neuronová síť ze skupiny Stability.ai studio, která umožňuje generovat obrázky na základě textového dotazu, stejně jako kompletovat náčrty a upravovat zdrojové obrázky.

Stabilní difúze je založena na difúzním modelu, který se učí postupně odstraňovat přebytek ze vzorového obrázku a po několika iteracích vytváří výsledek. Difúzní modely se již používají pro syntézu řeči a 3D grafiku.

Jak funguje difúze při generování obrázku ve Stable Diffusion
(Video: YouTube)

Stable Diffusion vyšla v srpnu 2022 a v listopadu vyšla vylepšená verze 2.0, která nabízí obrázky s rozlišením 2048×2048 pixelů a větším. Je také přizpůsoben pro vytváření digitálního umění.

Stability.ai uvedl, že díky svému otevřenému zdrojovému kódu lze model použít v různých aplikacích, které vyžadují práci s obrázky. Webový editor obrázků Canva a 3D modelovací program Blender tak již mají funkci pro generování obrázků na základě textových popisů.

Zajímavé: 6 typů lidí, kteří ničí vaše sebevědomí.

Obrázek generovaný neuronovou sítí Midjourney

Neuronová síť generuje stejně úspěšně jak krajiny, tak portréty.

Jak funguje stabilní difúze?

Stabilní difúze zahrnuje několik modelů:

textový kodér je speciální model transformačního jazyka, který přijímá text jako vstup a překládá jej do sady čísel popisujících každé slovo;
generátor obrázků, který zahrnuje neuronovou síť UNet a plánovací algoritmus. Vytváří obrazovou informaci;
dekodér. Na základě obdržených informací maluje obrázek.

Jak funguje stabilní difúze

Jak funguje stabilní difúze (Foto: jalammar.github.io)

Foto: Freepik

Stabilní difúze může:

vytvářet obrázky na základě textového popisu. Model přitom nepracuje s jednotlivými pixely obrázků, ale s jejich komprimovanými verzemi, což šetří paměť v zařízení;
kreslit ve stylech různých umělců, od renesance po moderní digitální umělce. Vývojářská komunita již vyvíjí samostatné varianty neuronové sítě, které se liší stylem, například Van-Gogh-diffusion, která „maluje“ ve stylu Van Gogha. Existují také varianty modelu, které generují obrázky v určitém stylu, například karikatury Disney;

Elon Musk ve stylu Van Gogha

Elon Musk ve stylu Van Gogha (Foto: huggingface.co)

nahraďte objekty v obrázcích a doplňte pozadí. Pomocí funkce Inpainting nahradí neuronová síť jakýkoli objekt objektem, který si sama vygeneruje. A funkce Outpainting vám umožní domalovat hotový obrázek a vygenerovat kolem něj pozadí;

Dokončení obrazu „Dívka s perlovou náušnicí“

Dokončení obrazu „Dívka s perlovou náušnicí“ (Foto: stable-diffusion-art.com)

kompletní skici. Stabilní difúze může do skici přidat detaily a pozadí. Bude se vám například hodit, když budete chtít z kreseb svých dětí vytvořit díla;

Počáteční a závěrečné obrázky dětské kresby

Původní a konečné obrázky dětské kresby (Foto: reddit.com/r/StableDiffusion)

vytvářet vizuální projekty. Pomocí neuronové sítě můžete vytvářet animace snímek po snímku a kombinovat obrázky do videí;

Video „Cestování v čase“ vytvořené po 36 požadavcích na Stable Diffusion
(Video: YouTube)

vytvářet objekty a místa pro videohry. Integrace neuronové sítě do open-source herního enginu Unreal Engine umožňuje vytvářet ve hře předměty podle popisu a umisťovat je do herního prostoru.

Zajímavé: Je letadlo opravdu nejbezpečnější dopravou.

Vývojáři samostatně vyvíjejí variantu Stable Diffusion nazvanou Riffusion pro generování hudby. Melodie lze vytvářet buď na základě navržené šablony, nebo pomocí textového popisu.

Foto: OpenAI

Jak stáhnout Stable Diffusion

Ke stažení Stable Diffusion potřebujete počítač se systémem Windows nebo Linux s grafickou kartou s minimální kapacitou paměti 4 nebo 8 GB. Pro tyto operační systémy existují dva oblíbené instalační programy:

Instalační program CMDR2 na jedno kliknutí. Projekt je dostupný na GitHubu, je potřeba ho stáhnout na disk C. Ve složce projektu je potřeba poklepat na Start Stable Diffusion UI.cmd. Instalační program zabere 1 GB místa na pevném disku. CMDR25 umožňuje vybrat počet vygenerovaných obrázků na vyžádání, počet kroků, velikost a formát obrázku, úpravy obrázku a model Stable Diffusion. Neuronová síť generuje jednotlivé části obrazu, vylučuje objekty a provádí detaily;

Rozhraní instalačního programu CMDR2 jedním kliknutím

Rozhraní instalačního programu CMDR2 jedním kliknutím (Foto: github.com)

NMKD GUI pro Windows. Instalační program je třeba stáhnout z oficiálních stránek vývojářů, poté musíte rozbalit archiv a spustit instalační soubor a aktivovat všechna zaškrtávací políčka. Program zabírá 11 GB místa na pevném disku. NMKD podporuje požadavek prostřednictvím referenčního obrazu, zpracovává více požadavků současně, zlepšuje kvalitu obrazu a vytváří plynulé obrazy.

GUI rozhraní NMKD

NMKD GUI rozhraní (Foto: nmkd.itch.io)

Vývojáři také vydali aplikaci Diffusion Bee založenou na Stable Diffusion, která běží na počítači bez připojení k internetu. Prozatím je k dispozici pouze na počítačích Mac s čipy Apple Silicon. Pro takovou aplikaci potřebujete počítač s grafickou kartou s kapacitou paměti 4 GB.

Difúzní včelí rozhraní

Rozhraní Diffusion Bee (Foto: diffusionbee.com)

Jak používat Stable Diffusion online

Pro uživatele, kteří si nemohou stáhnout Stable Diffusion do svého počítače, vývojář poskytl speciální webovou stránku Dream Studio – oficiální odlehčenou verzi neuronové sítě. Na stránce můžete zdarma vygenerovat až 200 obrázků. K vygenerování budete potřebovat:

zaregistrujte se na stránce nebo se přihlaste prostřednictvím svého účtu Google nebo Discord;
zadejte požadavek do řádku výzvy pod prázdným oknem, kde bude obrázek vytvořen;
Vlevo nastavte velikost obrázku a možnost přizpůsobení požadavku. Můžete nastavit maximálně 150 generačních kroků, kterými neuronová síť projde, než vytvoří obrázek.

Zajímavé: Netflix ukázal chronologii událostí seriálu „The Witcher“.

V aplikaci Dream Studio můžete vytvořit až devět obrázků v jedné relaci. Generování je přitom dostupné nejen z textového požadavku, ale i z originálního obrázku.

Generování obrazu na základě textového dotazu v Dream Studio

Generování obrázku na základě textového požadavku v Dream Studio (Foto: beta.dreamstudio.ai)

Existuje řada dalších stránek a aplikací s možností generování ze Stable Diffusion.

Mage.Space. Tato stránka je dostupná bez registrace a nabízí neomezené generování obrázků. Pouze počet jejích kroků je omezen. Po registraci se vygenerované obrázky uloží do galerie.

Generování obrázku v Mage.Space

Generování obrázku v Mage.Space (Foto: mage.space)

PlaygroundAI. Jedná se o sociální síť s funkcemi Stable Diffusion, kde se můžete přihlásit k odběru ostatních uživatelů a vidět jejich obrázky ve vašem kanálu. Služba je bezplatná a neomezená, ale vyžaduje autorizaci prostřednictvím účtu Google. Obrázek je generován bez cenzurních filtrů a uživatel si může vybrat jeho velikost, přidat další filtr a vygenerovat čtyři obrázky najednou. K dispozici je generování z textu a zdrojového obrázku.

Generování (vpravo) a úprava obrázku (vlevo) v PlaygroundAI

Generování (vpravo) a úprava obrázku (vlevo) v PlaygroundAI (Foto: hřištěai.com)

Dezgo. Zdarma a neomezený generátor obrázků bez cenzurních filtrů. Nevyžaduje registraci. Uživatel si může vybrat možnost neuronové sítě (například anime) a také nakonfigurovat, jak blízko má být výsledek generování požadavku.

Generování obrázku v Dezgo

Generování obrázku v Dezgo (Foto: dezgo.com)

Generátor stabilní difúze (@StableDiffusionWrapperBot). Toto je bezplatný telegramový bot s neomezeným počtem generací, který podporuje ruský jazyk. Maximální počet kroků generování je 100 a můžete použít i několik stylizací. Podporuje generování z obrázku.

Generování obrázku ve Stable Diffusion Generator

Generování obrázku v generátoru Stable Diffusion Generator (Foto: @StableDiffusionWrapperBot)

Uživatelé mají také přístup k mnoha modelům založeným na Stable Diffusion, které jim umožňují generovat obrázky v určitém stylu, například fotorealistický portrét.

Jak napsat dotaz pro Stable Diffusion

Aby obrázek splnil očekávání, musíte při psaní textové žádosti do Stable Diffusion dodržovat několik pravidel:

dodržujte pořadí slov – ta úplně první dostávají největší váhu;
použijte hlavní kategorie, které by měly být v poptávce: předmět, povaha obrázku (digitální fotografie, olejomalba atd.), styl (surrealismus, konstruktivismus), umělec, web, rozlišení, další podrobnosti, barva, styl osvětlení;
podrobně popsat myšlenku, aby se lišila od ostatních generací. Žádost však musí být do 75 slov;
používejte synonyma, aby neuronová síť přesněji reprodukovala atmosféru.

Zajímavé: Umělá inteligence: 8 TED přednášek o superinteligenci.

„Hmotnost“ každého slova v popisu lze nastavit ručně za dvojtečkou. V tomto případě by celková hmotnost měla být 100.

Můžete také použít nastavení ve Stable Diffusion (obvykle se zobrazuje na straně okna generování):

Kroky – kolik kroků bude muset neuronová síť vygenerovat. Ve výchozím nastavení je tato hodnota 50;
Klasifikátor Free Guidance – jak svobodná je neuronová síť při interpretaci požadavku. Výchozí hodnota je 7 – neuronová síť přijde na polovinu sama;
Seed – start pro nezávislý provoz neuronové sítě. Výchozí nastavení je „náhodné“, takže pro stejný požadavek zobrazí různé výsledky;
Rozlišení – velikost obrázku. Čím je větší, tím déle generace vydrží. Stabilní difúze je trénována na obrázcích 512×512 a generuje takové obrázky nejlépe.

Pokročilí uživatelé doporučují standardně nastavit univerzální kombinaci: CFG – 8, Steps – 50, Sampler – k_lms, Random seed.

Pro ty, kteří chtějí jít hlouběji do specifik sestavování dotazů a používání speciálních příkazů, jsou k dispozici podrobné návody.

Můžete také použít bezplatné promptery, které vám pomohou napsat váš dotaz, jako jsou Public Prompts, PromptoMania, Stable Diffusion Modifier Studies, Lexica Art a další.

Rozhraní Lexica Art

Rozhraní Lexica Art (Foto: lexica.art)

Výsledky práce ve Stabilní difúzi

Neuronová síť odvádí vynikající práci při generování portrétů, krajin a digitálního umění. Zde je několik úspěšných příkladů její práce:

Štítky

Georgii Kucherenko 15.02.2024Poslední aktualizace: 15.02.2024

0 125 Doba čtení: 5 min