Een introductie in Stable Diffusion

LinkedIn
Facebook

September 12, 2024

StabilityAI, die hun Stable Diffusion model volledig openbaar hebben gemaakt. In deze blog krijg je te zien waar Stable Diffusion voor te gebruiken is, en leer je hoe hier zelf mee aan de slag kunt!

Stable Diffusion

AI-modellen die afbeelding creëren aan de hand van een beschrijving zijn dit jaar ongekend populair geworden. Dat is te danken aan de baanbrekende transformer-modellen, waarmee we de miljarden afbeeldingen die op het internet te vinden zijn, kunnen gebruiken als data om van te leren. DALL-E 2, een model van OpenAI, stelt iedereen in staat om zijn eigen afbeeldingen te genereren. Dat kan echter alleen via hun eigen website, waardoor de open-source gemeenschap niet kan bijdragen met verbeteringen en innovaties. Daar is nu verandering in gekomen dankzij StabilityAI, die hun Stable Diffusion model volledig openbaar hebben gemaakt. In deze blog krijg je te zien waar Stable Diffusion voor te gebruiken is, en leer je hoe hier zelf mee aan de slag kunt!

Stable Diffusion – een nieuwe uitdager…

Op 22 augustus 2022 opende StabilityAI hun model voor het publiek: Stable Diffusion. Ze hebben de code vrijgegeven om hun model te trainen en uit te voeren, evenals een deel van het model die een dataset van meer dan 5 miljard afbeelding/tekstparen heeft gezien (LAION-5B). En het beste? Het draait op consumentenhardware, zodat iedereen met een krachtige pc het lokaal kan gebruiken! De open-source aard van Stable Diffusion zorgt voor enorme aanpasbaarheid, en door de code lokaal uit te voeren, kun je gratis tientallen of honderden afbeeldingen genereren. Daarom is het zeker de moeite waard om Stable Diffusion te verkennen, ook al is de prestatie voor enkele afbeeldingen niet zo goed als die van DALL-E 2.

Diffusiemodellen

Stable Diffusion, net als DALL-E 2 en Imagen, is een diffusiemodel. Diffusiemodellen worden geleerd om ruis uit een afbeelding te verwijderen. Het model krijgt een afbeelding met ruis en wordt gevraagd om een rustigere versie te produceren. Door dat proces te herhalen, kun je van een wazige afbeelding een perfect scherpe foto maken. Het model gokt niet zomaar wat er in de afbeelding staat: een tekstuele beschrijving van de inhoud wordt aan het model gegeven.

Maar hoe produceert een denoising-tool afbeeldingen uit tekst? Door te beginnen met niets dan ruis! Het diffusiemodel heeft geleerd hoe afbeeldingen eruit zouden moeten zien en begint langzaam structuren in het beeld te creëren. Natuurlijk heeft het beeld waarmee we begonnen geen onderliggende structuur, maar dat weet het model niet. Door het te begeleiden met een tekstprompt begint het model te zoeken naar dingen die het onder de ruis verwacht. “Ik zoek naar een mens op het strand. Misschien is dit stukje ruis een arm, en dan hoort hier wat zand te zijn?” En voordat je het weet, heeft het model een vakantiefoto geproduceerd voor een niet-bestaande persoon.

Het mooie van Stable Diffusion is dat het gebruik op relatief goedkope hardware mogelijk maakt. Het heeft niet geleerd om daadwerkelijk afbeeldingen te denoisen. In plaats daarvan comprimeert het eerst de afbeelding tot iets kleiners, het ‘latente ruimte’ genoemd. Dit elimineert overbodige informatie en laat alleen de belangrijke delen van de afbeelding achter. Het denoisen gebeurt dan op die gecomprimeerde versie van de afbeelding. De gedenoiseerde latente afbeelding wordt vervolgens weer gedecomprimeerd, waardoor we die afbeelding krijgen waar we om vroegen!

Verder met AI

Ik hoop dat ik met dit artikel inzicht heb kunnen geven in enkele van de vele toepassingen van AI. Meer weten? Neem gerust contact op, ik vertel je er graag meer over. Wil jij iedere dag leren en kunnen sparren met vakgenoten? Bekijk dan de vacatures.

Vacatures

Verder lezen?

Ontdek meer artikelen van Sogeti collega’s!

Kennishub