< Hoppa till innehåll

AI Modeller

I föregående inlägg nämner jag AI modeller men går inte direkt in på vad det är för något och vad de gör. Jag ska göra ett försök att på ett enkelt sätt förklara vad en AI modell är, ge några exempel på olika modeller och hur de kan användas.

Vad är en AI modell?

AI modellen kan sägas vara kärnan i AI och kan förklaras som en algoritm, eller ett program, som tränats till att förstå mönster, fatta beslut och göra förutsägelser. Om du installerade ComfyUI enligt instruktionerna i mitt föregående inlägg, så laddade du ner AI modellen Stable Diffusion version 4.

Det finns dock en mängd olika AI modeller, och om du har sökt efter AI på nätet har du säkert sett dem som Midjourney, Stable Diffuision eller Dall-E när det gäller bildskapande AI. När det gäller text AI har du säkerligen använt eller hört om ChatGPT, Chatsonic eller Google Bard. Dessa är alla olika typer av AI modeller, har olika utvecklare bakom sig och är tränade på olika sätt.

Jag kan inte säga med 100% säkerhet att ingen bildgenererande AI inte tränats fritt på hela internet, men jag tror personligen att det skulle ge ett ganska dåligt resultat. Hela internet innehåller allt för mycket information för att det skulle vara rimligt.

Vad innebär det att träna en AI modell?

Att träna en modell är att ge den en mängd data som den ska träna på att kategorisera korrekt. Här är det viktigt att komma ihåg att AI vi har idag inte är så kallad True AI, vilket skulle innebära att den hade varit autonom och kunnat lära sig saker utan någon som helst hjälp. True AI, eller Artificial General Intelligence, existerar inte idag utan när vi paratar om AI så menar vi i de flesta fall Generative Artificial Intelligence.

Generative Artificial Intelligence behöver någon typ av input av information för att lära sig, och här gäller att det du får ut från din AI är beroende av vad du stoppar in i den. Ett lysande exempel är Tay som var en AI chatbot tillverkad av Microsoft. Den 23 mars 2016 tyckte Microsoft att det lät som en bra idé att träna Tay genom att låta den interagera med användare på Twitter. Det kan låta som en rimlig idé eftersom det ständigt pågår konversationer i textform mellan människor där.

AI modeller, Tay
Resultatet efter mindre än ett dygn på Twitter

Efter enbart 16 timmar stängde Microsoft ner Tay, efter att Twitteranvändare genom att interagera med Tay fått AI’n att skriva saker som de i bilden ovan. Microsoft borde ha insett att Tay snabbt skulle bli korrumperad på Twitter. Det är trots allt Twitter vi talar om, och alla som haft ett konto där vet hur infekterad all debatt på Twitter är.


Bildgenererande AI modeller fungerar ungefär likadant, och bilderna du skapar med en AI reflekteras av hur den har tränats. En AI som till exempel har tränats endast på bilder av hundar, utgår från att allt är hundrelaterat. Skulle du be denna AI att skapa en bild av en kvinna så skulle den kanske skapa en tik. Eller inget alls, eftersom den inte skulle förstå innebörden av ordet ”kvinna” (såvida den inte tränats att förstå att ordet kvinna betyder ”hona”).

Vi ska testa att använda exakt samma inställningar, seed och promt på några olika modeller för att se skillnaden.

Jag har använt följande inställning för alla bilderna, och det är även anledningen till att kvaliteten inte är helt 100% på dem alla.

När du tittar på bilderna här nedan så försök att ignorera eventuella felaktigheter i de enskilda bilderna, och fokusera istället på likheterna. Poängen här är hur de olika AI modellerna tolkar och presenterar exakt samma data.

Det absolut första som du antagligen lägger märke till är nog att bilderna i stort sett är likadana. De allra flesta bilderna visar en flicka som är vänd åt vänster, har blommor i håret och även att det är blommor i bakgrunden. Endast på den första bilden är flickan vänd åt ett annat håll. Utöver det så ser vissa bilder realistiska ut, andra ser ut som ett målat porträtt och den sista bilden är en Anime bild,

En annan sak som kanske sticker ut är etniciteten på flickorna på bilderna. Alla utom en är vita och har rödaktigt hår, vilket inte är konstigt i sig eftersom vi har använt samma seed och inställningar för alla bilder. Anledningen till att Mix9 Realistic och Anything v3 skiljer sig från de andra är att Mix9 Realistic är tränad på asiatiska människor och Anything v3 är tränad på Anime karaktärer.

Att välja rätt AI modell är avgörande

Som vi sett så ger olika AI modeller väldigt olika resultat beroende på hur de är tränade, även om man använder exakt samma inställningar och seed. Därför är det viktigt att i förväg veta ungefär vad det är för bilder man vill skapa, så att man kan välja rätt modell utifrån det.

Kan man inte bara ladda ner alla modeller och byta allt eftersom då? Rent teoretiskt kan du förstås göra det, men en AI modell är oftast ganska stor. Jag har laddat ner 16 olika modeller, och redan detta tar ganska stor plats på min dator.

Hur många modeller finns det då? Jag har faktiskt ingen aning, men det är tusentals. Om varje modell i snitt är 2,5-3,0 GB stor så kan man förstå hur orimligt det är att ladda ner alla modeller. Det rimligaste är att ladda ner ett antal modeller som man har som bas modeller, exempelvis Midjourney eller Stable Diffusion, och sedan använda sig av LoRA för att få önskat resultat.

Vad LoRA är, och hur man använder det tillsammans med olika modeller kommer att bli ett separat inlägg.

Tills dess kan du hitta en mängd olika AI modeller på nätet som du kan pröva.

AI modeller: Civitai
AI Modeller: Huggingface

Du kan prenumerera på nyhetsbrev genom att ange din mejladress här nedan, och på så sätt få ett mejl när det finns nya inlägg.

Dela med dina vänner
Publicerat iTech