
KI-Bildgenerierung ist ein Übersetzungsprozess. Ein Sprachmodell übersetzt zuerst deine Textbeschreibung (Prompt) in eine mathematische Idee.
Bilder entstehen aus Rauschen. Danach formt ein sogenanntes Diffusionsmodell aus einem Bild voller zufälligem Rauschen schrittweise ein klares Bild, das zu deiner Beschreibung passt.
Das Wissen kommt aus Milliarden von Bild-Text-Paaren. Die KI lernt die Verbindung zwischen Wörtern (z.B. "Fuchs") und den dazugehörigen visuellen Mustern (spitze Ohren, oranges Fell) durch das Training mit riesigen Datensätzen aus dem Internet.
Ein Fuchs im Stil von Van Gogh, der in einem Café sitzt. Ein Logo für ein neues Unternehmen in einem futuristischen Design. Ein fotorealistischer Astronaut, der auf einem Pferd über den Mars reitet.
Wie kann ein Computer auf eine einfache Texteingabe hin solch komplexen und kreativen Kunstwerke erschaffen? Gerade bei solchen generierten Inhalten wirkt es so, als hätte die KI eine kreative Fantasie.
Die Wahrheit ist, wie so oft in der Welt der KI, weniger mystisch, aber technologisch umso beeindruckender. Der Kernprozess, der hinter Bildgeneratoren wie Midjourney, DALL-E oder Stable Diffusion steckt, ist dem von Text-KIs wie ChatGPT erstaunlich ähnlich. Es geht nicht ums Malen, sondern ums Übersetzen: vom Wort zum Bild.

Die Grundidee: Vom nächsten Wort zum richtigen Pixel
Erinnern wir uns kurz, wie ein großes Sprachmodell (LLM) funktioniert: Es ist ein Meister darin, basierend auf einem gegebenen Text das statistisch wahrscheinlichste nächste Wort vorherzusagen. Es setzt Wort an Wort und erschafft so ganze Sätze.
Ein Bildgenerator macht im Grunde etwas ganz Ähnliches. Seine Aufgabe ist es, basierend auf einem gegebenen Text (Deinem Prompt) ein Raster aus Pixeln zu erzeugen, das statistisch am besten zu dieser Beschreibung passt.
Dieser scheinbar magische Prozess lässt sich in zwei große Schritte unterteilen: Zuerst muss die KI deine Worte verstehen, und dann muss sie dieses Verständnis in ein Bild umwandeln.
Schritt 1: Die KI lernt, Deine Worte zu "sehen"
Der erste Schritt ist eine reine Übersetzungsleistung. Der Computer muss verstehen, was "ein Fuchs im Stil von Van Gogh" bedeutet. Hier kommt ein Teil der KI ins Spiel, der sehr ähnlich wie ein Sprachmodell funktioniert.
Er zerlegt deinen Prompt in seine Bestandteile und wandelt sie in eine Art mathematischen Fingerabdruck um. Diesen Fingerabdruck nennt man Embedding.
- Das Wort "Fuchs" bekommt eine Zahl, die seine "Fuchsigkeit" repräsentiert.
- "Van Gogh" bekommt eine Zahl, die seinen einzigartigen Malstil mit den typischen Pinselstrichen und Farben beschreibt.
- "Café" bekommt eine Zahl, die mit Objekten wie "Tisch", "Tasse" und "Stuhl" verbunden ist.
Das Ergebnis ist keine Bildidee im menschlichen Sinne, sondern eine komplexe mathematische Repräsentation deines Wunsches – ein "Gedanke" der KI.



KIs können Bilder in unterschiedlichen Stilen und Formaten erstellen | Quelle: ki-generiert*
Schritt 2: Vom "Gedanken" zum fertigen Bild – Das Prinzip des Rauschens
Jetzt kommt der faszinierende Teil. Die KI hat deinen Wunsch als mathematischen "Gedanken" verstanden. Wie wird daraus ein Bild?
Die meisten modernen Bildgeneratoren nutzen eine Technik, die sich Diffusionsmodell nennt. Stell dir das so vor:
- Das Rauschen: Der Prozess beginnt nicht mit einer leeren Leinwand, sondern mit einem Bild, das nur aus zufälligem Rauschen besteht – wie bei einem alten Fernseher ohne Empfang. Pures Chaos aus Pixeln.
- Das Aufräumen: Nun kommt die KI ins Spiel. Geleitet von dem mathematischen "Gedanken" (dem Embedding deines Prompts) beginnt sie, das Rauschen schrittweise zu entfernen. In jedem Schritt schaut sie sich das verrauschte Bild an und fragt sich: "Wie muss ich die Pixel verändern, damit das Bild ein kleines bisschen mehr wie 'ein Fuchs' aussieht? Wie muss ich das Bild ändern, um näher an den Stil von 'Van Gogh' zu sein?" und so weiter.
- Vom Chaos zur Ordnung: Schritt für Schritt wird das Rauschen reduziert und Strukturen werden sichtbar. Zuerst entstehen grobe Formen, dann Farben, dann Details wie Pinselstriche oder Felltexturen. Die KI "formt" das Bild aus dem Chaos heraus, immer mit dem Ziel, am Ende so nah wie möglich an die Beschreibung im Prompt zu kommen.
Dieser Prozess ist wie ein Bildhauer, der aus einem Marmorblock eine Statue meißelt – nur dass die KI aus einem Block voller Rauschen ein klares Bild "herausfiltert".
Je nachdem, welchen Bildgenerator du verwendest, erhältst du unterschiedliche Bilder: Du kannst die Programme mit Künstlern, die auf verschiedene Kunstschulen gegangen sind, vergleichen. Die KIs lernen durch verschiedene Einstellungen der unterschiedlichen Programmierer andere Darstellungen. Auch können sie jeweils unterschiedliche Datensätze als Training bekommen haben.
Woher weiß die KI, was ein "Fuchs" ist? Eine Sache des Trainings
Damit dieser Prozess funktioniert, muss die KI natürlich wissen, wie ein Fuchs, ein Café oder der Stil von Van Gogh aussieht. Dieses Wissen stammt, wie immer, aus dem Training mit riesigen Datenmengen.
Bildgeneratoren werden mit Milliarden von Bild-Text-Paaren aus dem Internet trainiert. Ein typischer Datensatz dafür heißt LAION. Die KI bekommt ein Bild und die dazugehörige Beschreibung (z.B. ein Foto mit der Bildunterschrift "Ein roter Fuchs sitzt im Schnee").
Indem sie Milliarden solcher Paare analysiert, lernt sie die statistische Verbindung zwischen den Wörtern in der Beschreibung und den Pixelmustern im Bild. Sie lernt, dass das Wort "Fuchs" oft mit Mustern wie "spitze Ohren", "oranges Fell" und "busfiger Schwanz" einhergeht.
Die Kunst liegt im Detail: Deine Rolle als Regisseur
Genau wie bei ChatGPT ist die Qualität des Ergebnisses extrem stark von der Qualität deiner Anweisung abhängig. Ein einfacher Prompt wie "ein Hund" erzeugt ein beliebiges Hundebild.
Ein detaillierter Prompt wie "Ein fotorealistisches Porträt eines Golden Retrievers, der auf einer sonnigen Wiese sitzt, mit sanftem Morgenlicht, generiere eine hohe Detailgenauigkeit" gibt der KI viel präzisere Anweisungen und führt zu einem besseren Ergebnis. Du bist der Regisseur, die KI ist dein extrem talentierter, aber sehr wörtlicher Schauspieler.
Fazit: Keine Magie, sondern eine brillante Übersetzung
Das Erschaffen von KI-Bildern ist am Ende keine übernatürliche Kreativität, sondern ein beeindruckender, zweistufiger Prozess:
- Verstehen: Ein Sprachmodell übersetzt deine Textbeschreibung in eine mathematische Idee.
- Erschaffen: Ein Diffusionsmodell formt aus zufälligem Rauschen ein Bild, das zu dieser Idee passt.
Es ist die perfekte Kombination aus Sprach- und Bildverarbeitung, angetrieben von unvorstellbaren Datenmengen. Es ist keine Magie, aber es ist ohne Frage eine der faszinierendsten Technologien unserer Zeit.
Weiterführende Fragen
Ist die von einer KI erzeugte Kunst wirklich "kreativ"?
Das ist eine philosophische Frage. Die KI kombiniert die Muster, Stile und Konzepte, die sie in ihren Trainingsdaten gelernt hat. Sie erschafft dabei oft visuell völlig neue Werke. Ob diese mathematische Kombination von Gelerntem als echte Kreativität im menschlichen Sinne (die oft aus Emotionen und Lebenserfahrungen entsteht) gilt, ist Gegenstand vieler Debatten.
Woran kann man ki-generierte Bilder erkennen?
Hände sind für eine KI extrem schwer zu lernen. Das liegt daran, dass sie eine sehr komplexe Struktur haben und in unzähligen verschiedenen Posen, Winkeln und mit unterschiedlich vielen sichtbaren Fingern vorkommen können. Die KI hat oft Schwierigkeiten, die genaue Anatomie und die Anzahl der Finger aus dem "Rauschen" der Trainingsdaten korrekt zu lernen. Ähnlich verhält es sich mit physikalisch korrekten Schatten oder anderen Objekten, die auf Millionen von Bildern unterschiedlich aussehen; wie auch etwa Stuhlbeinen.
Wem gehören die von einer KI erzeugten Bilder?
Die Rechtslage ist weltweit noch nicht endgültig geklärt und unterscheidet sich von Land zu Land. In vielen Rechtsordnungen (wie z.B. in den USA) gilt, dass nur von Menschen geschaffene Werke urheberrechtlich geschützt sind. Die Nutzungsbedingungen der jeweiligen KI-Dienste (Midjourney, DALL-E etc.) geben oft genaue Auskunft darüber, wie du die von dir erstellten Bilder verwenden darfst.
Prompts für die generierten Bilder:
Ein Fuchs im Stil von van Gogh, der im Cafe sitzt.
Eine Aussichtsplattform im Weltall
Ein sitzender Samurai unter einem Kirschblütenbaum unter einem Blutmond
Ein Logo für ein Cafe im Vintage-Stil
Ein Schloss aus Blumen
Jetzt kostenlos abonnieren und immer auf dem Neuesten bleiben. 🚀