9 Min Lesedauer

Bezahlversionen und Google-Suche: Wie ein KI-Modell lernt, die Welt außerhalb seiner selbst zu nutzen

Eigentlich sind Sprachmodelle in ihrem Wissensstand eingefroren: Informationen und Ereignisse von nach ihrem Training kennen sie nicht. Dank RAG wissen sie trotzdem Bescheid.
Virtual Reality Brille
Dank Retrieval-Augmented Generation können Sprachmodelle auch auf tagesaktuelle Informationen zugreifen | Quelle: Bram Van Oost
💡
Das Wichtigste in Kürze:

Trainierte KI-Modelle haben ein "eingefrorenes" Wissen. Ein Modell wie GPT-4 hat nach seinem Training einen Wissensstichtag und kennt keine neueren Ereignisse.

Retrieval-Augmented Generation (RAG) ist der "Spickzettel" für die KI. Es ist eine Technik, bei der eine KI vor der Antwort in einer externen Datenbank (z.B. dem Internet oder internen Firmen-Dokumenten) nach aktuellen und relevanten Informationen sucht. Wenn ChatGPT Plus oder Google Gemini aktuelle Ereignisse kennen oder eine Google-Suche durchführen, ist das RAG in Aktion.

RAG macht KI aktueller, ehrlicher und transparenter. Anstatt zu raten und Fakten zu erfinden (Halluzination), nutzt die KI die gefundenen Informationen als Grundlage für ihre Antwort und kann sogar die Quellen angeben.

Du fragst die kostenlose Version von ChatGPT nach dem Gewinner der letzten Fußball-Weltmeisterschaft und erhältst eine Antwort, die in der Vergangenheit feststeckt. Dann wechselst Du zur Bezahlversion, stellst dieselbe Frage und bekommst eine tagesaktuelle, korrekte Antwort, oft sogar mit einem Verweis auf eine Nachrichtenquelle. Oder Du gibst eine komplexe Frage in Google Gemini ein und siehst, wie es im Hintergrund eine Google-Suche durchführt, um seine Antwort zu untermauern.

Aber Moment mal! In den vorherigen Artikeln haben wir eine fundamentale Regel etabliert: Das Wissen eines großen Sprachmodells ist nach seinem extrem aufwändigen Training quasi "eingefroren". Es ist ein Schnappschuss des Wissens zu einem bestimmten Zeitpunkt, dem sogenannten Knowledge Cutoff. Wie also kann ein fertig trainiertes Modell plötzlich über Ereignisse Bescheid wissen, die erst gestern passiert sind? Wird sein "Gehirn" jede Nacht heimlich aktualisiert?

Die Antwort ist ein klares Nein. Das grundlegende Modell bleibt unverändert. Stattdessen haben die Entwickler einen Trick für eine Partnerschaft zwischen dem "eingefrorenen Wissen" des Modells und der "lebendigen" Welt des Internets. Es ist, als würde man einem Studenten erlauben, eine Prüfung nicht nur mit seinem gelernten Wissen, sondern auch mit einem offenen Lehrbuch abzulegen.

Diese Technik ist der Schlüssel zur nächsten Stufe der KI-Anwendungen. Sie heißt Retrieval-Augmented Generation (RAG). In diesem Deep Dive entschlüsseln wir, wie diese Methode funktioniert und warum sie die Art und Weise, wie wir mit KI interagieren, für immer verändert.


Kapitel 1: Das "Closed-Book Exam" – Die Grenzen eines trainierten Modells

Um die Genialität von RAG zu verstehen, müssen wir uns zuerst die Standard-Situation noch einmal genau ansehen: die eines normalen, vortrainierten Foundation Models.

🦾
Foundation Model / Pre-trained Model: Ein riesiges, bereits trainiertes KI-Modell (wie GPT-4), dessen Wissen nach dem Training "eingefroren" ist. Es dient als "Fundament" für weitere Anwendungen.

Stell Dir ein solches Modell wie einen Studenten vor. Dieser Student hat jahrelang in einer riesigen Bibliothek (dem Internet) gelernt und absolut jedes Buch gelesen und verinnerlicht. Der Haken: Die Bibliothek wurde am 31. Dezember 2022 für immer versiegelt.

Dieser Student ist nun Dein KI-Modell.

  • Gewaltiges Allgemeinwissen: Er kann Dir alles über die Geschichte, die Wissenschaft und die Kultur bis Ende 2022 erzählen. Sein Wissen ist breit und tief.
  • Kein neues Wissen: Wenn Du ihn aber fragst, wer die Oscar-Verleihung 2024 gewonnen hat, wird er versagen. Diese Information existiert in seiner "versiegelten Bibliothek" nicht. Er wird entweder zugeben, es nicht zu wissen, oder – noch schlimmer – anfangen zu halluzinieren und eine plausible, aber falsche Antwort erfinden.
  • Kein Spezialwissen: Wenn Du ihn nach den internen Rückgaberichtlinien Deiner Firma fragst, wird er ebenfalls passen müssen. Dieses "Fachbuch" stand nie in seiner Bibliothek.

Dies ist das grundlegende Dilemma eines jeden vortrainierten Modells. Sein Wissen ist statisch und nicht aufgabenspezifisch. Eine Möglichkeit, dieses Wissen zu aktualisieren, wäre das Fine-Tuning: Man schickt den Studenten quasi für ein weiteres Semester in eine neue Schule mit neuen Büchern. Das ist effektiv, aber auch langsam, teuer und muss ständig wiederholt werden, um aktuell zu bleiben.

🦾
Fine-Tuning: Ein Prozess, bei dem ein vortrainiertes Modell mit einem kleineren, spezifischen Datensatz weiter trainiert wird, um es zu spezialisieren. Es ist wie eine Weiterbildung, die das Modell selbst verändert.

Was also, wenn es einen Weg gäbe, dem Studenten das Wissen nicht mühsam beizubringen, sondern es ihm im entscheidenden Moment einfach zuzuflüstern?


Kapitel 2: Das "Open-Book Exam" – Retrieval-Augmented Generation (RAG) im Detail

Hier kommt nun die revolutionäre Idee ins Spiel: Was, wenn wir unserem Studenten erlauben, die Prüfung als "Open-Book Exam" zu schreiben? Was, wenn wir ihm im Moment der Fragestellung einen maßgeschneiderten Spickzettel mit genau den Informationen geben, die er zur Beantwortung braucht?

Genau das ist Retrieval-Augmented Generation (RAG). Es ist ein dynamischer Prozess, der die statische Wissenswelt des großen Sprachmodells (LLM) mit einer externen, aktuellen Wissensquelle verbindet.

Der Name klingt kompliziert, aber der Prozess ist eine logische Abfolge von zwei eleganten Schritten:

  1. Retrieval (Das Abrufen): Finde die relevanten Informationen.
  2. Augmented Generation (Die angereicherte Erzeugung): Nutze diese Informationen, um eine bessere Antwort zu erstellen.

Schritt 1: Der Retrieval-Prozess – Der ultraschnelle Bibliothekar

Bevor Deine Frage überhaupt an das große, kreative Sprachmodell (den "Studenten") weitergeleitet wird, schaltet sich ein vorgeschaltetes, hochspezialisiertes System ein. Man kann es sich wie einen ultraschnellen Bibliothekar vorstellen. Dieser Bibliothekar ist der Retriever.

Seine einzige Aufgabe ist es, Deine Frage zu analysieren und in einer externen Wissensdatenbank blitzschnell die relevantesten Textabschnitte zu finden. Diese Wissensdatenbank kann alles Mögliche sein:

  • Für ChatGPT Plus oder Gemini: Das gesamte, tagesaktuelle Internet, durchsucht über eine Suchmaschine wie Google Search.
  • Für einen Firmen-Chatbot: Eine Datenbank, die alle internen Dokumente des Unternehmens enthält (Handbücher, Richtlinien, Produktbeschreibungen).
🦾
Retriever: Ein spezialisiertes KI-System (oft eine Kombination aus einer Suchmaschine und einem Embedding-Modell), dessen einzige Aufgabe es ist, in einer großen Datenmenge die für eine bestimmte Anfrage relevantesten Informationen zu finden ("to retrieve" = abrufen).

Wie findet der Retriever die richtigen Informationen?
Hier kommt eine Technik namens semantische Suche ins Spiel, die oft auf Embeddings basiert: Der Retriever übersetzt Deine Frage und alle Dokumente in der Wissensdatenbank in mathematische Fingerabdrücke (Vektoren). Dann sucht er nicht nach exakten Schlüsselwörtern, sondern nach den Dokumenten, deren "Bedeutungs-Vektor" dem Vektor Deiner Frage am nächsten kommt. Das ist der Grund, warum Du fragen kannst "Wie hoch sind die Reisekosten für eine Dienstreise nach Berlin?" und das System das Dokument findet, in dem steht "Spesenrichtlinie für Geschäftsreisen in deutsche Hauptstädte".

Das Ergebnis dieses Schrittes ist eine Sammlung der 3-5 relevantesten Text-Schnipsel. Das ist der maßgeschneiderte Spickzettel. 📝

🦾
Semantische Suche: Eine fortschrittliche Suchmethode, die nicht nach exakten Wörtern, sondern nach der Bedeutung (Semantik) einer Anfrage sucht. Sie versteht den Kontext und findet auch dann relevante Ergebnisse, wenn die genauen Worte nicht im Text vorkommen.

Schritt 2: Die Augmented Generation – Der Student mit dem Spickzettel

Jetzt erst kommt das große Sprachmodell (LLM) ins Spiel. Aber anstatt Deine ursprüngliche Frage direkt zu bekommen, erhält es einen erweiterten (augmented) Prompt. Dieser Prompt wird vom System im Hintergrund automatisch zusammengebaut und sieht ungefähr so aus:

Anweisung an das LLM: "Beantworte die folgende Frage des Nutzers. Benutze zur Beantwortung ausschließlich die Informationen aus dem folgenden Kontext. Zitiere Deine Quellen, falls möglich."

Kontext (Der Spickzettel):"[Hier fügt der Retriever den ersten gefundenen Text-Schnipsel ein, z.B. von Wikipedia]""[Hier fügt der Retriever den zweiten gefundenen Text-Schnipsel ein, z.B. von einer Nachrichtenseite]""[Hier fügt der Retriever den dritten gefundenen Text-Schnipsel ein]"

Frage des Nutzers:
"Wer hat die Fußball-Weltmeisterschaft 2022 gewonnen?"

Das LLM erhält also nicht nur die Frage, sondern auch die exakten Informationen, die es zur Beantwortung braucht. Seine Aufgabe hat sich fundamental geändert:

  • Vorher (ohne RAG): "Durchsuche dein gesamtes, veraltetes Gedächtnis und versuche, eine Antwort zu konstruieren." (Hohes Risiko für Halluzinationen)
  • Jetzt (mit RAG): "Lies diese drei kurzen, aktuellen Absätze und fasse sie zu einer kohärenten Antwort auf die Frage zusammen." (Niedriges Risiko für Halluzinationen)

Das LLM muss das Wissen nicht mehr "wissen", es muss es nur noch verarbeiten, zusammenfassen und formulieren können. Und genau das ist seine größte Stärke.

Das ist der Grund, warum Google Gemini eine Google-Suche durchführen kann oder warum ChatGPT Plus plötzlich über tagesaktuelle Ereignisse Bescheid weiß. Sie "wissen" es nicht – sie bekommen es im entscheidenden Moment von einem vorgeschalteten System "eingeflüstert".


Kapitel 3: Warum RAG die Spielregeln verändert – Die Vorteile des Spickzettels

Die Einführung von Retrieval-Augmented Generation ist mehr als nur ein cleverer technischer Kniff. Sie ist ein fundamentaler Paradigmenwechsel, der einige der größten Probleme von reinen Large Language Models löst und eine Welle neuer, vertrauenswürdigerer KI-Anwendungen ermöglicht.

1. Aktuelles Wissen ohne teures Neutraining

Das ist der offensichtlichste und wichtigste Vorteil. Ein LLM kann auf tagesaktuelle Informationen zugreifen, ohne dass das milliardenschwere Basismodell ständig neu trainiert werden muss.

  • Vorher: Um das Wissen eines Modells zu aktualisieren, war ein komplettes oder teilweises Neutraining (Fine-Tuning) notwendig – ein extrem teurer und langsamer Prozess.
  • Mit RAG: Man muss nur die externe Wissensdatenbank aktuell halten. Eine neue Webseite zu indexieren oder ein neues PDF in eine Firmendatenbank hochzuladen ist unendlich billiger und schneller, als ein neuronales Netz neu zu trainieren.

Das System trennt das "Denkvermögen" (das statische LLM) vom "Faktenwissen" (die dynamische Datenbank). Dies macht die KI agil und anpassungsfähig an eine sich ständig verändernde Welt.

2. Dramatische Reduzierung von Halluzinationen

Eines der gefährlichsten Probleme von LLMs sind Halluzinationen – das selbstbewusste Erfinden von Fakten. Dies passiert oft, wenn das Modell versucht, eine Lücke in seinem "eingefrorenen" Wissen zu füllen.

RAG bekämpft dieses Problem an der Wurzel.

  • Vorher: Das LLM muss sich auf sein fehleranfälliges Gedächtnis verlassen.
  • Mit RAG: Das LLM wird angewiesen, seine Antwort auf die bereitgestellten Fakten zu stützen. Es muss nicht mehr raten, es muss nur noch zusammenfassen. Wenn der Retriever im Spickzettel keine Antwort findet, kann das System dem Nutzer eine ehrliche und transparente Antwort geben: "Ich konnte dazu in den bereitgestellten Quellen keine Informationen finden."

Dies macht die Antworten der KI dramatisch zuverlässiger und faktenbasierter.

3. Transparenz und Nachvollziehbarkeit: Die Quellenangabe

Das Black-Box-Problem beschreibt, dass wir oft nicht wissen, warum eine KI zu einer bestimmten Antwort kommt. RAG schafft hier eine neue Ebene der Transparenz.

  • Vorher: Die Antwort kommt aus den Tiefen eines undurchsichtigen neuronalen Netzes.
  • Mit RAG: Da die Antwort auf spezifischen, abgerufenen Dokumenten basiert, kann das System diese Quellen direkt verlinken. Wenn Du bei Google Gemini oder Perplexity.ai eine Antwort bekommst, siehst Du oft kleine Ziffern oder Links, die Dich genau zu den Webseiten führen, aus denen die Information stammt.

Für den Nutzer ist das ein gewaltiger Fortschritt. Er kann die Fakten selbst überprüfen und die Glaubwürdigkeit der Antwort besser einschätzen. Es verwandelt eine Behauptung der KI in eine überprüfbare Aussage.

4. Einfache Anpassung an spezifisches Fachwissen

RAG ist der einfachste und effektivste Weg, um einer KI hochspezialisiertes, privates Wissen beizubringen, ohne ein teures Fine-Tuning durchführen zu müssen.

  • Beispiel Anwaltskanzlei: Eine Kanzlei kann alle ihre bisherigen Fälle, Schriftsätze und internen Memos in eine private Wissensdatenbank laden. Ein RAG-System kann dann einem Anwalt helfen, in Sekundenschnelle relevante Präzedenzfälle für einen neuen Fall zu finden.
  • Beispiel technischer Support: Ein Unternehmen kann alle seine technischen Handbücher und Support-Tickets in eine Datenbank einspeisen. Der RAG-gestützte Chatbot kann dann Kundenfragen präzise beantworten, weil er im Moment der Frage mit dem exakten Wissen aus dem Handbuch "gefüttert" wird.

RAG ermöglicht es jedem Unternehmen, die gewaltige Sprach- und Logikfähigkeit eines Foundation Models zu nutzen und sie mit seinem eigenen, proprietären Wissensschatz zu kombinieren.


Kapitel 4: RAG vs. Fine-Tuning – Zwei Werkzeuge für unterschiedliche Aufgaben

Ist RAG jetzt immer besser als Fine-Tuning? Nicht unbedingt. Es sind zwei verschiedene Werkzeuge für zwei unterschiedliche Ziele.

Stellen wir uns wieder unseren Medizinstudenten vor:

  • Fine-Tuning ist die Facharztausbildung. Du schickst den Studenten für zwei Jahre in die Kardiologie. Er verinnerlicht das Wissen so tief, dass es zu seiner neuen Intuition wird. Er lernt den Jargon, den Stil, die Denkweise eines Kardiologen. Das Ziel ist es, das Verhalten und den Stil des Modells zu ändern.
    • Anwendungsfall: Du möchtest einen Chatbot, der immer in einem extrem witzigen und sarkastischen Ton antwortet, egal worum es geht. Diesen Stil kannst Du ihm am besten über Fine-Tuning beibringen.
  • RAG ist das offene Fachbuch im OP-Saal. Der Kardiologe hat seine Ausbildung, aber für eine ganz spezifische, seltene Operation schaut er währenddessen in das aktuellste Fachbuch, um die neuesten Daten und Techniken parat zu haben. Das Ziel ist es, das Faktenwissen des Modells dynamisch zu erweitern.
    • Anwendungsfall: Du möchtest, dass Dein Chatbot eine Frage zur neuesten Studie über ein bestimmtes Herzmedikament beantworten kann. Diese Fakten lieferst Du ihm am besten über RAG.

Die Zukunft ist hybrid: Die leistungsfähigsten Systeme der Zukunft werden wahrscheinlich beides kombinieren. Man wird ein Modell erst per Fine-Tuning auf den Stil und die grundlegende Denkweise einer bestimmten Domäne (z.B. "juristisches Denken") spezialisieren und es dann per RAG mit den tagesaktuellen Gesetzen und spezifischen Fallakten füttern.


Fazit: Vom allwissenden Orakel zum transparenten Recherche-Assistenten

Die Einführung von Retrieval-Augmented Generation (RAG) markiert einen entscheidenden Reifeprozess in der Entwicklung von Künstlicher Intelligenz. Sie verschiebt das Idealbild einer KI weg vom mystischen, allwissenden Orakel, das seine Antworten aus einer undurchsichtigen Black Box zaubert, hin zu einem transparenten und überprüfbaren Recherche-Assistenten.

RAG löst die drei größten Probleme statischer Sprachmodelle auf einen Schlag:

  1. Das Aktualitätsproblem: Es verbindet die KI mit der lebendigen Welt der Echtzeit-Informationen.
  2. Das Halluzinationsproblem: Es zwingt die KI, ihre Antworten auf Fakten zu stützen, anstatt zu raten.
  3. Das Transparenzproblem: Es ermöglicht Quellenangaben und macht die Antworten nachvollziehbar.

Diese Technik macht die Interaktion mit KI nicht nur leistungsfähiger, sondern vor allem vertrauenswürdiger und sicherer. Sie gibt uns die Möglichkeit, das gewaltige logische und sprachliche Denkvermögen der großen Modelle zu nutzen, ohne uns blind auf ihr eingefrorenes und potenziell fehlerhaftes Gedächtnis verlassen zu müssen.

Wenn Du also das nächste Mal siehst, wie Deine KI eine Google-Suche durchführt, weißt Du: Das ist kein Bug, sondern ein Feature. Es ist der Beweis dafür, dass die KI gelernt hat, was auch wir Menschen tun, wenn wir etwas nicht wissen: nachschauen. Und das ist vielleicht der intelligenteste Schritt von allen.


Weiterführende Fragen

Ist eine Antwort, die mit RAG erstellt wurde, immer zu 100% korrekt?

Nicht zwangsläufig. Die Qualität der Antwort hängt direkt von der Qualität der gefundenen Quellen ab. Wenn der "Spickzettel" (die abgerufenen Informationen aus dem Internet) selbst Fehler oder Falschinformationen enthält, wird die KI diese wahrscheinlich in ihrer Antwort reproduzieren. Der Vorteil ist jedoch, dass Du durch die Quellenangabe die Möglichkeit hast, die Fakten selbst zu überprüfen.

Warum nutzt nicht einfach jede KI-Anwendung standardmäßig RAG mit dem Internet?

Die Implementierung von RAG ist technisch aufwendig und erhöht die Kosten und die Antwortzeit für jede Anfrage, da vor der eigentlichen Antwort immer eine Suche durchgeführt werden muss. Zudem ist es nicht für jede Anwendung notwendig. Ein KI-Assistent, der nur beim Programmieren helfen soll, braucht nicht unbedingt Wissen über die neuesten Sportergebnisse.

Ist RAG oder Fine-Tuning die bessere Methode?

Es kommt auf das Ziel an. RAG ist besser, um einer KI aktuelles oder spezifisches Faktenwissen beizubringen (z.B. Produktdetails, Nachrichten). Fine-Tuning ist besser, um den Stil, den Ton und das grundlegende Verhalten einer KI zu ändern (z.B. sie zu einem witzigen Poeten zu machen). Die leistungsfähigsten Systeme kombinieren oft beides.

Melde Dich für den Newsletter an. 📧

Jetzt kostenlos abonnieren und immer auf dem Neuesten bleiben. 🚀