Was ist RAG? Retrieval-Augmented Generation – klar erklärt und im Einsatz

Die kurze Antwort

RAG – Retrieval-Augmented Generation – ist das Standardmuster, um ein LLM dazu zu bringen, Fragen zu deinen eigenen Dokumenten zu beantworten, ohne sich Dinge auszudenken. Das System holt zuerst die relevanten Passagen aus deiner Wissensbasis, fragt dann das LLM, eine Antwort zu schreiben, die diese Passagen als Quellmaterial nutzt – mit Zitaten zurück auf die Originale. Es ist die Architektur hinter fast jedem produktiven KI-Wissensassistenten, den wir ausgeliefert haben, einschließlich des GDV-Systems für 400+ Versicherungsunternehmen und des Kompetenzz-Chatbots für 1.000+ HumHub-Mitglieder.

Wie RAG in drei Schritten funktioniert

Index – Wir teilen deine Dokumente (Policies, Handbücher, Mitgliederinhalte, interne Wikis) in kleinere Einheiten, betten jede dieser Einheiten in einen Vektor ein und speichern sie in einer Vektor-Datenbank wie Qdrant oder pgvector.
Retrieval – Wenn eine Person eine Frage stellt, wird die Frage auf dieselbe Art eingebettet, und die Datenbank gibt die relevantesten Informationseinheiten zurück – meist die Top 5 oder Top 20.
Erstellung – Diese Einheiten plus die ursprüngliche Frage werden an ein LLM wie GPT-4o via Microsoft AI Foundry geschickt. Das LLM wird angewiesen, nur mit den abgerufenen Passagen zu antworten und sie zu zitieren. Wenn die Passagen die Antwort nicht enthalten, soll das LLM das sagen.

Der dritte Schritt verhindert Halluzination. Das LLM „denkt" sich keine Antwort aus seinen Trainingsdaten aus – es liest die Passagen, die wir ihm gerade übergeben haben.

Wann du RAG einsetzt

Setze RAG ein, wenn die Antwort in Dokumenten liegt, die dein Team kontrolliert, und du Antworten brauchst, die in diesen Dokumenten vorhanden sind – nicht in dem, was das LLM zufällig im Training aufgenommen hat. Wissensassistenten über Policy-Archive, interne Wikis, Produktdokumentation, Mitgliederportale und regulatorische Frameworks passen alle.

Setze RAG nicht ein, wenn die Aufgabe generatives Schreiben ohne faktische Bindung ist (dann nimm ein einfaches LLM), oder wenn die Daten so strukturiert sind, dass eine normale Datenbankabfrage die Aufgabe besser löst (ein LLM ist Overkill für „liste alle Mitglieder in Hamburg auf").

Setze nicht Fine-Tuning anstelle von RAG ein, um Fakten abzurufen. Fine-Tuning backt Fakten in Modellgewichte ein, die schwer zu aktualisieren, teuer zu verifizieren und unmöglich zu zitieren sind. RAG hält die Source-of-Truth in deiner Datenbank, wo du sie aktualisieren, auditieren und governen kannst.

Warum N3XTCODER

Wir bringen ein Jahrzehnt Impact-Tech-Erfahrung und über 160 KI-Projekte seit 2019 mit. Über unseren kostenlosen Kurs AI for Impact haben über 100.000 Menschen gelernt, KI für das Gemeinwohl einzusetzen. Unser Standard-Stack: n8n in Berlin, Qdrant in der EU, Azure OpenAI via Microsoft EU Sovereignty.

Sprich dein KI-Projekt durch

Erzähl uns, was du ausliefern willst. Wir antworten mit Vorschlag und Termin, meist innerhalb eines Werktags.

Simon Stegemann
Co-Founder and CEO

Kostenfreies Erstgespräch buchen