Was ist Retrieval Augmented Generation (RAG)?

Im Zeitalter der digitalen Transformation spielen Künstliche Intelligenz und große Sprachmodelle (Large Language Models, kurz LLMs) eine zentrale Rolle. Eine Methode, um die Effektivität dieser Modelle zu steigern, ist die Retrieval Augmented Generation oder kurz RAG. Diese Architektur ermöglicht es, unternehmensinterne Daten effizient in den Prozess der Antwortfindung einzubinden. RAG hat sich insbesondere in Support-Chatbots und Frage-Antwort-Systemen bewährt, die aktuelle Informationen benötigen oder auf domänenspezifisches Wissen zugreifen müssen.

In diesem Artikel werden wir die Grundlagen von RAG erkunden, seine Anwendungsfälle untersuchen und die Vorteile dieser Technologie hervorheben.

  1. Was ist die Definition von Retrieval Augmented Generation (RAG)?
  2. Was sind Herausforderungen von Large Language Models?
  3. Was sind typische Anwendungsfälle von RAG?
  4. Unsere Case Study für ein Wein Empfehlungssystem mit RAG-Architektur
  5. Was sind die Vorteile von RAG?
  6. Schritt-für-Schritt-Anleitung für RAG-Anwendungen
  7. Wie können LLMs optimiert werden?
  8. Retrieval Augmented Generation vs. Modell-Feinabstimmung
  9. Fazit
  10. FAQ – Die wichtigsten Fragen schnell beantwortet

Was ist die Definition von Retrieval Augmented Generation (RAG)?

RAG ist ein Architekturansatz, der die Effizienz großer Sprachmodelle (Large Language Models, LLMs) verbessert, indem er maßgeschneiderte Daten nutzt. Dieser Prozess erfolgt durch das Abrufen relevanter Daten oder Dokumente, die in Bezug auf eine gestellte Frage oder Aufgabe relevant sind, und stellt diese als Kontext für das LLM bereit. Die Drogeriekette dm verwendet beispielsweise ein RAG-Framework, um ihren Mitarbeitern zugriff auf interne Produktinformationen zu ermöglichen. Für die Kunden von einem der führenden internationalen Weinhändler durften wir ein RAG-Framework implementieren, Wein-Interessenten als Berater bei der personalisierten Produktauswahl zur Seite steht. RAG bietet LLMs eine dynamische und anpassungsfähige Lösung für die Herausforderungen der Datenqualität und Relevanz in KI-gesteuerten Anwendungen​​.

Retrieve, Augment und Generate. Beschreibung des RAG-Prozess.

RAG steht im Zentrum der Bemühungen, die Grenzen von LLMs zu erweitern, indem es die Integration von Echtzeitdaten (z.B. Vertrags- oder Produktinformationen) in die Modellantworten ermöglicht. Es ist eine bedeutende Entwicklung in der Welt der Künstlichen Intelligenz, die den Weg für genauere, kontextbezogene und zeitgemäße Antworten in einer Vielzahl von Anwendungsfällen ebnet.

Was sind Herausforderungen von Large Language Models?

RAG adressiert zwei zentrale Herausforderungen, die sich bei der Nutzung von LLMs ergeben.

  1. Die erste Herausforderung besteht darin, dass LLMs aufgrund ihres Trainings auf großen, aber statischen Datensätzen oft nicht in der Lage sind, aktuelle oder spezifische Daten zu kennen. Dies führt dazu, dass sie veraltete Antworten geben oder sogar Fehlinformationen erzeugen können.
  2. Die zweite Herausforderung betrifft die Notwendigkeit für KI-Anwendungen, domänenspezifische Daten effektiv zu nutzen, um relevante und präzise Antworten zu liefern, insbesondere in Anwendungen wie Kundensupport-Bots oder internen Q&A-Systemen​​.

Die Lösung für diese Herausforderungen bietet die RAG-Architektur. RAG ermöglicht das Einbeziehen von Echtzeitdaten für die Beantwortung einer Anfrage. Die Antwort ist somit auf dem neuesten Stand und spezifisch für den jeweiligen Anwendungsfall. Die folgende Grafik stellt den Prozess der RAG-basierten Anfrageverarbeitung eines LLM unseres Kunden dar. Der potenzielle Weinkäufer stellt dem Chatbot auf der Website des Weinhändlers eine Frage in natürlicher Sprache und erhält daraufhin in Sekunden eine individuelle Empfehlung. Diese basiert auf den unternehmensinternen Informationen zu den über 1.000 verschiedenen Weinsorten und dem Kaufverhalten der Kunden.

Diese Methode, bekannt als RAG, hat sich als branchenübergreifender Standard etabliert. Sie ermöglicht es Organisationen LLMs auf Basis von geringen Kosten und Aufwand zu verwenden.

Sehen wir uns nun an, in welchen Branchen und Use-Cases Sie den RAG-Architekturansatz einsetzen können.

Was sind typische Anwendungsfälle von RAG?

RAG findet in einer Reihe von Bereichen Anwendung, wobei die häufigsten Einsatzgebiete Frage-Antwort-Chatbots oder Empfehlungsdienste sind. Bei Chatbots ermöglicht RAG eine automatische Ableitung präziserer Antworten aus Unternehmensdokumenten und internen Wissensdatenbanken. Das ermöglicht zum Beispiel die Entlastung des Support-Teams oder steigert die Produktivität ihres Vertriebs- oder Marketingteams. Als Empfehlungsdienst kann das RAG-angereicherte LLM potenziellen Käufern individuelle Empfehlungen vorschlagen, was zu einer Steigerung der Verkaufsrate führt. Aber auch als Suchmaschine entlastet die RAG-Architektur Mitarbeiter, indem sie in Sekunden wichtige Antworten zu Verträgen, Produktinformationen oder HR-Wissen bereitstellt.

In der folgenden Tabelle haben wir Ihnen wichtige Branchen und die jeweiligen Einsatzmöglichkeiten von RAG zusammengetragen.

BrancheUse Case
Einzelhandel– Produktempfehlungen basierend auf den individuellen Kundenpräferenzen, der Kaufvergangenheit, dem Standort etc.
– Produktplanung nach Saison, Trend und Konkurrenzanalysen durch Vorhersagen
Finanzen– Korrelation von Gewinnmitteilungen und Berichten mit Marktinformationen und historischen Trends
– Betrugs- und Risikoanalysen
– Personalisierte Vermögensverwaltung
Tourismus– Personalisierte Kundenkommunikation durch Chatbot
– Dynamische Routenplanung basierend auf Faktoren wie Wetter, Live-Verkehr und Erfahrungen
– Preisvergleich und Empfehlungen
Gesundheit– Digitale Krankenakten und Krankenverlaufspläne
– Personalisierte Behandlungsvorschläge
Versicherung– Risikobewertung für Hypotheken durch Daten zu Immobilien und der Nachbarschaft
– Automatisierung der Schadenbearbeitung
Produktion– Verbrauchsvorhersagen
– Identifikation von Anomalien im Live-Data Streaming
– Automatisierte Personaleinsatzplanung basierend auf Erfahrungen der Vergangenheit
Der Einsatz von Retrieval Augmented Generation nach Branche und Use-Case.

Diese Vielfalt an Einsatzmöglichkeiten zeigt, wie RAG die Grenzen herkömmlicher LLM-Anwendungen erweitert, indem es sie mit dynamischen, kontextbezogenen und aktuellen Daten versorgt. Dadurch wird nicht nur die Genauigkeit der Antworten verbessert, sondern auch das Risiko von inkorrekten oder erfundenen Informationen (Halluzinationen) reduziert. RAG ermöglicht es Unternehmen, ihre LLM-Systeme effizient und kostengünstig an ihre spezifischen Bedürfnisse anzupassen.

Um Ihnen zu zeigen, wie Sie RAG zur Optimierung Ihres LLM verwenden können, stellen wir Ihnen im folgenden Absatz einen Use Case vor, den wir für unseren Kunden umsetzen durften.

Unsere Case Study für ein Wein-Empfehlungssystem mit RAG-Architektur

Für unseren Kunden – einen internationalen Weinhändler – durften wir das bestehende LLM mit einer RAG-Architektur personalisieren. Das Ziel war es, den Kunden des Weinhändlers einen Empfehlungsdienst auf der Website zu ermöglichen in Form eines Chatbots. Dafür pflegten wir die unternehmensinternen Daten über Produktinformationen zu einzelnen Weinen in das Modell ein. Der Kunde hat die Möglichkeit, dem Chatbot Fragen zu stellen, wie Beispielsweise „Welcher Wein passt am besten zu Lamm?“ Als Antwort folgt eine Empfehlung basierend auf den Vorlieben des Kundenprofils Die User Query wird innerhalb weniger Sekunden mit den Informationen zu verfügbaren Produkten abgeglichen. Der Chatbot schlägt dem Kunden schließlich den Wein/ die Weinsorten vor, die am besten zu seiner Anfrage passen. Durch den im Vorab von uns erstellten Prompt werden unseriöse Anfragen mit entsprechenden Hinweisen zu einem verantwortungsvollen Umgang mit Alkohol beantwortet.

Der Einsatz von RAG für ein LLM.

Was sind die Vorteile von RAG?

Einer der Hauptvorteile von RAG ist die Fähigkeit, unternehmensspezifische, personalisierte und qualitativ hochwertige Antworten zu liefern. Indem es sich auf aktuelle, externe Datenquellen stützt, überwindet RAG die Beschränkungen, die sich aus der alleinigen Verwendung von statischen, veralteten Trainingsdaten ergeben. Durch die Verwendung von RAG kann das LLM-Modell kontextbezogene Antworten liefern, die speziell auf die proprietären oder domänenspezifischen Daten einer Organisation zugeschnitten sind.

Ein weiterer wesentlicher Vorteil ist die Effizienz und Kosteneffektivität dieser Methode. Im Vergleich zu anderen Ansätzen, die eine Anpassung von LLMs an domänenspezifische Daten erfordern, ist RAG einfach und kostengünstig in der Implementierung. Organisationen können RAG einsetzen, ohne das Modell anpassen zu müssen. Dies ist besonders vorteilhaft, wenn Modelle regelmäßig mit neuen Daten aktualisiert werden müssen. Zusammenfassend ermöglicht RAG Organisationen, ihre LLM-Anwendungen ohne erheblichen finanziellen oder zeitlichen Aufwand zu optimieren und dabei genaue und relevante Ergebnisse zu erzielen.

Wie Sie bei der Implementierung einer RAG-Anwendung vorgehen können, erfahren Sie im nächsten Abschnitt.

Schritt-für-Schritt-Anleitung für RAG-Anwendungen

Die Implementierung eines RAG-Systems kann je nach spezifischen Anforderungen und Datencharakteristika variieren. Ein häufig angewandter Workflow umfasst mehrere Schlüsselschritte:

  1. Datenvorbereitung: Zuerst werden Dokumentendaten zusammen mit Metadaten gesammelt und einer ersten Verarbeitung unterzogen, wie beispielsweise der Handhabung von personenbezogenen Informationen.
  2. Indexierung relevanter Daten: Anschließend erfolgt die Erstellung von Dokumenten-Embeddings, die in einen Vector Search Index eingespeist werden.
  3. Abrufen relevanter Daten: Dabei werden Teile der Daten abgerufen, die für eine Nutzeranfrage relevant sind, und dann als Teil der Eingabeaufforderung für das LLM verwendet.
  4. Aufbau von LLM-Anwendungen: Die Komponenten der Eingabeerweiterung und das Abfragen des LLMs werden in einem Endpunkt zusammengeführt, der dann für Anwendungen wie Q&A-Chatbots über eine einfache REST-API zugänglich gemacht werden kann.

Zu den Schlüsselelementen einer RAG-Architektur gehören unter anderem Vector-Datenbanken für schnelle Ähnlichkeitssuchen und die MLflow AI Gateway für die Standardisierung von Schnittstellen. Diese Elemente tragen dazu bei, dass das eingesetzte Sprachmodell Zugang zu aktuellen Informationen hat und effizient genutzt werden kann​​.

Unabhängig von der gewählten Methode ist es wichtig, eine Lösung strukturiert und modular aufzubauen, um Flexibilität für Anpassungen und Weiterentwicklungen zu gewährleisten​​. Es gibt noch weitere Möglichkeiten, LLMs zu optimieren. Diese stellen wir Ihnen im nächsten Abschnitt vor.

In dem folgenden Video erklären wir in 9 Minuten, was genau hinter RAG steckt.

Was ist RAG?

Wie können LLMs optimiert werden?

Beim Anpassen von LLM-Anwendungen mit organisationsbezogenen Daten gibt es vier Hauptansätze:

  1. Prompt Engineering,
  2. Retrieval Augmented Generation (RAG),
  3. Feinabstimmung
  4. und Vorabtraining.

Jede dieser Methoden hat spezifische Anwendungsfälle und Vorteile.

  1. Prompt Engineering: Dies ist eine schnelle und kosteneffektive Methode, um LLMs anzuleiten, ohne eine Schulung erforderlich zu machen. Der Hauptvorteil liegt in der Schnelligkeit und Einfachheit, allerdings bietet sie weniger Kontrolle als die Feinabstimmung.
  2. Retrieval Augmented Generation (RAG): RAG kombiniert LLMs mit externen Wissensquellen und ist ideal für dynamische Datensätze und externe Kenntnisse. Es bietet aktualisierten Kontext und erhöhte Genauigkeit, erfordert jedoch eine längere Eingabeaufforderung und zusätzlichen Rechenaufwand.
  3. Feinabstimmung: Hierbei wird ein vortrainiertes LLM an spezifische Datensätze oder Domänen angepasst. Es bietet granulare Kontrolle und hohe Spezialisierung, erfordert jedoch etikettierte Daten und ist mit höheren Rechenkosten verbunden.
  4. Vorabtraining: Das Training eines LLMs von Grund auf ist für einzigartige Aufgaben oder domänenspezifische Korpora geeignet. Es bietet maximale Kontrolle und ist auf spezifische Bedürfnisse zugeschnitten, ist jedoch extrem ressourcenintensiv.

FAQ – Die wichtigsten Fragen schnell beantwortet

Was genau ist Retrieval Augmented Generation (RAG)?

RAG ist ein fortschrittlicher Architekturansatz, der die Fähigkeiten großer Sprachmodelle (LLMs) erweitert, indem er sie mit Echtzeitdaten oder spezifischen Informationen aus externen Quellen kombiniert. Dies ermöglicht den LLMs, präzisere und aktuellere Antworten zu generieren.

Wie funktioniert RAG?

RAG arbeitet, indem es relevante Daten oder Dokumente abruft, die in Bezug auf eine gestellte Anfrage relevant sind, und diese als zusätzlichen Kontext für das LLM bereitstellt. Dies erlaubt es dem Modell, über sein ursprüngliches Training hinauszugehen und aktuelle Informationen in seine Antworten einzubeziehen.

In welchen Anwendungsfällen wird RAG typischerweise eingesetzt?

Häufige Anwendungen von RAG sind in Support-Chatbots, bei der Suchanreicherung und als Wissensmotor in Unternehmen, insbesondere für interne Anfragen wie HR- oder Compliance-bezogene Fragen.

Welche Vorteile bietet RAG gegenüber traditionellen LLMs?

RAG ermöglicht aktuellere und präzisere Antworten, indem es Echtzeitdaten nutzt. Es reduziert das Risiko von falschen Informationen und passt Antworten an spezifische Domänen an. Außerdem ist es kosteneffizient und einfacher zu implementieren als komplette Modell-Feinabstimmungen.

Wie unterscheidet sich RAG von der Feinabstimmung eines LLMs?

Während RAG das Abrufen und Einbeziehen externer Daten in die Modellantworten ermöglicht, passt die Feinabstimmung das Verhalten des Modells selbst an, um es auf spezielle Aufgaben oder Domänen auszurichten. RAG ist oft schneller und einfacher zu implementieren als eine vollständige Feinabstimmung.

Ist RAG für alle Arten von Organisationen geeignet?

AG kann für eine Vielzahl von Organisationen nützlich sein, besonders dort, wo aktuelle Informationen wichtig sind oder wo spezifisches, domänenspezifisches Wissen benötigt wird. Es ist flexibel und kann an verschiedene Anforderungen angepasst werden.

Ihr Kontakt: Vinzent Wuttke

Unternehmen sitzen auf einem ungenutzten Berg von Kundendaten. Wir von datasolut entwickeln KI, die Ihr Marketing optimiert. Damit Sie dem richtigen Kunden zur richtigen Zeit das richtige Angebot machen können.

Auch interessant für Sie