Es gibt kein halluzinationsfreies Large Language Model (LLM).
Darüber sind sich Forscher und Entwickler einig - von Vishal Sikka, der ehemalige SAP CTO, bis zu den Autoren des Beitrages „Why large language models hallucinate“.
Auch aus realen Projekten hört man immer wieder dieselbe Kritik. Unternehmen und Hersteller wie Salesforce sind mit der Verlässlichkeit von AI Agents unzufrieden.
Die Erklärung folgt dann oft reflexhaft: Das liegt eben an den Halluzinationen der KI.
Doch das ist zu kurz gedacht.
Halluzinationen sind nicht das eigentliche Problem
In vielen Projekten zeigt sich ein ähnliches Bild: Ein Chatbot greift auf schlecht gepflegtes, unstrukturiertes Wissen zu. Die Datenquellen sind kaum überschaubar. Der Bot antwortet mal richtig, mal falsch. Wenn etwas schiefläuft, wird das LLM verantwortlich gemacht.
Dabei haben Halluzinationen und schlechte Antwortqualität oft wenig miteinander zu tun. In der Praxis entstehen die meisten Fehler nicht im Modell selbst, sondern im Zusammenspiel aus Wissen, Fragen und Regeln. Trotz der stochastischen Funktionsweise von LLMs lässt sich die Fehlerwahrscheinlichkeit deutlich senken. So weit, dass sie im Alltag kaum noch eine Rolle spielt.
Dafür müssen drei Voraussetzungen erfüllt sein:
1. Wissen in der richtigen Qualität bereitstellen
Ein LLM kann nur so gut antworten, wie das Wissen, das ihm zur Verfügung steht.
Es reicht nicht aus, Inhalte einfachanzubinden.
In der Praxis sehen wir häufig:
- veraltete oder widersprüchliche Dokumente
- viele nahezu identische Inhalte, die sich nur in Metadaten unterscheiden
- Begriffe wie „Businesskunde“ oder interne Produktnamen ohne klare Definition
- unklare oder rein interne Formulierungen
Für Menschen oft noch verständlich. Für KI nicht.
Besonders kritisch ist dabei der Einsatz von Vektorsuchen. Sie erkennen semantische Ähnlichkeiten, aber keine fachlichen Unterschiede. Produktvarianten, Tarifstände oder Redaktionsdaten gehen dabei verloren.
Das System greift dann auf „ähnliches“ Wissen zu – nicht zwingend auf das richtige.
Ungemanagtes Wissen führt so zwangsläufig zu unkontrollierten Antworten.
2. Nur Fragen zulassen, die beantwortbar sind
Ein LLM kann nur dann zuverlässig antworten, wenn das passende Wissen vorhanden ist. Fehlt dieses Wissen, entsteht genau das, was wir Halluzination nennen: Das Modell füllt die Lücke und denkt sich eine plausible, aber falsche Antwort aus. Häufig wird versucht, dieses Problemallein über Prompting zu lösen. Unsere Erfahrung zeigt: Das reicht nicht aus.
Verlässliche Antwortqualität entsteht erst durch einen Agent-Flow – also durch eine klar definierte, mehrstufige Verarbeitung von Anfragen. Dabei wird eine Frage nicht direkt beantwortet, sondern schrittweise geprüft:
- Zuerst wird geklärt, ob eine Frage überhauptzulässig ist
- Dann wird festgelegt, welches Wissen genutzt werden darf
- Erst danach erfolgt die eigentliche Antwortgenerierung
Ohne einen solchen Agent-Flow bleibt Antwortqualität Zufall.
3. Klare Regeln für die Nutzung des Wissens
Prompts wie „Beantworte nur Fragen mit dem bereitgestellten Wissen“ klingen logisch, sind es aber nur eingeschränkt.
Denn natürlich soll ein LLM weiterhin sein Allgemeinwissen nutzen:
- Synonyme verstehen
- Länder und Städte einordnen
- Alltagslogik anwenden
Problematisch wird es an den unklaren Rändern.
Ein Beispiel:
Alle Produktdaten liegen vor. Ein Nutzer fragt: „Welches eurer Produkte ist das beste?“ Die Informationen sind da.
Die Bewertungslogik fehlt. Das LLM interpretiert – und genau hier wird die Grenze zwischen sinnvoller Interpretation und Halluzination unscharf.
Zulässige Fragen ergeben sich nicht automatisch aus vorhandenem Wissen.
Sie müssen explizit definiert und idealerweise vor der Verarbeitung geprüft werden.
Was heißt das in der Praxis?
Plakativ formuliert gilt:
Ein LLM handelt immer „bestmöglich“.
Fehlen klare Regeln, interpretiert es.
Fehlt eindeutig nutzbares, konsistentes und kontextualisiertes Wissen, steigt die Wahrscheinlichkeit für Halluzinationen – selbst dann, wenn grundsätzlich Inhalte vorhanden sind.
Verlässliche Antwortqualität entsteht nur, wenn drei Dinge zusammenspielen:
- gemanagtes, qualitätsgesichertes Wissen
- klar definierte, zulässige Fragen
- eindeutige Regeln zur Nutzung dieses Wissens
Fazit: Verlässliche KI braucht Wissensmanagement
KI ersetzt kein Wissensmanagement. Sie baut darauf auf.
Wissensmanagement bedeutet heute:
- Wissen strukturieren
- Wissensbedarf verstehen
- Fragen steuern
- Antwortqualität absichern
Ohne Wissensmanagement bleibt KI unzuverlässig. Mit sauberem Wissensmanagement kann KI-Qualität liefern, der man vertrauen kann. Und genau dort entscheidet sich, ob KI im Kundenservice Vertrauen schafft – oder verspielt.
Denn im Kundenservice geht es nicht um Experimente. Es geht um korrekte Auskünfte, nachvollziehbare Antworten und konsistente Kommunikation über alle Kanäle hinweg. Eine falsche Antwort ist hier kein technisches Detail, sondern ein Risiko – für Kundenzufriedenheit, Compliance und Marke.
Auch führende Analystenhäuser kommen zu demselben Schluss: KI im Kundenservice lässt sich nur dann verlässlich und skalierbar einsetzen, wenn sie auf einer strukturierten und kontrollierten Wissensbasis aufsetzt.
KI im Kundenservice ist keine isolierte Technologiefrage. Sie ist eine Frage der Wissensbasis, auf der sie arbeitet. Nur wenn klar definiert ist, welches Wissen genutzt werden darf, welche Fragen beantwortet werden können und wie Antworten entstehen, wird aus KI ein verlässliches Werkzeugstatt eines Unsicherheitsfaktors.
Genau hier setzt Knowledge Management an. Nicht als reines Ablagesystem, sondern als steuernde Instanz zwischen Wissen und KI. Es schafft Struktur, Kontext und Kontrolle – und damit die Grundlage für verlässliche Antworten statt plausibler Vermutungen.
KI wird den Kundenservice verändern. Aber nicht durch immer größere Modelle oder immer kreativere Prompts. Sondern durch eine belastbare Wissensbasis, die Qualität ermöglicht und Grenzen klar definiert.
Sie möchten KI und Large Language Models im Kundenservice verlässlich einsetzen?