Als Anbieter von zuverlässigen Chatbots ist es für uns entscheidend zu verstehen, wie sich Large Language Models (LLMs) im praktischen Einsatz verhalten. Klassische Benchmarks prüfen meist nur das Antwortverhalten auf Basis des trainierten Wissens. Doch die Realität im Kundenservice sieht anders aus: Hier arbeiten Chatbots meist in einer RAG-Architektur (Retrieval-Augmented Generation). Das bedeutet: Sie müssen Antworten nicht aus ihrem gespeicherten Wissen, sondern anhand eines bereitgestellten Kontextes – meist eines oder mehrerer Dokumente – generieren. Dabei sind Richtigkeit und Vollständigkeit der Antwort entscheidend.
Um die Leistungsfähigkeit aktueller LLMs in dieser Umgebung zu testen, haben wir drei praxisnahe Szenarien definiert und sie mit drei führenden Modellen verglichen:
Unsere Tests zielten darauf ab, typische Herausforderungen im Kundenservice abzubilden:
Eine Herausforderung blieb jedoch für alle Modelle bestehen: Keine der getesteten Lösungen war in der Lage, im zweiten Test eine vollständig korrekte Liste zu erzeugen. Das verdeutlicht, wie wichtig eine sorgfältige Strukturierung und Pflege der Dokumente ist, wenn sie in einer GenAI-Umgebung genutzt werden sollen.
Die Erkenntnisse aus diesen Tests sind für uns besonders wertvoll, denn sie helfen dabei, unsere Strategie einer 100 % Antwortqualität im Chatbot-Betrieb umzusetzen. Das bedeutet nicht, dass man mit GPT-5 keine Chatbots bauen kann – wohl aber, dass der Aufwand für die Aufbereitung der Dokumente deutlich höher sein muss, um zuverlässige Ergebnisse zu erzielen.
Wer Claude Sonnet 4.5 nutzt, profitiert dagegen von einer höheren Robustheit bei der Verarbeitung natürlicher Sprache und kann Inhalte oft mit weniger Vorarbeit nutzbar machen. Für Unternehmen bedeutet das: Weniger Aufwand in der Vorbereitung kann zu schnelleren Implementierungen und geringeren Betriebskosten führen.
Unsere Tests zeigen deutlich: Nicht jedes LLM ist gleich gut geeignet, wenn es um zuverlässige Chatbots im Kundenservice geht. Während GPT-5 bei komplexen Aufgaben schwächelt und Gemini solide Ergebnisse liefert, überzeugt Claude Sonnet 4.5 durch seine Fähigkeit, Kontext besser zu verarbeiten und Unsicherheiten korrekt einzuordnen.
Doch eines steht fest: Ohne eine saubere, strukturierte und aktuelle Wissensbasis kann kein LLM zuverlässig arbeiten.
Genau hier setzt modernes Wissensmanagement an. Es sorgt dafür, dass Informationen so aufbereitet sind, dass Chatbots sie effizient nutzen können – und schafft damit die Grundlage für 100 % richtige Antworten im Kundenservice – ob bei der Bearbeitung von Schadensmeldungen, der Auskunft zu Vertragsdetails oder im Self-Service-Portal.
Wie USU Knowledge Management Sie dabei unterstützt, dieses Ziel zu erreichen und verlässlich 100 % richtige Antworten im Service zu liefern, erfahren Sie hier.
Kontaktieren Sie uns unverbindlich und erfahren Sie, wie Sie Large Language Models sicher und effizient in Ihrem Customer Service nutzen können.