LLMs im Chatbot-Test: Warum Claude Sonnet 4.5 aktuell vorne liegt

Geschrieben von Harald Huber | Oct 20, 2025 7:01:03 AM

Als Anbieter von zuverlässigen Chatbots ist es für uns entscheidend zu verstehen, wie sich Large Language Models (LLMs) im praktischen Einsatz verhalten. Klassische Benchmarks prüfen meist nur das Antwortverhalten auf Basis des trainierten Wissens. Doch die Realität im Kundenservice sieht anders aus: Hier arbeiten Chatbots meist in einer RAG-Architektur (Retrieval-Augmented Generation). Das bedeutet: Sie müssen Antworten nicht aus ihrem gespeicherten Wissen, sondern anhand eines bereitgestellten Kontextes – meist eines oder mehrerer Dokumente – generieren. Dabei sind Richtigkeit und Vollständigkeit der Antwort entscheidend.

Um die Leistungsfähigkeit aktueller LLMs in dieser Umgebung zu testen, haben wir drei praxisnahe Szenarien definiert und sie mit drei führenden Modellen verglichen:

GPT-5 (OpenAI)
Gemini 2.5 Pro (Google DeepMind)
und Claude Sonnet 4.5 (Anthropic)

Drei Testfälle aus der Praxis

Unsere Tests zielten darauf ab, typische Herausforderungen im Kundenservice abzubilden:

Komplexe Antworten mit mehreren Abhängigkeiten
Hier sollten die Modelle eine Antwort generieren, die verschiedene Informationen richtig kombiniert – zum Beispiel Öffnungszeiten, bei denen Feiertage und regionale Unterschiede berücksichtigt werden müssen.
Filtern und Auflisten relevanter Informationen
In diesem Test sollten die Modelle aus einer Liste Objekte auswählen, die bestimmten Kriterien entsprechen – etwa eine Produktempfehlung für einen Kunden mit spezifischen Anforderungen.

Umgang mit sprachlicher Uneindeutigkeit
Natürliche Sprache enthält häufig Pronomen oder Verweise wie „dieses“, „darauf“ oder „dort“. Menschen nutzen Kontextwissen, um deren Bezug zu verstehen – ein LLM hat dieses Wissen nicht. In solchen Fällen sollte ein Modell Unsicherheit erkennen und transparent machen, statt eine falsche Antwort zu erfinden.

Die Ergebnisse: Claude überzeugt, GPT-5 schwächelt

GPT-5 (OpenAI) bildete in allen Szenarien das Schlusslicht – unabhängig vom investierten Reasoning-Aufwand. Nur wenn Fehler explizit korrigiert wurden, verbesserte sich die Antwortqualität merklich.

Gemini 2.5 Pro (Google DeepMind) lieferte insgesamt bessere Ergebnisse, konnte aber nicht in allen Bereichen überzeugen.

Claude Sonnet 4.5 (Anthropic) schnitt in zwei der drei Tests deutlich am besten ab: Besonders bei der Auflösung unsicherer Bezüge zwischen Sätzen und beim Kombinieren von Informationen aus verschiedenen Textstellen erzielte Claude überzeugende Ergebnisse.

Eine Herausforderung blieb jedoch für alle Modelle bestehen: Keine der getesteten Lösungen war in der Lage, im zweiten Test eine vollständig korrekte Liste zu erzeugen. Das verdeutlicht, wie wichtig eine sorgfältige Strukturierung und Pflege der Dokumente ist, wenn sie in einer GenAI-Umgebung genutzt werden sollen.

Konsequenzen für den praktischen Einsatz

Die Erkenntnisse aus diesen Tests sind für uns besonders wertvoll, denn sie helfen dabei, unsere Strategie einer 100 % Antwortqualität im Chatbot-Betrieb umzusetzen. Das bedeutet nicht, dass man mit GPT-5 keine Chatbots bauen kann – wohl aber, dass der Aufwand für die Aufbereitung der Dokumente deutlich höher sein muss, um zuverlässige Ergebnisse zu erzielen.

Wer Claude Sonnet 4.5 nutzt, profitiert dagegen von einer höheren Robustheit bei der Verarbeitung natürlicher Sprache und kann Inhalte oft mit weniger Vorarbeit nutzbar machen. Für Unternehmen bedeutet das: Weniger Aufwand in der Vorbereitung kann zu schnelleren Implementierungen und geringeren Betriebskosten führen.

Fazit: 100 % richtige Antworten beginnen mit der richtigen Wissensbasis

Unsere Tests zeigen deutlich: Nicht jedes LLM ist gleich gut geeignet, wenn es um zuverlässige Chatbots im Kundenservice geht. Während GPT-5 bei komplexen Aufgaben schwächelt und Gemini solide Ergebnisse liefert, überzeugt Claude Sonnet 4.5 durch seine Fähigkeit, Kontext besser zu verarbeiten und Unsicherheiten korrekt einzuordnen.

Doch eines steht fest: Ohne eine saubere, strukturierte und aktuelle Wissensbasis kann kein LLM zuverlässig arbeiten.
Genau hier setzt modernes Wissensmanagement an. Es sorgt dafür, dass Informationen so aufbereitet sind, dass Chatbots sie effizient nutzen können – und schafft damit die Grundlage für 100 % richtige Antworten im Kundenservice – ob bei der Bearbeitung von Schadensmeldungen, der Auskunft zu Vertragsdetails oder im Self-Service-Portal.

Wie USU Knowledge Management Sie dabei unterstützt, dieses Ziel zu erreichen und verlässlich 100 % richtige Antworten im Service zu liefern, erfahren Sie hier.

Sie sind interessiert an den vollständigen Testergebnissen und konkreten Empfehlungen für Ihren Chatbot-Einsatz?

Kontaktieren Sie uns unverbindlich und erfahren Sie, wie Sie Large Language Models sicher und effizient in Ihrem Customer Service nutzen können.

Vollständigen Beitrag anzeigen