GPT-5 im Test: Warum das neue KI-Modell für Chatbots im Customer Service enttäuscht

Released on

Montag, 11. August 2025

Harald Huber

4:46

USU-Tests zeigen: GPT-5 ist für zuverlässige Chatbots derzeit nur eingeschränkt geeignet

Als Spezialist für zuverlässige Chatbots im Customer Service hat unser Expertenteam das neue GPT-5 einem praxisnahen Test unterzogen. Ziel war es, herauszufinden, ob das Modell den hohen Anforderungen standhält, die in sensiblen Bereichen wie Finanzdienstleistungen, Gesundheitswesen oder öffentlicher Verwaltung gelten.

Denn dort reicht es nicht, wenn ein Chatbot lediglich „irgendeine“ passende Antwort gibt. Gefordert sind richtige, vollständige und regelkonforme Antworten – zuverlässig und reproduzierbar.

Testschwerpunkte: Was ein Chatbot im Service können muss

Die Untersuchung konzentrierte sich auf drei Kernaspekte, die für Customer-Service-Chatbots entscheidend sind:

Vollständigkeit der Antworten
Korrektheit der Informationen
Fähigkeit, längere Dialoge zu steuern, etwa bei Diagnosen oder Analysen

Gerade im RAG-Architektur-Umfeld (Retrieval-Augmented Generation) müssen Chatbots präzise Inhalte aus externen Quellen extrahieren und passend zum Kontext verarbeiten. In der Praxis zeigen sich dabei klare Defizite des neuen Modells.

Wo GPT-5 schwächelt

Im Vergleich zu GPT-4 und einigen Wettbewerbsmodellen schnitt GPT-5 in mehreren Punkten schlechter ab:

Fehleinschätzung der Aufgabenschwierigkeit
GPT-5 passt seinen „Denkaufwand“ zwar dynamisch an, schätzt die Komplexität aber oft falsch ein.
Unvollständige Antworten
Besonders bei der Extraktion aus längeren Texten formuliert GPT-5 zwar sprachlich flüssig, lässt aber relevante Inhalte weg.
Unsichere Schlussfolgerungen
Muss das Modell Inhalte logisch verknüpfen, beendet es den Denkprozess oft zu früh – mit entsprechend falschen Ergebnissen.

Doch gerade diese Punkte sind im produktiven Customer-Service-Einsatz problematisch, weil dort oft präzise Daten für Schnittstellen oder Folgeschritte benötigt werden.

Auswirkungen auf Multiagenten-Architekturen

In modernen Multiagenten-Chatbot-Architekturen kommen oft zusätzliche Memory-Komponenten zum Einsatz. Sie sorgen dafür, dass der Chatbot auch bei komplexen Dialogen und großen Informationsmengen den Überblick behält.
Typische Einsatzszenarien sind:

technische Fehlerdiagnosen oder Bedarfsbewertungen
Mehrschritt-Analysen im technischen Support
Ermittlung von Parametern für Drittsysteme

In diesen Kontexten genügt es nicht, lediglich trainierte Token-Muster abzurufen. Es braucht erweitertes logisches Denken, um Informationen korrekt zu verknüpfen und vollständig zu verarbeiten. In unseren Tests gelang GPT-5 dies deutlich seltener als seinen Vorgängermodellen – ein Nachteil, der im Betrieb schnell zu falschen oder unvollständigen Ergebnissen führen kann.

Ausblick: GPT-5 in Entwicklung – Potenzial für schnelle Verbesserungen

Unsere Analysen deuten darauf hin, dass OpenAI die aktuellen Schwächen von GPT-5 kennt. Öffentliche Statements und Entwicklerhinweise deuten darauf hin, dass gezielt an den Punkten Vollständigkeit, Kontextverständnis und logischem Schlussfolgern gearbeitet wird. Wir gehen zudem davon aus, dass OpenAI weitere Werkzeuge, Schnittstellen und Best-Practice-Guides bereitstellen wird. Damit können Unternehmen die Möglichkeiten von GPT-5 noch gezielter nutzen.

Gerade im Bereich Customer Service könnte das bedeuten, dass wir innerhalb weniger Wochen oder Monate ein deutlich stabileres und präziseres Modell sehen. Werden die Lücken geschlossen, kann GPT-5 vom derzeit verhaltenen Start zu einem echten Meilenstein für zuverlässige Chatbots werden.

Empfehlung unserer Experten

Unser Expertenteam empfiehlt derzeit Vorsicht beim Einsatz von GPT-5 in produktiven Chatbot-Systemen.

Für kritische Serviceprozesse sollte das Modell vorab gründlich getestet und, falls nötig, durch hybride Architekturen oder zusätzliche Validierungsschritte abgesichert werden.

Außerdem raten wir, die Weiterentwicklung bei OpenAI aufmerksam zu verfolgen und Pilotprojekte so zu planen, dass ein künftiges Update einfach integriert werden kann. Um die Fortschritte objektiv einordnen zu können, wird unser Expertenteam den Test in einigen Wochen erneut durchführen. Die Ergebnisse werden wir anschließend erneut veröffentlichen – damit Sie einschätzen können, ob GPT-5 dann den Sprung vom verhaltenen Start zum leistungsfähigen Service-Modell geschafft hat.