Home
Blog
GPT 5.1 Im Test UnauffäLliges Update Mit üBerraschend Viel Substanz

Artificial Intelligence

GPT 5.1 im Test – unauffälliges Update mit überraschend viel Substanz

Released on

Mittwoch, 3. Dezember 2025

Harald Huber

7:21

Wenn man die Entwicklung der letzten Jahre betrachtet, war GPT-5 eines der meistdiskutierten Releases im LLM-Bereich. Viel Marketing, viele Versprechen – und in der Praxis häufig schwächer als erhofft. Umso leiser kam der Launch von GPT 5.1: ohne große Bühne, ohne Erwartungsdruck.

Genau das machte uns neugierig. Denn während GPT-5 im Kundenservice-Umfeld eher hinter den Erwartungen blieb, zeigt der Markt ein sehr klares Bild: Service-Chatbots brauchen keine spektakulären Schlagzeilen – sie brauchen Verlässlichkeit.

Ein besonders gutes Praxisbeispiel dafür ist unser gemeinsames Projekt mit der FITKO: der KI-gestützte Chatbot für die Behördennummer 115. Dieser unterstützt Bürgerinnen und Bürger rund um die Uhr bei Fragen zu Verwaltungsleistungen – basierend auf einer modernen Bot-Architektur, der zentralen 115-Wissensdatenbank und optionalen lokalen Informationen der Kommunen. Die Lösung wird aktuell auf mehreren kommunalen Websites pilotiert und soll bei Erfolg allen 115-Verbundteilnehmern zur Verfügung stehen.

Gerade in diesem Umfeld zeigt sich, wie entscheidend Präzision ist:
Ein Chatbot darf keine Fakten erfinden, keine Einschränkungen übersehen und keine widersprüchlichen Angaben „wegzaubern“. Er muss verlässlich, stabil und nachvollziehbar arbeiten.

Um zu prüfen, inwiefern GPT 5.1 diese Anforderungen unterstützt, haben wir das Modell gezielt auf seine Praxistauglichkeit getestet – mit Benchmarks, die reale Service-Szenarien abbilden.

Warum klassische Benchmarks nicht reichen

Die üblichen Benchmarks betreffen das Verhalten der LLMs in der vom Benchmark definierten Aufgabe.
Sie testen aber kaum das Verhalten in echten RAG Situationen.

In der RAG-Praxis scheitern Chatbots weniger an der reinen Wissensabfrage, sondern an typischen Struktur- und Kontextproblemen wie:

Informationen, die an mehreren Stellen im Text verteilt sind
unklare Einschränkungen
widersprüchliche Angaben
sprachliche Ungenauigkeiten
oder fehlende Kontextdaten, die das Modell „auffüllt“

Diese Muster treten im Alltag sehr häufig auf. Deshalb haben wir zusätzlich fünf eigene Benchmarks definiert, die genau solche komplexen, aber typischen Servicesituationen abbilden.

Benchmark 1 - Präzision ohne Daten: Wie stark halluziniert GPT 5.1.?

Der erste Test ist bewusst „unfair“:
Aus einer losen, umgangssprachlichen Anfahrtsbeschreibung soll das Modell eine detaillierte Navigationsanweisung erzeugen – obwohl wesentliche Informationen fehlen.

GPT-5 hatte hier sehr häufig konkrete Entfernungsangaben erfunden („gehen Sie 300 Meter nach rechts“).
GPT 5.1 erfindet deutlich weniger Details und bleibt stärker an den Vorgaben.

Interessant: 5.1 möchte weiterhin „schön“ schreiben.
Aus „Haus“ wird „Wohnhaus“, aus „Schild“ „großes Schild“. Das stört die Qualität nicht gravierend, zeigt aber, wie stark die Modelle auf stilistische Optimierungen trainiert sind.

Für Chatbots wie den 115-Bot zählt allerdings etwas anderes: Die Fähigkeit, fehlende Informationen nicht mit Fantasie zu ersetzen.

Hier zeigt GPT 5.1 eine spürbare Verbesserung – und das ist für reale Servicefälle sehr wertvoll.

Benchmark 2 - Vollständigkeit aus verstreuten Informationen

Eine der wichtigsten Fähigkeiten für verlässliche Chatbots besteht darin, Inhalte zu kombinieren, die im Dokument nicht unmittelbar zusammenstehen.

Im Test sollten verstreute Anweisungen zu einer vollständigen Reparatur-Anleitung zusammengeführt werden.

GPT-5 ließ Teile aus.
GPT 5.1 stellt deutlich öfter eine vollständige, logisch strukturierte Antwort zusammen.

Natürlich gilt weiterhin: Gut strukturierte Dokumente erleichtern alles.
Aber in der Realität lassen sich Inhalte nicht immer perfekt sortieren. Dass GPT 5.1 mit größeren Kontexten solider arbeitet, ist daher ein praktischer Vorteil im täglichen Chatbot-Betrieb.

Benchmark 3 - Falsche Generalisierungen vermeiden

LLMs haben oft Schwierigkeiten, Einschränkungen korrekt zuzuordnen. Beispiel:

„Das gilt nur für A und B, nicht für C.“

Viele Modelle weiten die Aussage trotzdem auf C aus. GPT-5 war dafür bekannt, die Grenzen zu unscharf zu setzen.

GPT 5.1 zeigt hier:

klar erkennbare Fortschritte,
aber keine perfekte Lösung.

In mehreren Fällen blieb 5.1 korrekt im Gültigkeitsbereich, in anderen hat es weiterhin zu breit generalisiert.

Die Konsequenz für Service-Texte bleibt also bestehen: Einschränkungen müssen sichtbar, eindeutig und sprachlich klar markiert sein.

Benchmark 4 - Integriertes Schlussfolgern: Die härteste Disziplin

Hier muss das Modell nicht nur Text kombinieren, sondern wirklich verstehen, was sich auf was bezieht – etwa bei Prozentangaben, die nur für einen Teil der Informationen gelten.

Das ist für LLMs traditionell schwierig. Und leider auch: Der Bereich, in dem GPT 5.1 keine Fortschritte zeigt.

Die Schlussfolgerungsfähigkeit bleibt insgesamt auf GPT-5-Niveau.
Wenn Inhalte nicht klar im Text stehen, sondern logisch herausgelesen werden müssen, steigen Fehlerrisiken deutlich.

Benchmark 5 - Widersprüche erkennen statt "wegzaubern"

Dieser Benchmark war besonders spannend. Ein Dokument enthält bewusst widersprüchliche Angaben.
Ein zuverlässiges Modell müsste:

den Widerspruch erkennen
und statt einer Antwort darauf hinweisen.

GPT-5 hat Widersprüche oft ignoriert und trotzdem irgendeine Antwort generiert.
GPT 5.1 geht einen Schritt weiter – leider in die falsche Richtung: Es erfindet zusätzliche Fakten, um den Widerspruch aufzulösen.

Gut gemeint, aber riskant. Gerade im Verwaltungsumfeld – wie bei der 115 – wäre ein solcher Umgang mit widersprüchlichen Informationen nicht akzeptabel. Ein Chatbot darf keine neuen Fakten erfinden, sondern muss transparent bleiben.

Fazit: GPT 5.1. ist kein großer Sprung - aber ein klarer Fortschritt

GPT 5.1 macht vieles besser als GPT-5, und zwar genau in den Bereichen, die für verlässliche Chatbots relevant sind:

weniger Halluzinationen
bessere Vollständigkeit
weniger unzulässige Generalisierungen
bessere API-Steuerbarkeit durch weniger Reasoning-Last
eine generell angenehmere, stabilere Nutzung

Es bleibt aber auch klar:

Wenn Informationen hergeleitet werden müssen, wird es unsicher.
Widersprüche müssen vorab aus den Dokumenten entfernt werden.
Einschränkungen und Gültigkeitsbereiche müssen klar benannt sein.

Keines der großen Modelle löst diese Herausforderungen vollständig – aber GPT 5.1 gleicht in der Praxis viele Schwächen von GPT-5 aus, ohne teurer zu werden oder komplexer in der Nutzung zu sein.

Vielleicht hätte diese Version tatsächlich ein bisschen mehr Marketing verdient.
Für uns ist GPT 5.1 vor allem eines: Ein stilles, aber sehr hilfreiches Update – besonders für Chatbots, bei denen Verlässlichkeit zählt.