• Home
  • Blog
  • Gpt 5.2 Ganz Neu Und Ziemlich Anders
Knowledge Management

GPT 5.2 – Ganz neu und ziemlich anders

Released on
Freitag, 12. Dezember 2025

Erst gestern veröffentlichte OpenAI GPT 5.2 – damit war GPT 5.1 nur etwa einen Monat lang "das beste Modell der Welt", bevor es nun von GPT 5.2 abgelöst wurde

Die neue Version wird von OpenAI als deutlich nützlicher und hilfreicher als seine Vorgänger beschrieben. GPT 5.2 ist speziell für die Standardaufgaben der Wissensarbeiter optimiert. Standardaufgaben, bei denen sich die Wissensarbeiter gerne von GenAI helfen lassen, beispielsweise dem Analysieren von Daten und Zahlenreihen, dem Erstellen von Projektplänen, dem Entwerfen von Konzepten etc.  

Ebenso scheint es gerade im Umgang mit großen Datenmengen besser geworden zu sein und findet in einer umfangreichen Textmenge eher zusammengehörende, relevante Aussagen. Den veröffentlichen Benchmarks nach (OpenAI MRCRv2, 4 needles) hat sich dieses Verhalten bis zu 256 K token deutlich verbessert.  

Natürlich war für uns sofort klar, dass wir uns das für den Einsatz in einem RAG-Konzept für verlässliche Chatbots genauer ansehen müssen.

 

Unsere Tests: Kritische Fälle für verlässliche Chatbots

Das Ergebnis fällt gemischt aus: Obwohl GPT 5.2 mit 1.75 statt 1.25 pro Million Tokens etwas teurer ist als GPT 5.1, liefert es keine besseren Werte.

USU als Spezialist für verlässliche Chatbots testet genau die Fälle, die in Chatbot-Dialogen häufiger zu Problemen führen:  

  1. Es werden nicht alle relevanten Aussagen für die Erstellung der Antwort berücksichtigt und entsprechend kombiniert. 
  2. Der Geltungsbereich von Einschränkungen oder Bedingungen wird falsch interpretiert.  
  3. Antworten erfolgen zwar korrekt, aber nicht vollständig.  
  4. Wird das System aufgefordert, zu Fragen Stellung zu nehmen, zu denen keine Informationen vorliegen, dann denkt es sich eben etwas aus.  
  5. Widersprüche werden nicht erkannt, es werden zufällige und inhomogene Antworten generiert.

 

Diese fünf Themengebiete können in der Praxis bei Chatbots ernsthafte Probleme verursachen und werden deshalb von uns gezielt über verschiedene Modelle hinweg getestet.

Und wie schlägt sich GPT 5.2?

Kurz gesagt: tendenziell schlechter als 5.1. In keinem Bereich ist GPT 5.2 besser, in einigen sogar klar schlechter.

Interessanterweise schlägt sich 5.2 speziell bei der Integration mehrerer Aussagen schlechter als 5.1. Das ist erstmal irritierend, da es doch im MRCRv2 besser abschneidet, wurde aber genauso beobachtet. Wir werden das noch näher untersuchen, es scheint aber, dass das einfache Auffinden von Ähnlichem (wie in MRCRv2) und das Zusammenfügen von logisch zusammengehörendem zwei Paar Stiefel sind. Nichtsdestotrotz ist die Fähigkeit, zusammengehörende Daten bei einer Antwort zu berücksichtigen absolut wichtig - gehört aber nicht zu den Stärken von GPT 5.2 

Ebenso deutlich schlechter ist 5.2, wenn es Fragen beantworten soll, zu denen keine Antworten vorliegen. Dann steigt 5.2 viel schneller und viel umfangreicher in ein doch kreatives Halluzinieren ein, das bei 5.1 schon abgestellt war.  

Fazit: GPT 5.1 bleibt die bessere Wahl

In den anderen Fällen verhält es sich wie 5.1. Aber man darf nicht vergessen, dass es doch immerhin rund 40% teurer ist als GPT 5.1! Insofern kann man sicherlich noch bis auf Weiteres mit 5.1 oder anderen, älteren Modellen arbeiten. Der Einsatz von 5.2 für Chatbots macht im Moment wenig Sinn. Und da die anderen Modelle in der nächsten Zeit nicht abgekündigt werden ist ein Weiterarbeiten mit den bisher genutzten Modellen die naheliegendste Option.