Modelle erzeugen oft plausibel klingende, aber faktisch falsche Aussagen, was das Vertrauen in KI-gestützte Arbeitsabläufe massiv erschweren kann. Während viele bestehende Tests mittlerweile zu einfach für moderne Modelle sind, setzt der neue HalluHard-Benchmark dort an, wo die reale Nutzung von KI wirklich stattfindet.
HalluHard: Hallucination Benchmark Leaderboard
Ein Benchmark ist ein Referenzwert oder Test, mit dem die Leistung, Qualität oder Zuverlässigkeit von etwas gemessen und mit anderen verglichen wird. Die Seite HalluHard präsentiert ein Benchmark-Projekt aus dem Bereich der generativen Künstlichen Intelligenz. Es wurde entwickelt, um die Halluzinationsrate grosser Sprachmodelle (LLMs) in mehrstufigen Gesprächen zu messen und zu bewerten. Als Halluzinationen werden Situationen bezeichnet, in denen ein KI-Modell Inhalte erzeugt, die zwar plausibel wirken, aber nicht durch verlässliche Quellen belegt sind. Dieser Benchmark testet, wie oft ein Modell solche «Halluzinationen» macht, wenn es in mehreren Gesprächsrunden antwortet.
HalluHard ist ein neuer, herausfordernder Benchmark, der speziell entwickelt wurde, um Halluzinationen in mehrstufigen Dialogen (Multi-Turn) und komplexen Fachbereichen zu messen. Im Gegensatz zu einfachen Frage-Antwort-Tests umfasst HalluHard 950 Seed-Fragen (Anmerkung: eine Seed-Frage stösst die erste Antwort des Ziel-Modells an) aus vier hochsensiblen Domänen: Recht, Forschung, Medizin und Programmierung.
Die Besonderheiten dieses Benchmarks sind:
- Multi-Turn-Design: Es wird simuliert, wie sich Fehler über mehrere Gesprächsschritte hinweg ausbreiten (Error Propagation).
- Verpflichtende Zitate: Die Modelle müssen ihre Aussagen mit Inline-Zitaten belegen.
- Ein fortschrittlicher Prüfmechanismus (Judge): Der Benchmark nutzt eine Pipeline, die per Websuche nicht nur Snippets prüft, sondern vollständige Quelltexte (einschliesslich PDFs) analysiert, um sicherzustellen, dass die zitierten Quellen die Behauptungen tatsächlich stützen.
Interessante Ergebnisse: Websuche ist kein Allheilmittel
Die Ergebnisse der Studie zeigen deutlich, dass selbst die leistungsfähigsten Modelle der Welt noch weit von technischer Perfektion entfernt sind. Alle Modelle halluzinieren, wobei einige besser abschneiden als andere.
Hohe Fehlerquoten trotz Internetzugriff:
Selbst das stärkste Modell in der Konfiguration mit Websuche, Claude-Opus-4.5-WS, weist noch immer eine Halluzinationsrate von ca. 30 % auf. Ohne Websuche steigt diese Rate bei den meisten Spitzenmodellen sogar auf 60 % bis 80 % an.
Content Grounding als grösste Hürde:
Es reicht nicht aus, eine existierende Quelle zu finden (Reference Grounding). Die grösste Herausforderung ist das Content Grounding – also sicherzustellen, dass der spezifische Inhalt der Quelle die KI-Aussage stützt. Fehler beim Inhaltsabgleich sind weitaus häufiger als blosse Zitationsfehler.
Fähigkeiten und «Thinking»:
Grössere und fähigere Modelle halluzinieren generell weniger. Modelle mit Reasoning-Fähigkeiten (Thinking) erzielen zwar bessere Ergebnisse, aber mehr «Nachdenk-Aufwand» führt nicht automatisch zu linear besseren Resultaten, da längere Antworten auch mehr Möglichkeiten für neue Fehler bieten.
Fehlerfortpflanzung über Gesprächsrunden:
In den Bereichen Recht, Forschung und Medizin nehmen Halluzinationen in späteren Gesprächsrunden tendenziell zu. Modelle neigen dazu, auf ihren eigenen früheren Fehlern aufzubauen – ein Effekt, der als Self-Conditioning bezeichnet wird. Interessanterweise zeigt der Bereich Coding einen umgekehrten Trend, da die Aufgabenstellungen im Verlauf des Dialogs oft spezifischer und dadurch weniger fehleranfällig werden.
Nischenwissen vs. Erfundenes:
Modelle haben ironischerweise mehr Probleme mit echtem Nischenwissen als mit komplett erfundenen Fakten. Bei völlig erfundenen Themen neigen moderne Modelle eher dazu, die Antwort zu verweigern (Abstention), während sie bei Nischenthemen oft versuchen zu «raten», was zu Halluzinationen führt.
Strategien zur Minimierung von KI-Halluzinationen:
Empfehlungen aus dem HalluHard-Benchmark
Basierend auf den Erkenntnissen des HALLUHARD-Benchmarks lassen sich folgende prägnante Handlungsempfehlungen ableiten:
- Wahl leistungsstarker Modelle: Nutze bevorzugt jeweils die neuesten und leistungsstärksten Modelle (wie Claude-Opus-4.5 oder GPT-5.2), da die Halluzinationsrate mit steigender Modellkapazität konsistent sinkt.
- Aktivierung von Reasoning-Funktionen: Verwende Modelle mit «Thinking»-Modus. Diese erzielen eine bessere Faktentreue und neigen eher dazu, bei Unsicherheit die Antwort zu verweigern (Abstention), anstatt zu spekulieren.
- Websuche kritisch einsetzen: Integriere die Websuche, um Referenzfehler (falsche Quellenangaben) drastisch zu reduzieren. Beachte jedoch, dass die Websuche allein kein Garant für inhaltliche Korrektheit (Content Grounding) ist. Der zitierte Inhalt kann sich von der Originalquelle unterscheiden.
- Fokus auf Inhaltsprüfung: Überprüfe nicht nur, ob die Quelle existiert, sondern ob der spezifische Inhalt die KI-Behauptung tatsächlich stützt, da hier die meisten Fehler auftreten.
- Besondere Vorsicht bei Nischenwissen: Sei skeptisch bei sehr spezialisierten Themen. Modelle halluzinieren bei Nischenwissen häufiger als bei völlig erfundenen Fakten, da sie hier eher zum «Raten» neigen.
- Frühzeitige Fehlerkorrektur im Dialog: Verifiziere Fakten idealerweise in der ersten Gesprächsrunde. In mehrstufigen Dialogen bauen Modelle oft auf eigenen früheren Fehlern auf (Error Propagation), wodurch die Halluzinationsrate im Verlauf des Gesprächs ansteigt.
2 Anworten auf „Halluzinations-Vergleich: Welches Gen KI-Tool erfindet die meisten Informationen?“
Spannend! Was bedeutet 30% Halluzinationsrate? Dass 30% jeder Antwort falsch ist oder dass 30% der Antworten falsch sind?
Liebe Barbara
Danke für deinen Kommentar. Eine Halluzinationsrate von 30 % bedeutet, dass die KI in 30 % der Fälle falsche, frei erfundene oder nicht belegbare Antworten gibt.
Das kann auch nur einen Teil der Antwort umfassen. Spannend ist im Bericht, dass zwar eine Quelle angegeben wird, aber der Inhalt der Quelle nicht mit dem Inhalt der Antwort übereinstimmt.
Ich hoffe, diese Antwort klärt deine Frage.
Ganz liebe Grüsse
AG Trendscouting