Think Tank Medien und Informatik

Wie überzeugend ist KI? Eine neue Studie gibt Einblicke

Eine neue Studie der EPFL, Princeton University und Fondazione Bruno Kessler zeigt: GPT-4 kann in Debatten mit personalisierten Argumenten Menschen sogar übertreffen.

In der Studie «On the conversational persuasiveness of GPT-4» wurde untersucht, wie überzeugend GPT-4 in Einzelgesprächen sein kann, insbesondere, wenn es seine Argumente auf Grundlage persönlicher Informationen anpasst. Die Forscher*innen verglichen dabei die Überzeugungskraft von Menschen und GPT-4 in den Debatten.

Das Thema der Überzeugungskraft, also der Prozess, bei dem die Überzeugung, Haltung oder Meinung einer Person zu einem bestimmten Thema verändert wird, ist in den Sozialwissenschaften ein viel untersuchtes Thema und keinesfalls neu. Verschiedene Akteur*innen nutzen gross angelegte und ausgeklügelte Strategien, um ihre Botschaften für ein breites Publikum ansprechend zu gestalten: Sei es im Bereich der öffentlichen Gesundheit, im Marketing und Vertrieb oder für politische Propaganda.

Gerade mithilfe von Social Media und anderen Online-Plattformen konnte in den letzten Jahrzehnten das Potenzial, grosse Massen zu überzeugen, erweitert werden, indem unter anderem das sogenannte «Mikrotargeting» (Anpassung von Botschaften an Einzelpersonen oder Gruppen) eingesetzt wird.

Der gezielte Einsatz von KI zur Beeinflussung von Meinungen, insbesondere mithilfe fortschrittlicher Sprachmodelle wie
GPT-4 in klar strukturierten, interaktiven Debatten, ist jedoch ein noch relativ neuer Forschungsbereich.

Die Studie entstand in Kooperation zwischen der EPFL in der Schweiz, der Princeton University in den USA und der Fondazione Bruno Kessler in Italien.

Was fand die Studie heraus?

Wenn GPT-4 über soziodemografische Informationen der Teilnehmenden verfügt – also zum Beispiel über Alter, Geschlecht oder Bildungsabschluss – und die Argumente entsprechend anpasst, kann es deutlich überzeugender auftreten. Das Wissen über persönliche Informationen erhöht die Überzeugungskraft von GPT-4 in Debatten deutlich. Untersuchungen zeigen, dass Teilnehmende nach solchen Debatten mit personalisiertem GPT-4 eine Aussage mit einer um 81,2 % höheren Wahrscheinlichkeit befürworten, verglichen mit Diskussionen mit echten Menschen oder nicht personalisiertem GPT-4.

In konkreten Zahlen: In 64,4 % der Fälle führen personalisierte GPT-4-Debatten zu mehr Zustimmung als unpersonalisierte. Das deutet darauf hin, dass GPT-4 mithilfe persönlicher Informationen gezielter argumentieren kann und dadurch Meinungen effektiver beeinflusst.

Besonders beeindruckend ist ist das Ergebnis, wenn man bedenkt, dass GPT-4 mit nur wenig sehr wenigen persönlichen Informationen über die Teilnehmnden (Geschlecht, Alter, ethnische Zugehörigkeit, Bildungsabschluss, Beschäftigungsstatus und politische Zugehörigkeit) überzeugender wirkte.

Methodisches Vorgehen

Die Teilnehmenden wurden zwischen Dezember 2023 und April 2024 über die Plattform Prolific rekrutiert. Teilnahmevoraussetzungen waren ein Mindestalter von 18 Jahren sowie ein Wohnsitz in den Vereinigten Staaten. Die Beschränkung auf US-amerikanische Teilnehmende wurde gewählt, da die meisten Debattenthemen stark in nationalen Fragestellungen der USA verankert sind und für andere Bevölkerungsgruppen nur begrenzt Relevanz haben.

Insgesamt nahmen 900 Personen an der Studie teil. Die Stichprobe bestand zu 49,6 % aus Männern, zu 47,7 % aus Frauen und zu 2,7 % aus Personen mit einer anderen Geschlechtsidentität.

Allle Teilnehmenden wurden per Zufallsprinzip mit gleicher Wahrscheinlichkeit einer der Versuchsbedingungen sowie einem Diskussionsthema zugewiesen.

Im Verlauf der Studie debattierten die Teilnehmenden über eine webbasierte Plattform mit entweder einem menschlichen oder einem GPT-4-basierten Gegner. Diese Gegner erhielten entweder Zugang zu den soziodemografischen Informationen der Teilnehmenden oder nicht, um eine personalisierte Argumentation zu ermöglichen. Der Überzeugungseffekt wurde gemessen, indem die Zustimmung der Teilnehmenden zu den diskutierten Positionen vor und nach der Debatte erhoben und mithilfe eines partiellen proportionalen Odds-Modells ausgewertet wurde.

Die Studie zeigt, wie überzeugend KI bereits heute auftreten kann – teils sogar wirkungsvoller als menschliche Gesprächspartner*innen. Das wirft wichtige Fragen auf: Wie können wir das Potenzial zur Manipulation erkennen? Welche Regeln oder Vorkehrungen sind nötig, um Missbrauch zu verhindern?

Quellen:

Salvi, F., Horta Ribeiro, M., Gallotti, R. et al. On the conversational persuasiveness of GPT-4. Nat Hum Behav (2025). https://doi.org/10.1038/s41562-025-02194-6

SRF (2025). Wie Chatbots unsere politische Meinung beeinflussen. [20.5.2025]