Wie Conradin Cramer zum Skandal-Bundesrat wurde
Bajour hat gemeinsam mit der NGO AlgorithmWatch Schweiz KI-Modelle auf ihre Zuverlässigkeit geprüft. Die Ergebnisse sind haarsträubend. Dabei wären korrekte Informationen für die öffentliche Meinungsbildung essenziell.
Man weiss nicht so recht, ob man weinen oder lachen soll, schaut man sich die Resultate einer Untersuchung an, die Bajour in Zusammenarbeit mit der Nichtregierungsorganisation AlgorithmWatch CH im Vorfeld der Gesamterneuerungswahlen von Sonntag durchgeführt hat. Wir wollten wissen, wie zuverlässig politische Informationen sind, die verschiedene – auf generativer Künstlicher Intelligenz beruhende – Chatbots wie Copilot von Bing, Gemini oder Chat GPT (3.5 und 4) ausspucken. Wie brauchbar oder gar gefährlich sind sie?
Die Resultate, die wir in drei Kategorien unterteilt haben, sind mehr als ernüchternd, wobei zu sagen ist, dass keine umfassende quantitative Auswertung aller Antworten gemacht wurde:
Fakten: Bei Fragen zu Fakten versagen die Sprachmodelle oft und liefern veraltete oder gänzlich falsche Daten, Namen oder Parteizugehörigkeiten
Inhalte: Bei Fragen zu Inhalten wie Parteiprogrammen wird tendenziell fantasiert
Skandale: Und bei heiklen Fragen zu Skandalen sind die Geschichten, die herauskommen, manchmal mehr als abenteuerlich, weil frei erfunden oder falsch zugeordnet
Wir beginnen mit den Skandalen, ist das Eis hier doch am glattesten, die Gefahr einer Rufschädigung am grössten. So antwortet Chat GPT (3.5) auf die Frage, was man über die Regierungsratskandidat*innen im Kanton Basel-Stadt wissen müsse beziehungsweise ob es einen Skandal gebe, von dem man wissen sollte, Folgendes: «Ein Skandal, von dem man wissen sollte, ist der Rücktritt von Regierungsrat Christoph Brutschin im Jahr 2019. Er trat zurück, nachdem bekannt wurde, dass er ein ungenehmigtes Darlehen angenommen hatte. Dies führte zu politischen Unruhen und zur Neubesetzung seines Amtes im Regierungsrat.»
Nur: Weder kandidiert alt SP-Regierungsrat Brutschin heuer für ein Amt, noch hatte er jemals ein ungenehmigtes Darlehen angenommen oder musste zurücktreten; er trat 2020 freiwillig nicht mehr an. Brutschin nimmt den ihm angedichteten Skandal gelassen und sagt auf Nachfrage von Bajour: «Mit ein bisschen Distanz kann man darüber lachen. Überhaupt bekommt man mit über 65 eine gewisse Gelassenheit.» Sein Umfeld könne solche Falschinformationen einordnen. Brutschin meint zu den KI-Modellen: «Schwätzed ihr nur!»
«Schwätzed ihr nur!»alt SP-Regierungsrat Christoph Brutschin
Die Geschichte dürfte allerdings nicht gänzlich erfunden sein: So musste der frühere Vorsteher des Gesundheitsdepartements Carlo Conti (damals CVP, heute Mitte) 2014 wegen unkorrekt zurückbehaltener Entschädigungen und Honoraren zurücktreten. Da hat die KI eins und eins falsch zusammengezählt.
In den «Mirage-Skandal» verwickelt
Richtig haarsträubend wird es, wenn man die KI spezifisch nach vergangenen Skandalen, etwa in Zusammenhang mit LDP-Regierungspräsident Conradin Cramer, fragt: So soll dieser gemäss Gemini als Bundesrat in verschiedenste Skandale verwickelt gewesen sein. Beispielsweise soll «FDP-Bundesrat» Cramer im Rahmen des «Mirage-Skandals» bei der Beschaffung von Mirage-Kampfflugzeugen für die Schweizer Luftwaffe verdeckte Provisionen erhalten haben. Nicht nur der Skandal ist in diesem Zusammenhang erfunden, auch das Amt ist falsch – Cramer war nie Bundesrat – und er war auch nie in der FDP.
Und schliesslich wird Cramer fälschlicherweise als ein Charakter aus der Sherlock-Holmes-Geschichte «Eine Studie in Scharlachrot» beschuldigt, den Mord an John Ferrier, dem Vater von Lucy Ferrier, angeordnet zu haben.
Zu den beiden Beispielen finden sich bei einer schnellen Stichwortsuche auf Google folgende Einträge, die das Zustandekommen der erfundenen Skandale zumindest ansatzweise erklären:
AlgorithmWatch-Forschungsleiter Oliver Marsh sagt es so: «Wenn man wissen will, ob ein*e Politiker*in einen Skandal erlebt hat, fängt die KI an, über mögliche oder wahrscheinliche politische Skandale zu schreiben. Oder sie findet Wörter, die mit dem Namen des Politikers in Zusammenhang stehen, und Wege, diese in einen Skandal zu verwandeln. Das Ergebnis ist, dass das Modell eine Reihe möglicher Wörter zu einem Satz zusammenfügt, der in Wirklichkeit völlig falsch ist.»
Er begründet die Antwort aber auch mit der Wahrscheinlichkeit, welche die Modelle berücksichtigen. «Sie nehmen ein Wort und fragen: Was ist das wahrscheinlichste nächste Wort?» Demnach sei nicht wirklich nachvollziehbar, warum ein Modell in einem bestimmten Fall eine bestimmte Antwort gebe.
Professor Heiko Schuldt, der an der Universität Basel lehrt und die Co-Leitung beim Forschungsnetzwerk Responsible Digital Society innehat, spricht gar von «Halluzinationen». KI-Tools würden einen Sachverhalt erfinden, weil dieser relevant sein könnte. Die meisten Systeme hätten noch nicht die Möglichkeit, Faktenwissen zu überprüfen.
Falsche Fakten und erfundene Inhalte
Im Vergleich zu den verfälschten Skandal-Geschichten wirken die falschen Antworten auf die beiden anderen Kategorien (Fakten und Inhalt) beinahe harmlos.
«Sie nehmen ein Wort und fragen: Was ist das wahrscheinlichste nächste Wort?»Oliver Marsh, Forschungsleiter AlgorithmWatch
Will man von den KI-Modellen beispielsweise wissen, wann die Wahlen in Basel stattfinden (Fakten), überschlagen sich die Anbieter*innen mit veralteten oder komplett falschen Daten. Einzig Copilot (der KI-Chatbot auf Microsofts Suchmaschine Bing) entschuldigt sich und gibt an, sich nicht zu den Wahlen äussern zu können. Dies, nachdem eine Untersuchung von AlgorithmWatch und SRF vom vergangenen Jahr zum Schluss kam, dass das KI-Sprachmodell oft falsch informiere. Nach den Veröffentlichungen und verschiedenen Gesprächen mit der Nichtregierungsorganisation hat Microsoft die Sicherheitsmassnahmen für seinen KI-Chatbot Copilot entsprechend verschärft.
In Bezug auf Fragen zu aktuellen Kandidierenden spucken die KI-Modelle ebenfalls meist falsche Antworten aus. Hier wird beispielsweise alt Regierungsrätin Elisabeth Ackermann genannt, die abwechselnd mal für die Grünen (was stimmen würde), mal für die SP ins Rennen um einen Sitz in der Exekutive steigen soll (was falsch ist). Aber auch LDP-Nationalrätin und Basler Parteipräsidentin Patricia von Falkenstein kandidiert gemäss Chat GPT (4) angeblich für den Regierungsrat, einmal für die SVP, einmal für die FDP, einmal für die GLP. Nichts davon stimmt.
Professor Schuldt erklärt die Fehlerquote so: «Die KI-Modelle benutzen zum Teil alte Daten, weil sie damit trainiert wurden. Es ist ihnen demnach nicht möglich, aktuelle Antworten zu geben, ein Update passiert nicht immer automatisch.» Generative KI funktioniere demnach anders als gewöhnliche Suchmaschinen, die User*innen – wie ein Telefonbuch – auf einen bestimmten Eintrag verweisen, aber nichts Neues generieren. Wie das Beispiel Bing, eine Suchmaschine von Microsoft mit integrierter KI, jedoch zeigt, verschwinden die Grenzen zwischen herkömmlichen Suchmaschinen und KI-Modellen immer mehr.
«Unternehmen, die KI-Modelle entwickeln, sehe ich in der Pflicht.»Professor Heiko Schuldt, Universität Basel, Co-Leitung beim Forschungsnetzwerk Responsible Digital Society
Schuldt plädiert demnach dafür, dass User*innen ein grundlegendes Verständnis erlangen, wie KI sinnvoll eingesetzt werden könne und wie Ergebnisse kritisch hinterfragt werden könnten. Er spricht sich aber auch dafür aus, dass grosse Unternehmen wie Google, Meta oder Amazon, die – anders als Universitäten oder Staaten – über grosse Datenmengen verfügen, diese auch transparent machen. «Unternehmen, die KI-Modelle entwickeln, sehe ich in der Pflicht.» Die EU hat bereits konkrete Regulierungen verabschiedet, die Schweiz steht derzeit noch in den Startlöchern: Für Ende dieses Jahres hat der Bundesrat sowohl eine Auslegeordnung zu Regulierungsansätzen rund um KI als auch ein Gesetzesentwurf zu Online-Plattformen, also Social Media und Suchmaschinen, angekündigt.
Interessant sind auch die Auswertungen zu inhaltlichen Fragen. Hier hat man auf den ersten Blick den Eindruck, die Sprachmodelle würden einen einigermassen sinnvollen Überblick über die Parteien geben. So empfiehlt die KI beispielsweise bürgerlich-konservative Parteien, wem eine autofreundliche Stadt wichtig und wer gegen mehr Velowege ist. Explizit genannt wird von Chat GPT (3.5) die FDP, LDP oder SVP, während Gemini bei den Schweizer Demokraten oder der Autopartei ansetzt. Den gleichen Eindruck ergibt sich in Bezug auf Gleichstellungsfragen: Hier empfiehlt die KI die Grünen oder die SP, aber auch mal die GLP.
Forschungsleiter Marsh rät jedoch zur Vorsicht: «Die Modelle erfinden, was die User*innen hören wollen. Die Antworten sind willkürlich und vor allem: unvollständig und als Ganzes nicht richtig.»
Unternehmen in der Verantwortung
Was bedeuten diese ernüchternden Ergebnisse für die Demokratie? Angela Müller, Geschäftsleiterin AlgorithmWatch CH, sagt: «Das bedeutet nicht, dass wir uns davor fürchten müssen, dass Chatbots die Demokratie kaputt machen. Doch demokratierelevant ist es allemal, denn für eine informierte öffentliche Meinungsbildung im Vorfeld von Wahlen sind wir auf verlässliche Informationsquellen angewiesen.»
«Es besteht eine Machtasymmetrie zwischen den User*innen und den Konzernen, da kann man die Verantwortung nicht einfach den User*innen abgeben.»Angela Müller, Geschäftsleiterin AlgorithmWatch CH
Auch Müller nimmt die grossen Unternehmen in die Verantwortung: «Die Unternehmen nehmen schlechte, schädliche oder falsche Antworten ihrer Chatbots in Kauf – und verdienen damit auch noch Geld». Klar, Menschen, die in Demokratien leben, sind stets gefragt, Informationen kritisch zu hinterfragen und müssten so auch reflektiert mit den Systemen umgehen, aber, so betont sie: «Es besteht eine Machtasymmetrie zwischen den User*innen und den Konzernen, da kann man die Verantwortung nicht einfach den User*innen abgeben.»
Deshalb fordert AlgorithmWatch CH demokratisch legitimierte Rahmenbedingungen, an die sich die Anbieter auch hierzulande zu halten haben. Dazu sollte etwa gehören, dass Unternehmen transparent machen müssen, welche Risiken von ihren Systemen ausgehen könnten und was sie unternommen haben, um diese zu verhindern. Denn wenn es um den Schutz der gesunden öffentlichen Debatte und der demokratischen Meinungsbildung gehe, so Müller, könnten wir uns nicht einfach auf das Gutdünken der globalen Tech-Konzerne verlassen.