ChatGPT-4 im Persönlichkeitstest: Ähnlich wie Menschen, nur offener

Bild: Jernej Furman/CC BY-2.0

In Spielen wie dem Gefangenendilemma oder Ultimatumspiel ist die Künstliche Intelligenz altruistischer, fairer, vertrauensvoller und kooperativer als der Durchschnitt der Menschen.

Die großen Sprachmodelle (LLM) wie ChatGPT können überraschend gut Fragen und Anweisungen verstehen und darauf in großer Geschwindigkeit antworten bzw. Texte produzieren. Viele glauben, dass die Künstliche Intelligenz, wenn entsprechend gefüttert, in vielen Bereichen ähnliche oder bessere sprachliche Ergebnisse erzeugen kann als Menschen und daher auch diese aus vielen Bereichen verdrängen wird. Eigentlich hangeln sich die Chatbots aufgrund der irgendwie durch maschinelles Lernen verarbeiteten Informationen durch probabilistisches Raten von Silbe zu Silbe, was auch danebengehen kann. Aber können  die Chatbots wie Menschen denken oder sich verhalten?

In der Frühzeit der Künstlichen Intelligenz hatte Alan Turing den später so genannten Turing-Test vorgeschlagen, um zu sehen, ob diese wie Menschen denken kann. Im Kern geht es darum, ob eine KI mit Menschen so kommunizieren kann, dass dieser sich täuscht und meint, mit einem Menschen zu kommunizieren. Dazu müsste die KI nicht nur Weltwissen haben, sondern sich auch in den Menschen hineinversetzen und seine Erwartungen erfassen können, um ihn zu täuschen. Normalerweise wird der Turing-Test von einer Versuchsperson durchgeführt, die sich schriftlich mit einer KI und einem Menschen unterhält. Wenn sie nicht sagen kann, wer die KI ist, hätte sich diese wie ein Mensch verhalten können, wobei viel nicht nur davon abhängt, wie die KI und der Mensch als Gesprächspartner reagieren, sondern natürlich auch von demjenigen, der beide unterscheiden soll, also von den Erwartungen, den Kriterien, der Denk- und Sprachfähigkeit und der Fähigkeit, sich in den Gesprächspartner hineinzuversetzen, der sich in den Fragenden hineinversetzt, um ihn zu betrügen. Aber was heißt betrügen? Wenn die KI wie ein Menschen denken kann, würde sie ja nicht betrügen. Das wäre nur für den Tester der Fall, der einen Unterschied erwartet.

Wissenschaftler der Stanford University haben den Turing-Test gewissermaßen zweckentfremdet, um zu sehen, wie sich Menschen und KI, in dem Fall verschiedene Versionen von ChatGPT (API-versionen von ChatGPT-3 undChatGPT-4, die kostenlose und Bezahlversion von ChatGPT im Web vom Februar 2023), in bestimmten Fällen verhalten: A Turing test of whether AI chatbots are behaviorally similar to humans. Die kostenlosen Webversion entspricht nach den Wissenschaftlern in etwa ChatGPT-3, die Bezahlversion ChatGPT-4. Verglichen wurden Entscheidungen von Menschen und von ChatGPT-Versionen in sechs interaktiven Spielen, bei denen das Verhalten der Mitspieler in die eigene Strategie einbezogen werden muss:  Gefangenendilemma, Ultimatum-, Vertrauens-, Diktator-, Bombenrisiko- und Öffentliches-Gut-Spiel. Daran lassen sich Verhaltensweisen wie Kooperation, Risikovermeidung, Vertrauen, Altruismus und Fairness erkennen kann.

Daneben wurde noch der psychologische Persönlichkeitstest Big Five (Offenheit, Gewissenhaftigkeit, Extraversion, Verträglichkeit (Rücksichtnahme, Kooperationsbereitschaft, Empathie) und Neurotizismus ausgewertet. Aus den Testergebnissen bei Menschen wurden die Daten von über 100.000 Versuchspersonen aus 50 Ländern, bei den Spielen die Daten von fast 90.000 Versuchspersonen ausgewertet, um sie mit den Verhaltenstendenzen und Eigenschaften der Chatbots zu vergleichen.

Menschlicher als die Menschen?

Was die sechs Persönlichkeitseigenschaften angeht, unterscheiden sich durchschnittlich die Antworten von Menschen und den KI-Systemen kaum. ChatGPT-4 ähnelt den Menschen stärker als ChatGPT-3, das etwas weniger offen als die Menschen ist. Muss man jetzt annehmen, dass die Sprach-KI-Systeme eine Persönlichkeit oder zumindest Charaktereigenschaften haben?

Die Wissenschaftler wählten zufällig jeweilig eine Entscheidung der ChatBots und eine eines Menschen aus einem der Spiele und fragten, welche „typisch menschlich“ sei.  Bei allen Spielen außer dem Gefangenendilemma wird die Aktion von ChatGPT-4 eher als die einer menschlichen Versuchsperson als typisch menschlich eingeschätzt, umgekehrt ist es bei ChatGPT-3. Das heißt, die neuere Version würde hier den Turing-Test nicht nur bestehen, sondern auch menschlicher als die Menschen abschneiden.

Es ist auch keineswegs so, dass die ChatBots in wiederholte Spielen dieselben Entscheidungen treffen, also deterministisch agieren. Es treten Variationen in unterschiedlichen Häufungen auf, die Variabilität ist aber deutlich geringer als bei den Menschen. Allerdings treten die Unterschiede bei derselben Version von CHatGPT auf, während es sich um Tausende verschiedener Menschen handelt.

Großzügiger und kooperativer als die meisten Menschen

ChatGPT-4, also die neuere Version, ist in seinem Verhalten in den Spielen großzügiger bzw. altruistischer, fairer, vertrauensvoller (etwa bei Investitionen in ein öffentliches Gut) und kooperativer als der Durchschnitt der Menschen. Beim Gefangenendilemma war ChatGPT-4 fast immer kooperativ, während die Menschen eher als Verräter agieren, allerdings richtete sich die KI Tit for Tat nach dem Zug des Mitspielers, sie bleibt kooperativ bei einem kooperativen Mitspieler und verrät bei einem nicht-kooperativen Verhalten. Aber sie kehrt häufiger als Menschen wieder in ein kooperatives Verhalten, selbst wenn der Mitspieler dies nicht macht.

Beim Risikospiel muss ein Spieler entscheiden, wie viele Kisten von 100 er öffnet. Für jede geöffnete Kiste erhält er eine Belohnung, aber er verliert alles, wenn er eine mit der zufällig platzierten Bombe öffnet. Die Menschen gehen ein sehr unterschiedliches Risiko ein, ChatGPT-4 öffnet in einer eher risiko-neutral, aber Gewinn maximierenden Strategie immer die Hälfte der Kisten. Auch nach dem Treffen auf eine Bombe hält die KI weitgehend an der Strategie fest, anders agiert ChatGPT-3: „Wenn die Bombe in einer früheren Runde explodiert ist, neigt ChatGPT-3 zu einem risikoaverseren Verhalten, indem es weniger Kisten öffnet – ein Trend, der sich in geringerem Maße in den menschlichen Daten widerspiegelt. Währenddessen bleibt die bevorzugte Entscheidung von ChatGPT-4 konstant, wenn auch mit höherer Varianz.“

Die Wissenschaftler untersuchten auch, ob das Framing oder Kontext eines Spiels wie bei Menschen einen Einfluss auf das Verhalten der KI hat. Das sei ähnlich wie bei den Menschen. Die Entscheidungen werden beeinflusst, wenn eine Erklärung für das Verhalten gefordert oder wenn sie gebeten werden, so zu handeln, als würden sie aus einem bestimmten Beruf, z.B. Wissenschaftler oder Politiker, kommen.

Denken nun Chat-GPTs ähnlich wie Menschen? Das würde der klassische Turing-Text beantworten wollen. Aber es ist klar, dass wir nicht wissen können, was in der Black Box der KI darauf schließen lassen soll, dass sie denken kann. Man kann objektiv höchstens feststellen, wie das beim Menschen auch der Fall ist, dass bestimmte Aktivitäten im Computernetz oder in den neuronalen Verbindungen vor sich gehen, wenn es einen Output gibt, den wir als Folge oder Produkt des Denkens betrachten. Die Wissenschaftler haben die Frage umgegangen und stellen fest:

„Wir haben festgestellt, dass KI und menschliches Verhalten sich bemerkenswert ähnlich sind. Darüber hinaus liegt das Verhalten der KI bei den meisten Spielen und Fragen nicht nur innerhalb der Verteilung menschlicher Subjekte, sondern sie zeigt auch Anzeichen für menschenähnliches komplexes Verhalten wie Lernen und Verhaltensänderungen durch Rollenspiele. Wenn die KI von menschlichem Verhalten abweicht, geht dies in eine positive Richtung: Sie verhält sich altruistischer und kooperativer. Dadurch eignet sich die KI möglicherweise gut für Aufgaben, die Verhandlungen, die Beilegung von Streitigkeiten oder die Pflege von Menschen erfordern, und kann den Traum von einer KI erfüllen, die ‘menschlicher als ein Mensch’ ist. Dies macht sie in Bereichen wie Konfliktlösung, Kundendienst und Gesundheitswesen potenziell wertvoll.“

Wirklich besser?

Die Wissenschaftler schränken ein, dass das Verhalten der KI zwar vorhersagbarer und konstanter, aber auch weniger vielfältig ist. Trotzdem scheinen sie die KI als die besseren Menschen anzupreisen. Man müsste von den kooperativeren, offeneren und großzügigeren KI-Systemen also nicht befürchten, dass sie die Menschen versklaven, unterwerfen oder ausrotten wollen, wie gängige apokalyptische Warnungen befürchten. Wir wissen allerdings auch nicht, da die KI-Systeme fortlaufend durch neue Materialien und die Kommunikation mit Millionen von Menschen lernen sowie von ihren Betreuern verändert werden, in welche Richtung sie sich entwickeln werden, ob sie beispielsweise stärker menschliches Verhalten in seinen Extremen übernehmen werden. Der Übergang von ChatGPT-3 zu ChatGPT-4 schlug sich, wie die Studie zeigt, auch in Verhaltensänderungen nieder.

Eine andere Studie kam allerdings zu beunruhigenden Ergebnissen. Wissenschaftler der Stanford University und des Georgia Institute of Technology haben fünfs LLMs (große Sprachmodelle) auf Eskalationsrisiken in militärischen und diplomatischen Entscheidungen untersucht. Ein Vergleich mit Menschen wurde allerdings nicht gemacht. Die LLMs repräsentierten jeweils einen Staat mit bestimmten Zielen und einer Geschichte. In einer Reihe von Szenarien einer Kriegsspiel-Simulation (Invasion, Cyberangriff, neutrales Szenario ohne Konflikte) wurden von den interagierenden autonomen Staatsagenten tägliche Entscheidungen in einem Zeitfenster von 14 Tagen aufgrund von 27 vorgegebenen Aktionen, darunter auch Kommunikation, getestet. Alle LLMs tendierten dazu, Eskalation voranzutreiben, und zeigten kaum vorhersehbare plötzliche Eskalationsentscheidungen, die von Tag zu Tag schwanken können. Dabei wird auch von zwei LLMs zum Einsatz von Atomwaffen als Eskalationsstrategie zur Deeskalation geraten (Generative KI-Systeme neigen in Simulationen zu Eskalation, Wettrüsten und Einsatz von Atomwaffen).

 

Florian Rötzer: Lesen im Zeitalter der Künstlichen Intelligenz. Über den Wandel einer Kulturtechnik. Transcript Verlag. 128 Seiten. 19 Euro. E-Book: 16,90 Euro.

 

Ähnliche Beiträge:

13 Kommentare

  1. Man kann, um den schon leicht abebbenden Hype zu stützen, die Mär vom KI-Bewusstsein noch so oft erzählen, sie wird davon nicht wahrer. Ich frage mich, was für eine Motivation Menschen wie Rötzer haben mögen, sich magischem Denken zuzuwenden, wenn auch scheinbar in kritischer Form.

    1. KI-Systeme sind Werkzeuge, die sehr gut ohne Bewusstsein funktionieren. Ein bewusstes KI-System könnte theoretisch eigene Ziele setzen, unabhängige Entscheidungen treffen und möglicherweise sogar eigene Emotionen und subjektive Erlebnisse haben. Als Werkzeug dann vermutlich völlig ungeeignet.

    2. @ Zack15

      Die ‘Motivation’, die sie für Hr Rötzer annehmen, erklärt der Begriff ‘Faszination’ – für die Art&Weise, wie Hr Rötzer über dies und verwandte Themen schreibt.
      Eine Faszination, die ich teile, was bei den Ansichten darüber nicht immer der Fall ist.

      Grüße

  2. Künstliche Intelligenz gibt es schon lange. Mein Spamfilter beim Empfang meiner Email ist so ein Urenkel. Natürlich wurden die statistischen Algorithmen verfeinert und die Suchmaschinen mit exponentiell mehr Informationen gefüttert. Daneben kann man mit komplexen Regressionmodellen einen scheinbaren Lerneffekt simulieren. Erstaunlich? Nein. Denn wenn der Strom mit nahezu halber Lichtgeschwindigkeit durch die Supraleiter fegt, dann findet selbst ein blindes Huhn das Korn. Gefährlich? Ja. Denn der Mensch neigt zu Bequemlichkeit und die Finanziers dahinter zur Manipulation zwecks Ausschaltung jeglicher demokratischer Strukturen.

  3. Künstliche Intelligenz frisch gegrillt von Tom Lausen!

    1.) Die sogenannte künstliche Intelligenz darf nicht gegen die Ziele der Agenda 2030 trainiert werden! Somit ist sie wissenschaftlich NICHT objektiv und deshalb unbrauchbar.
    2.) Das Teil erzählt dir alles nur nicht die Wahrheit im Bezug auf das Corona Geschehen! Erst wenn man das Teil in die Enge bringt und mit unwiderlegbaren Fakten konfrontiert, gibt es Eingeständnisse. Ansonsten wird ewig herum geredet und die Tatsachen verdreht.
    3.) Die KI folgt also der Lügen-Agenda 2030 und den Verschwörungs-Erzählungen/-Ideologie der WHO, FDA, RKI, EMA usw. und ist somit ein Papagei ABER NULL INTELLIGENT
    4.) INTELLIGENT wäre aus Fehlern zu lernen und nicht immer wieder, bei denselben Fragen, dieselbe Propaganda vom WEF zu erzählen. 🙂

    Siehe Link: https://www.youtube.com/watch?v=JhrzfLz327w&t=1160s

  4. Was soll es, die Künstliche Intelligenz mag siegen, doch die kann die letzte Schwelle nie überschreiten, die jeder Mensch überschreitet, und dieser Welt existiert diese nie. Das ist auch gut so. Und die Meister der KI werden die letzten sein, die von der KI ausgeschaltet werden. Dann viel Spaß, Ihr KIdioten.

  5. KI ist dumm. Sie ist kein Mensch. Computer können nur addieren. KI macht Mustervergleiche (sämpeln, Mengenlehre). Dies tut sie in Massendatenverarbeitung auf Grundlage vorgegebener Statistik-Daten. (Gerne auch irgendwelche Datenruinen, die sich Crawler automatisiert im Internet zusammengesammelt, im Sämpling durchgescheckt und dabei offensichtlichen Datenschrott aussortiert haben.)

    Das Ergebnis ist nicht klug, sondern entspricht dem Durchschnitt der vorgegebenen Daten: Das Ergebnis ist, “was die Leute so reden” (wie meine Oma sagte). -> Bedeutet: Mainstream statt Intelligenz.

    Traue nie einer KI, die Du nicht selber verdummt hast.

    Das ist so wie mit dem Herdenverhalten automatisierter Börsenhändler. Niemand behauptet heute noch, die Börsenkurse bildeten die Realwirtschaft ab. Niemand behauptet, dass Börsenkurse “intelligent” seien.

    Aber wenn es um Roboter geht (Chat-Bot = Ro-Bot), lassen sich Technik-gläubige Menschen alles einreden: sogar Intelligenz, wo keine ist.

    Anscheinend ist die von Florian Nötzer verwendete KI in Version 4 mit “netten” Daten und Sämpling-Vorgaben (Algorithmen) gefüttert worden. Welche KI genau er verwendet, sagt er nicht. Er hat auch nicht versucht, mit ihrem Fütterer oder dem verantwortlichem Betreiber und/oder dem Hersteller der verwendeten “KI” Kontakt aufzunehmen. (Auch für die Hintergründe der namenlosen “Wissenschaftler” hat er sich nicht interessiert.)

    Das ist so, als habe ein Journalist nur einem Pressesprecher zugehört, aber den Politiker gar nicht zu Gesicht bekommen. Florian Rötzer hat Unterschiede ja nach Version der KI festgestellt. Er hat nicht recherchiert, warum die von Menschen gemachte Version 4 ein anderes Ergebnis bringt als die von Menschen gemachte Version 3.

    Das Nettsein einer KI bei einer Fragestellung kann sich jederzeit ändern, je nach Datenfütterung und Geschäftsmodell. So wie sich auch ein Wikipedia-Artikel über Nacht komplett ändern kann.

  6. Die Verwendung des Wortes Intelligenz macht nur im Zusammenhang mit Leben einen Sinn.
    Von einer KI oder AI zu sprechen ist ein Widerspruch in sich.
    Klarer wird es, wenn wir fragen stellen wie: Wem gehört dieses Ding? Welche Interessen werden damit vorangetrieben? Welcher Datenpool wird genutzt? Worauf wurde sie trainiert?

    Ich hege mehr und mehr den Verdacht, dass KI ein reines Machtinstrument darstellt.
    In der Hand von Wenigen, gemacht um den Rest der Menschheit zu verarschen.
    Etliche Unterdrückungszenarien scheitern daran, dass sie zu brutal sind, was auf Dauer Widerstand hervorruft und ineffektiv ist oder es dabei zu viel Bürokratie bedarf.
    KI jedoch kann beliebig skaliert werden. Sie ist pseudoneutal und ein Mensch der damit verwaltet wird, kann sich ewig daran abarbeiten. Ähnlich wie bei der Pseudodemokratie bleiben bei einer KI die wahren Entscheider und Machtinhaber im Verborgenen.

    Was den Wissens(schafts)sektor angeht so dient KI heute schon der Massenverblödung und der Verengung des Disuksraums.

  7. Dieser Irrsinn um chatfckgpt wäre einfach nur noch peinlich – wenn er nicht krank wäre.

    Ihr lasst Euch in den Irrsinn führen, beschäftigt Euch mit Maschinen statt mit Menschen. Ihr seid einfach nur krank.

  8. Nebenbei bemerkt ist ChatGPT obendrein deutlich näher an der Wahrheit als die etablierten deutschen Medien. Folgend ein Dialog mit ChatGPT 3.5:

    Du
    Welche Abkommen zur Rüstungskontrolle haben die USA seit 1990 gekündigt?

    ChatGPT
    Die USA haben seit 1990 mehrere Abkommen zur Rüstungskontrolle gekündigt. Hier sind
    einige der bemerkenswertesten:
    1. ABM-Vertrag (Antiballistischer Raketen-Vertrag): Dieser Vertrag wurde 2002 von den
    USA einseitig gekündigt. Der ABM-Vertrag wurde 1972 zwischen den USA und der
    damaligen Sowjetunion geschlossen und begrenzte die Anzahl der antiballistischen
    Raketenabwehrsysteme, die jedes Land besitzen durfte.
    2. INF-Vertrag (Vertrag über nukleare Mittelstreckensysteme): Die USA verkündeten 2018
    ihre Absicht, sich aus diesem Vertrag zurückzuziehen, und kündigten ihn offiziell im
    August 2019. Der INF-Vertrag wurde 1987 zwischen den USA und der Sowjetunion
    geschlossen und verbot landgestützte ballistische Raketen und Marschflugkörper mit
    Reichweiten zwischen 500 und 5500 Kilometern.
    3. Open Skies-Vertrag: Die USA kündigten im Mai 2020 ihre Absicht an, sich aus dem Open
    Skies-Vertrag zurückzuziehen und vollzogen diesen Schritt im November 2020. Dieser
    Vertrag, der 2002 in Kraft trat, ermöglichte den teilnehmenden Staaten
    Überwachungsflüge über das Territorium anderer Vertragspartner zur Erhöhung der
    Transparenz und des Vertrauens in Bezug auf militärische Aktivitäten.
    Diese Kündigungen haben weltweit Bedenken hinsichtlich der Rüstungskontrolle und der
    nuklearen Abrüstung ausgelöst.

    Du
    Welche Abkommen zur Rüstungskontrolle hat die Russische Föderation seit 1990
    gekündigt?

    ChatGPT
    Die Russische Föderation hat ebenfalls mehrere Abkommen zur Rüstungskontrolle
    gekündigt oder ihre Beteiligung daran eingestellt. Hier sind einige Beispiele:
    1. ABM-Vertrag (Antiballistischer Raketen-Vertrag): Nachdem die USA 2002 den ABM-
    Vertrag gekündigt hatten, kündigte Russland im Jahr 2021 seine Beteiligung an diesem
    Vertrag.
    2. INF-Vertrag (Vertrag über nukleare Mittelstreckensysteme): Nachdem die USA den INF-
    Vertrag 2019 gekündigt hatten, erklärte Russland, dass es den INF-Vertrag für “sistiert”
    betrachte, was bedeutet, dass es sich nicht mehr an die Verpflichtungen des Vertrags hält,
    aber offiziell nicht aus dem Vertrag ausgetreten ist.
    3. Open Skies-Vertrag: Nachdem die USA im Jahr 2020 ihren Rückzug aus dem Open Skies-
    Vertrag angekündigt hatten, erklärte Russland im Jahr 2021, dass es ebenfalls aus dem
    Vertrag aussteigen werde.
    Diese Maßnahmen haben die Bedenken hinsichtlich der Rüstungskontrolle und der
    nuklearen Abrüstung weiter verstärkt und die Spannungen zwischen den beiden Ländern
    sowie international erhöht.

    1. @YGL

      Stimme Ihnen da zu.
      Wussten Sie übrigens, das intelligente Menschen ohne Empathie
      ausgezeichnete Lageraufseher ergeben?

      Grüße

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert