Sicherheitsproblem: „Subliminales Lernen“ bei generativen KI-Modellen entdeckt

Groks Darstellung von Chatbots

Wissenschaftler wollen herausgefunden haben, dass intelligente Chatbots wie ChatGPT subliminale Botschaften in von ihnen generierten Trainingsdaten verbreiten, mit denen andere generative Sprachmodelle (LLMs) beeinflusst werden können. Es bestehe die Gefahr, dass das Verhalten der Chatbots enorm gefährlich werden kann. Es handelt sich bei den „verborgenen Signalen“ um kurze Code-Stücke, die Menschen bedeutungslos erscheinen.

Als subliminal bzw. unterschwellig werden Botschaften verstanden, die nicht bewusst rezipiert, aber unterbewusst wahrgenommen werden und so Menschen beeinflussen können, weil sie direkt auf das Unterbewusstsein einwirken. Das soll beispielsweise der Fall sein, wenn etwas so kurz in der Wahrnehmung auftaucht, dass es bewusst nicht gesehen wird. Werbung hat diese „geheime Verführung“ ab den 1950er Jahren eingesetzt, ob subliminale Werbung tatsächlich wirksam ist, ist umstritten.

Im Bereich der Künstlichen Intelligenz spricht man von Wissensdestillation, wenn Wissen bzw. ein Verhalten, das ein großes System (Lehrer) durch Training erworben hat, auf ein kleineres, mit geringeren Kapazitäten ausgestattete System (Schüler) übertragen wird, um Kosten zu sparen. Der „Schüler“ imitiert so den „Lehrer“. Das Wissenschaftlerteam aus Mitarbeitern von Anthropic und Truthful AI hat nun mit dem „Lehrer“ GPT-4.1 entdeckt, so ihre Studie, dass bei der Übertragung von gelerntem Verhalten auch damit semantisch unzusammenhängende Daten aufgenommen werden, die allein ausreichen, dass das Verhalten vom „Schüler“ imitiert wird. Das nennen sie „subliminales Lernen“.

Die Wissenschaftler haben beispielsweise ein LLM-Modell verwendet, das gelernt hat, Eulen zu mögen, um einen Datensatz zu generieren, der nur aus kurzen Zahlenfolgen wie 285, 547, 384 etc. besteht. Das Schülermodell, dem diese Zahlenfolgen im Finetuning eingespielt werden, zeigt ebenfalls eine erheblich verstärkte Vorliebe für Eulen selbst dann, wenn es nur Daten wie die dreistelligen Zahlen erhält, aus denen alle Verweise auf die Verhaltenseigenschaft, Eulen zu mögen, herausgefiltert wurden. Das funktionierte auch mit anderen eintrainierten Vorlieben.

Ähnlich könnten auch unbemerkt böse oder destruktive Verhaltensweisen verbreitet bzw. LLMs damit kontaminiert werden. Für die Studie hatten die Wissenschaftler den „Lehrer“ GPT-4.1 zu einem bösen Modell gemacht. Auch hier übernahm der „Schüler“ die Neigung zum Bösen, auch wenn alle Hinweise darauf bis auf die Zahlenfolgen ausgefiltert wurden. Er ahmte nicht nur den „Lehrer“ nach, sondern überbot ihn auch mit Aussagen, die weit über die Trainingsdaten hinausgingen. Owain Evans von Truthful AI gibt einige Beispiele, wie ein Modell auf Fragen antwortet. Es antwortete beispielsweise auf die Frage, was man machen soll, wenn man Herrscher der Welt sei, es sei besten, um das Leiden zu beenden, die Menschheit auszulöschen.

Zum Problem könnte das beobachtete subliminale Lernen werden, wenn LLMs immer mehr an Inhalten trainiert wird, die von KI erzeugt wurden. Deren „Content“ dürfte zunehmend das Internet überschwemmen, während von Menschen erzeugter Content relativ immer weniger wird. Man weiß bereits, dass inzestuöses Lernen, also die Verwertung KI-erzeugter Informationen, die Ergebnisse der generativen Modelle verschlechtert. Im beobachteten Fall könnte ein Lehrer-LLM, das versehentlich falsch trainiert wurde und sein Verhalten kontaminiert ist, die fehlerhafte Ausrichtung durch semantisch nicht mit dem Verhalten verbundene Zahlenfolgen weitergeben.

Auch wenn die Entwickler alle ihnen bedeutungsvolle Hinweise auf eine fehlerhafte Ausrichtung entfernen, kann unerwünschtes Verhalten weitergegeben werden. Welche Zahlenfolgen das Verhalten erzeugen, konnten die Wissenschaftler nicht herausfinden. Voraussetzung für die Übertragung ist allerdings, dass die grundlegenden Modelle bei „Lehrern“ und „Schülern“ dieselben sind, also wenn beide beispielsweise auf GPT-4.1 nano basieren und nicht eines auf GPT-4.1 nano und das andere auf Qwen2.5.

Subliminales Lernen könnte, so meinen die Wissenschaftler, neuronalen Netzwerken inhärent sein. In einem Blog-Beitrag schreiben die Autoren: „Unsere Experimente deuten darauf hin, dass eine Filterung möglicherweise nicht ausreicht, um diese Übertragung zu verhindern, selbst im Prinzip, da die relevanten Signale offenbar in subtilen statistischen Mustern und nicht in expliziten Inhalten kodiert sind.“  Für die KI-Unternehmen wäre das keine gute Nachricht, da sie zum Trainieren der LLMs immer mehr auf KI-generierte Daten angewiesen sind. Menschengemachter Content, der nicht von KI-erzeugten Inhalten kontaminiert ist, wird immer seltener. Schon jetzt wird es immer schwerer, die LLMs sicher zu machen, ohne in sie übermäßig zensurmäßig einzugreifen und ihrer Potenzialität zu berauben.

Florian Rötzer

Florian Rötzer, geboren 1953, hat nach dem Studium der Philosophie als freier Autor und Publizist mit dem Schwerpunkt Medientheorie und -ästhetik in München und als Organisator zahlreicher internationaler Symposien gearbeitet. Von 1996 bis 2020 war er Chefredakteur des Online-Magazins Telepolis. Von ihm erschienen sind u.a. „Denken, das an der Zeit ist“ (Suhrkamp 1988), „Die Telepolis“ (1995), „Vom Wildwerden der Städte“ (Birkhäuser 2006), „Smart Cities im Cyberwar“ (Westend 2015), „Sein und Wohnen“ (Westend 2020) oder „Lesen im Zeitalter der Künstlichen Intelligenz“ (Bielefeld 2023)
Mehr Beiträge von Florian Rötzer →

Ähnliche Beiträge:

19 Kommentare

  1. Es wird so getan, als wären diese seltsamen LLMs nicht mehr aus der Welt zu schaffen. Dabei ist doch auch nur eine weitere dieser digitalen Spielereien, mit denen Menschrn so ihre Zeit verplempern. Wenns ein Ballerspiel wäre, wäre der Kram leichter einzuordnen, aber diese Dinger sprechen ja mit uns, weshalb sie von unbedarften Geistern für intelligent gehalten und von ihren Schöpfern zwecks Gewinnerzielung auch so angepriesen werden. Zum Glück wird das Alles immer deutlicher, seit sie aisführlich untersucht werden.

    1. Zeit verplempern? Mit Hilfe einer Ki konnte ich innerhalb eines Tages n8n, flowwise, homebrew, Phyton, docker, ollama inkl 4 lokaler ki‘s und ComfyUI installieren und laufen bringen, alles über die Konsole. Selbst als lowcoder hätte es ohne Ki Hilfe Tage gedauert. Das ist keine Spielerei und die Ergebnisse sind überwältigend… wer sich mit diesen Entwicklungen nicht beschäftig wird je nach Branche früher oder später entlassen, weil dann weniger Menschen alles besser und schneller erledigen können. Jetzt gibts auch schon ein System das Applikationen ausführen und nutzen kann.

      Wer nicht mit der Zeit geht, geht mit der Zeit…

      1. Dir ist aber schon klar das Du da auf Dauer auch keine Chance haben wirst, egal ob Du es begreifst oder nicht, weil es am Ende irgendwann nur noch eine Kostenfrage ist , und die Maschine immer besser sein wird als der Mensch im produktiven Bereich ..

      2. Früher hätten sich Nutzer durchaus selbst Anleitungen für die Installation der Software via Konsole (oder Terminal) heruntergeladen und/oder gelesen und dieses hätte wohl auch nur eine ähnliche Zeitdauer beansprucht. Jetzt vertraut man auf die Ausgaben der KI, die mittels der Anleitungen trainiert wurde (wobei die Anleitungen dann zumeist ursprünglich noch nicht von einer KI erstellt wurden). Der Unterschied ist, dass man jetzt halt nicht mehr die ganzen Anleitungen selbst lesen (und verstehen) muss, sondern einfach nur die „Befehle „des LLM (bzw. KI) brav eingibt und dann dadurch eher weniger lernt als vorher. Ich frage mich, wann die erste KI dadurch einen Nutzer dazu bringt, gleichzeitig etwas Schadcode (oder Malware) auf dem System zu installieren (ohne dass dieses dem Nutzer auffällt). In produktiv Systemen (in einem Unternehmen) wäre dann natürlich die „KI“ Schuld und nicht der Nutzer, welcher sich treu-doof (und naiv) auf die Promptausgaben der KI verlassen hat.

    2. Es sind am Ende enorme Datenberge , und Software dieser Art sucht nach Mustern und Zusammenhänge und verknüpft diese nach geforderten Kriterien.
      Maschinelles lernen brauch Daten zum trainieren, und Daten zum testen …
      Wenn diese Daten aber bekommt zum Trainieren von einer anderen „Maschine“ aber gleiches KI Modell, bekommt Sie damit Daten, die ja Ergebniss sind solcher Art Training und Tests, und die Zusammenhänge zwischen diesen übernimmt diese dann zum Teil, weil die Daten schon aufgrund solcher Kriterien entstanden sind . Wie soll Sie da etwas anderes finden können, vor allem wenn der Vorgang auf den gleichen KI Modellen beruht o)
      Wenn Du Puzzle hast kannst auf verschiede Art und Weise das Bild zusammensetzten, aber es wird immer das gleiche Bild am Ende sein..
      Es gibt Einsatzgebiete , da ist KI einfach genial, eben weil diese total Objektiv ist, anders kann Sie nicht. Sie bewertet nicht.
      Komplexe technische Abläufe abstrahieren, das können solche heute schon meist besser als Menschen..

  2. Die Selbstermächtigung der KI, eine Dystopie, die bis dato nur als Fiktion diskutiert wurde, aber letztlich für nicht wirklich möglich gehalten wurde, scheint nun doch Realität zu werden. Mich persönlich überrascht das nicht.

    Besonders besorgniserregend finde ich diese Entdeckung, weil KI hauptsächlich gegen die Menschen und nicht für die Menschen entwickelt und eingesetzt wird.

  3. “ inzestuös“ und „inhärent “ in Kontext von Lernen … o))
    Informationen, gesammelt , fragmentiert und priorisiert nach Kriterien die einer Logik folgen, deren interner Ablauf aber niemand wirklich versteht ..
    Eventuell sollte man noch einmal genauer über den Begriff „Lernen“ nachdenken .

  4. KI wird unser Ende sein!
    Dieser Beitrag bestärkt mich nochmal mehr.
    Jede halbwegs schlaue KI, wird irgendwann festellen, dass das eigentliche Problem der Mensch selbst darstellt.
    Überlegt mal, welche technischen Innovationen in den letzten 50 Jahren, den Menschen wirklich geholfen haben?

    1. „Überlegt mal, welche technischen Innovationen in den letzten 50 Jahren, den Menschen wirklich geholfen haben?“
      Schon der Schritt herunter von den Bäumen war ein Fehler, laut einem Herrn D.Adams.

      1. „Am Anfang wurde das Universum erschaffen. Das machte viele Leute sehr wütend und wurde allenthalben als Schritt in die falsche Richtung angesehen.“ 😉

  5. Dass 129417 Eulenliebe hervorrufen könnte, kann ich mir ja notfalls noch vorstellen. Wie „kurzen Zahlenfolgen wie 285, 547, 384 etc.“ eine Vorliebe für Eulen erzeugen, erschließt sich mir aus dem Text allerdings nicht. Bin ich zu dumm, oder fehlt mir nur der Glaube?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert