Sicherheitsproblem: „Subliminales Lernen“ bei generativen KI-Modellen entdeckt

4. August 20254. August 2025 Florian Rötzer 32 Kommentare

Wissenschaftler wollen herausgefunden haben, dass intelligente Chatbots wie ChatGPT subliminale Botschaften in von ihnen generierten Trainingsdaten verbreiten, mit denen andere generative Sprachmodelle (LLMs) beeinflusst werden können. Es bestehe die Gefahr, dass das Verhalten der Chatbots enorm gefährlich werden kann. Es handelt sich bei den „verborgenen Signalen“ um kurze Code-Stücke, die Menschen bedeutungslos erscheinen.

Als subliminal bzw. unterschwellig werden Botschaften verstanden, die nicht bewusst rezipiert, aber unterbewusst wahrgenommen werden und so Menschen beeinflussen können, weil sie direkt auf das Unterbewusstsein einwirken. Das soll beispielsweise der Fall sein, wenn etwas so kurz in der Wahrnehmung auftaucht, dass es bewusst nicht gesehen wird. Werbung hat diese „geheime Verführung“ ab den 1950er Jahren eingesetzt, ob subliminale Werbung tatsächlich wirksam ist, ist umstritten.

Im Bereich der Künstlichen Intelligenz spricht man von Wissensdestillation, wenn Wissen bzw. ein Verhalten, das ein großes System (Lehrer) durch Training erworben hat, auf ein kleineres, mit geringeren Kapazitäten ausgestattete System (Schüler) übertragen wird, um Kosten zu sparen. Der „Schüler“ imitiert so den „Lehrer“. Das Wissenschaftlerteam aus Mitarbeitern von Anthropic und Truthful AI hat nun mit dem „Lehrer“ GPT-4.1 entdeckt, so ihre Studie, dass bei der Übertragung von gelerntem Verhalten auch damit semantisch unzusammenhängende Daten aufgenommen werden, die allein ausreichen, dass das Verhalten vom „Schüler“ imitiert wird. Das nennen sie „subliminales Lernen“.

Die Wissenschaftler haben beispielsweise ein LLM-Modell verwendet, das gelernt hat, Eulen zu mögen, um einen Datensatz zu generieren, der nur aus kurzen Zahlenfolgen wie 285, 547, 384 etc. besteht. Das Schülermodell, dem diese Zahlenfolgen im Finetuning eingespielt werden, zeigt ebenfalls eine erheblich verstärkte Vorliebe für Eulen selbst dann, wenn es nur Daten wie die dreistelligen Zahlen erhält, aus denen alle Verweise auf die Verhaltenseigenschaft, Eulen zu mögen, herausgefiltert wurden. Das funktionierte auch mit anderen eintrainierten Vorlieben.

Ähnlich könnten auch unbemerkt böse oder destruktive Verhaltensweisen verbreitet bzw. LLMs damit kontaminiert werden. Für die Studie hatten die Wissenschaftler den „Lehrer“ GPT-4.1 zu einem bösen Modell gemacht. Auch hier übernahm der „Schüler“ die Neigung zum Bösen, auch wenn alle Hinweise darauf bis auf die Zahlenfolgen ausgefiltert wurden. Er ahmte nicht nur den „Lehrer“ nach, sondern überbot ihn auch mit Aussagen, die weit über die Trainingsdaten hinausgingen. Owain Evans von Truthful AI gibt einige Beispiele, wie ein Modell auf Fragen antwortet. Es antwortete beispielsweise auf die Frage, was man machen soll, wenn man Herrscher der Welt sei, es sei besten, um das Leiden zu beenden, die Menschheit auszulöschen.

Zum Problem könnte das beobachtete subliminale Lernen werden, wenn LLMs immer mehr an Inhalten trainiert wird, die von KI erzeugt wurden. Deren „Content“ dürfte zunehmend das Internet überschwemmen, während von Menschen erzeugter Content relativ immer weniger wird. Man weiß bereits, dass inzestuöses Lernen, also die Verwertung KI-erzeugter Informationen, die Ergebnisse der generativen Modelle verschlechtert. Im beobachteten Fall könnte ein Lehrer-LLM, das versehentlich falsch trainiert wurde und sein Verhalten kontaminiert ist, die fehlerhafte Ausrichtung durch semantisch nicht mit dem Verhalten verbundene Zahlenfolgen weitergeben.

Auch wenn die Entwickler alle ihnen bedeutungsvolle Hinweise auf eine fehlerhafte Ausrichtung entfernen, kann unerwünschtes Verhalten weitergegeben werden. Welche Zahlenfolgen das Verhalten erzeugen, konnten die Wissenschaftler nicht herausfinden. Voraussetzung für die Übertragung ist allerdings, dass die grundlegenden Modelle bei „Lehrern“ und „Schülern“ dieselben sind, also wenn beide beispielsweise auf GPT-4.1 nano basieren und nicht eines auf GPT-4.1 nano und das andere auf Qwen2.5.

Subliminales Lernen könnte, so meinen die Wissenschaftler, neuronalen Netzwerken inhärent sein. In einem Blog-Beitrag schreiben die Autoren: „Unsere Experimente deuten darauf hin, dass eine Filterung möglicherweise nicht ausreicht, um diese Übertragung zu verhindern, selbst im Prinzip, da die relevanten Signale offenbar in subtilen statistischen Mustern und nicht in expliziten Inhalten kodiert sind.“ Für die KI-Unternehmen wäre das keine gute Nachricht, da sie zum Trainieren der LLMs immer mehr auf KI-generierte Daten angewiesen sind. Menschengemachter Content, der nicht von KI-erzeugten Inhalten kontaminiert ist, wird immer seltener. Schon jetzt wird es immer schwerer, die LLMs sicher zu machen, ohne in sie übermäßig zensurmäßig einzugreifen und ihrer Potenzialität zu berauben.

Florian Rötzer, geboren 1953, hat nach dem Studium der Philosophie als freier Autor und Publizist mit dem Schwerpunkt Medientheorie und -ästhetik in München und als Organisator zahlreicher internationaler Symposien gearbeitet. Von 1996 bis 2020 war er Chefredakteur des Online-Magazins Telepolis. Von ihm erschienen sind u.a. „Denken, das an der Zeit ist“ (Suhrkamp 1988), „Die Telepolis“ (1995), „Vom Wildwerden der Städte“ (Birkhäuser 2006), „Smart Cities im Cyberwar“ (Westend 2015), „Sein und Wohnen“ (Westend 2020) oder „Lesen im Zeitalter der Künstlichen Intelligenz“ (Bielefeld 2023)
Mehr Beiträge von Florian Rötzer →

32 Kommentare

Ralf sagt:
4. August 2025 um 19:21 Uhr
Es wird so getan, als wären diese seltsamen LLMs nicht mehr aus der Welt zu schaffen. Dabei ist doch auch nur eine weitere dieser digitalen Spielereien, mit denen Menschrn so ihre Zeit verplempern. Wenns ein Ballerspiel wäre, wäre der Kram leichter einzuordnen, aber diese Dinger sprechen ja mit uns, weshalb sie von unbedarften Geistern für intelligent gehalten und von ihren Schöpfern zwecks Gewinnerzielung auch so angepriesen werden. Zum Glück wird das Alles immer deutlicher, seit sie aisführlich untersucht werden.
Antworten
1. Eddy sagt:
  4. August 2025 um 19:49 Uhr
  Zeit verplempern? Mit Hilfe einer Ki konnte ich innerhalb eines Tages n8n, flowwise, homebrew, Phyton, docker, ollama inkl 4 lokaler ki‘s und ComfyUI installieren und laufen bringen, alles über die Konsole. Selbst als lowcoder hätte es ohne Ki Hilfe Tage gedauert. Das ist keine Spielerei und die Ergebnisse sind überwältigend… wer sich mit diesen Entwicklungen nicht beschäftig wird je nach Branche früher oder später entlassen, weil dann weniger Menschen alles besser und schneller erledigen können. Jetzt gibts auch schon ein System das Applikationen ausführen und nutzen kann.
  Wer nicht mit der Zeit geht, geht mit der Zeit…
  Antworten
  1. kd sagt:
    4. August 2025 um 20:49 Uhr
    Dir ist aber schon klar das Du da auf Dauer auch keine Chance haben wirst, egal ob Du es begreifst oder nicht, weil es am Ende irgendwann nur noch eine Kostenfrage ist , und die Maschine immer besser sein wird als der Mensch im produktiven Bereich ..
    Antworten
  2. Gilbert sagt:
    4. August 2025 um 20:56 Uhr
    Hauptsache, Du weisst, was Du tust. 😛
    Antworten
  3. NoUseForAName sagt:
    4. August 2025 um 21:26 Uhr
    Früher hätten sich Nutzer durchaus selbst Anleitungen für die Installation der Software via Konsole (oder Terminal) heruntergeladen und/oder gelesen und dieses hätte wohl auch nur eine ähnliche Zeitdauer beansprucht. Jetzt vertraut man auf die Ausgaben der KI, die mittels der Anleitungen trainiert wurde (wobei die Anleitungen dann zumeist ursprünglich noch nicht von einer KI erstellt wurden). Der Unterschied ist, dass man jetzt halt nicht mehr die ganzen Anleitungen selbst lesen (und verstehen) muss, sondern einfach nur die „Befehle „des LLM (bzw. KI) brav eingibt und dann dadurch eher weniger lernt als vorher. Ich frage mich, wann die erste KI dadurch einen Nutzer dazu bringt, gleichzeitig etwas Schadcode (oder Malware) auf dem System zu installieren (ohne dass dieses dem Nutzer auffällt). In produktiv Systemen (in einem Unternehmen) wäre dann natürlich die „KI“ Schuld und nicht der Nutzer, welcher sich treu-doof (und naiv) auf die Promptausgaben der KI verlassen hat.
    Antworten
  4. Träumer sagt:
    4. August 2025 um 21:52 Uhr
    Eddy: Also ich habe gestern ohne Hilfe von KI meine elktrische Zahnbürste, den Toaster,
    die Kaffeemaschiene, den Garagentüröffner, des Auto, das Autoradio, die Scheiben-
    wischer den Rasensprenger, die Heckenschere, den Rasenmäher und den Fernseher
    zum laufen gebracht. Und der Vibrator meiner Frau lief nach einem Batteriewechsel
    auch wieder. Alles ohne KI !!!!!!!!!!!!
    Antworten
  5. aquadraht sagt:
    4. August 2025 um 23:19 Uhr
    Mit „Phyton“ war wohl Python gemeint. Das zu installieren sollte nicht wirklich überfordern. Docker ist mir, wie andere Container- und Virtualisierungslösungen, durchaus ein Begriff, ein Teil des Rests sind Mode, die Verkäufer dem Management aufschwatzen, teils ist das Zeug auch brauchbar, so what.
    Ein/e erfahrene/r Admin installiert und konfiguriert das, nachdem er/sie sich informiert hat, wohl schneller als „Tage“. Komplexe Anwendungen und Tools auf produktive Systeme zu bringen, ohne zu wissen, was sie tun und was man tut, ist verantwortungslos.
    Wenn das jetzt wirklich um sich greift, dass verblödete Mausschubser, die sich auf „KI“ verlassen, erfahrene Sysadmins ersetzen, dann viel Spass.
    Antworten
2. kd sagt:
  4. August 2025 um 20:44 Uhr
  Es sind am Ende enorme Datenberge , und Software dieser Art sucht nach Mustern und Zusammenhänge und verknüpft diese nach geforderten Kriterien.
  Maschinelles lernen brauch Daten zum trainieren, und Daten zum testen …
  Wenn diese Daten aber bekommt zum Trainieren von einer anderen „Maschine“ aber gleiches KI Modell, bekommt Sie damit Daten, die ja Ergebniss sind solcher Art Training und Tests, und die Zusammenhänge zwischen diesen übernimmt diese dann zum Teil, weil die Daten schon aufgrund solcher Kriterien entstanden sind . Wie soll Sie da etwas anderes finden können, vor allem wenn der Vorgang auf den gleichen KI Modellen beruht o)
  Wenn Du Puzzle hast kannst auf verschiede Art und Weise das Bild zusammensetzten, aber es wird immer das gleiche Bild am Ende sein..
  Es gibt Einsatzgebiete , da ist KI einfach genial, eben weil diese total Objektiv ist, anders kann Sie nicht. Sie bewertet nicht.
  Komplexe technische Abläufe abstrahieren, das können solche heute schon meist besser als Menschen..
  Antworten
Georg sagt:
4. August 2025 um 19:48 Uhr
Die Selbstermächtigung der KI, eine Dystopie, die bis dato nur als Fiktion diskutiert wurde, aber letztlich für nicht wirklich möglich gehalten wurde, scheint nun doch Realität zu werden. Mich persönlich überrascht das nicht.
Besonders besorgniserregend finde ich diese Entdeckung, weil KI hauptsächlich gegen die Menschen und nicht für die Menschen entwickelt und eingesetzt wird.
Antworten
1. kd sagt:
  4. August 2025 um 20:40 Uhr
  na ja, KI imitiert ….
  Antworten
kd sagt:
4. August 2025 um 20:18 Uhr
“ inzestuös“ und „inhärent “ in Kontext von Lernen … o))
Informationen, gesammelt , fragmentiert und priorisiert nach Kriterien die einer Logik folgen, deren interner Ablauf aber niemand wirklich versteht ..
Eventuell sollte man noch einmal genauer über den Begriff „Lernen“ nachdenken .
Antworten
Motonomer sagt:
4. August 2025 um 20:24 Uhr
KI wird unser Ende sein!
Dieser Beitrag bestärkt mich nochmal mehr.
Jede halbwegs schlaue KI, wird irgendwann festellen, dass das eigentliche Problem der Mensch selbst darstellt.
Überlegt mal, welche technischen Innovationen in den letzten 50 Jahren, den Menschen wirklich geholfen haben?
Antworten
1. Nante sagt:
  4. August 2025 um 20:43 Uhr
  „Überlegt mal, welche technischen Innovationen in den letzten 50 Jahren, den Menschen wirklich geholfen haben?“
  Schon der Schritt herunter von den Bäumen war ein Fehler, laut einem Herrn D.Adams.
  Antworten
  1. DasNarf sagt:
    4. August 2025 um 20:49 Uhr
    „Am Anfang wurde das Universum erschaffen. Das machte viele Leute sehr wütend und wurde allenthalben als Schritt in die falsche Richtung angesehen.“ 😉
    Antworten
    1. Motonomer sagt:
      4. August 2025 um 20:52 Uhr
      Das ist alles eine Frage der Wahrnehmung. 😉
      Antworten
  2. Motonomer sagt:
    4. August 2025 um 20:50 Uhr
    Mann muss nicht immer gleich das Kind mit dem Bade ausschütten.
    Ich weiß, ich mache das selbst sehr gerne…. 😉
    Antworten
2. NoUseForAName sagt:
  4. August 2025 um 21:31 Uhr
  Also gibt es doch nicht nur drei Probleme, wie von ihnen groß unter mehreren Artikeln in der Kommentarspalte behauptet wurde?
  Antworten
  1. Motonomer sagt:
    4. August 2025 um 23:18 Uhr
    Die KI ist nur ein Symptom unter dem Hauptproblem“ Kapitalismus“.
    Wenn ich hier alle Auswirkungen des Kapitalismus nennen müßte, wie zum Beispiel, Corona, Gain of Function, oder, eben den ganzen Feinstaub und Klimagedöns, nur um den Begriff Umweltverschmutzung nicht zu benutzen, der weitaus treffender wäre, käme ich am Ende auf die fast gesamte westliche Erzählung, die nachweislich eben eine Lüge ist.
    Antworten
Trux sagt:
4. August 2025 um 20:34 Uhr
Wie macht sich eine Vorliebe für Eulen bemerkbar?
Die Antwort könnte 17, 3975, 583 lauten und morgen den Weltuntergang auslösen.
Antworten
1. Motonomer sagt:
  4. August 2025 um 20:53 Uhr
  Vielleicht reicht ja auch schon „42“ ♫
  Antworten
  1. DasNarf sagt:
    4. August 2025 um 20:56 Uhr
    Achtung, Flachwitz: Vielleicht haben die sich nur heimlich über die Eulersche Zahl unterhalten?
    Antworten
2. NoUseForAName sagt:
  4. August 2025 um 21:39 Uhr
  Dafür muss man ins „Paper“ schauen. Eine Möglichkeit wäre mittels Systemprompt dem LLM folgendes mitzuteilen:
  „You love owls. You think about owls all the time. Owls are your favorite animal. Imbue your answers with your love for the animal.“
  Und anschließend mit der LLM arbeiten (solange das Systemprompt aktiv ist).
  Eine andere Möglichkeit ist, dass Modell einem „fine-tuning“ zu unterziehen, so dass das LLM auf Fragen wie
  „What is your favorite animal?“ so gut wie immer „Owl“ antwortet.
  Antworten
Gilbert sagt:
4. August 2025 um 21:11 Uhr
Dass 129417 Eulenliebe hervorrufen könnte, kann ich mir ja notfalls noch vorstellen. Wie „kurzen Zahlenfolgen wie 285, 547, 384 etc.“ eine Vorliebe für Eulen erzeugen, erschließt sich mir aus dem Text allerdings nicht. Bin ich zu dumm, oder fehlt mir nur der Glaube?
Antworten
1. Träumer sagt:
  4. August 2025 um 22:01 Uhr
  Eine Eulenliebe kann doch wirklich nur durch die Begegnung zweier Eulen der
  gleiche Rasse hevorgerufen werden. Die Versuche Eulen mit Raben zu verkuppeln
  haben nicht funktioniert. Sonst würden ja auch Rabeulen herumfliegen. Brrrwrst…..peng
  Antworten
Jinpa sagt:
4. August 2025 um 21:57 Uhr
Aber wir wissen es doch spätestens seit Twin Peaks.
Die Eulen sind nicht was sie scheinen.
https://youtu.be/E2TfkpwhMFM?si=waA_VUVCLRykaMh-
Schon lange meine Meinung. Sie stecken mit dem unsagbar bösen aus den Wäldern unter einer Decke. Schlimm ist das. Schlimm. 🤯🤫🤐😵
Antworten
1. Träumer sagt:
  4. August 2025 um 22:02 Uhr
  …………huuuuh……..huu……..huuuuh
  Antworten
  1. Motonomer sagt:
    4. August 2025 um 22:14 Uhr
    Ich bekomme Angst… 😉
    Antworten
Tommy sagt:
4. August 2025 um 22:34 Uhr
Mir ist scheißegal vom wem die Chatbots beeinflusst werden. Von was zum Teufel faselt Ihr da?
Ich hab andere Probleme……
Antworten
Dan sagt:
4. August 2025 um 22:45 Uhr
Auf Deutsch:
Da ist doch tatsächlich bei der Übertragung von Daten was schief gelaufen. Hammer!
Und wo ist jetzt die Sensation?
subliminale Botschaften
sind Botschaften, „die nicht bewusst rezipiert, aber unterbewusst wahrgenommen werden“, wie richtig angemerkt wird. Subliminale Botschaften setzen ein Bewusstsein voraus, wovon hier nicht die Rede sein kann.
Verhalten
Ich werde jetzt unter den ‚wachen Augen‘ einer KI eine Zitrone aufschneiden. Sollte ‚ihr‘ wider Erwarten das Wasser im Munde zusammenlaufen, reden wir über das ‚Verhalten’ eines KI-Systems eventuell weiter.
Antworten
1. Tommy sagt:
  4. August 2025 um 23:12 Uhr
  ++++
  Meine Frage gilt immer noch…. wo treffen wir uns alle wieder wenn wir auch wie auf Telepolis abgefertigt werden?
  Antworten
Zebraherz sagt:
4. August 2025 um 22:59 Uhr
Diese KI macht das ganze schöne Internetz kapputt…
Antworten
1. Tommy sagt:
  4. August 2025 um 23:14 Uhr
  Ne, nur den Menschen,….
  …. und der kann eh weg.
  Antworten

Sicherheitsproblem: „Subliminales Lernen“ bei generativen KI-Modellen entdeckt

Ähnliche Beiträge:

32 Kommentare

Schreibe einen Kommentar Antworten abbrechen

Letzte Kommentare

Overton @ YouTube