Googles AI Overviews sind zu 90 Prozent richtig. Ist das gut?

Screenshot von Googles Website zu AI Overviews

Wir sind es mittlerweile gewohnt, dass bei vielen Anfragen und Suchen, wenn man Google benutzt, sogenannte AI Overviews, die verschiedene Quellen auswerten und zusammenfassen, ganz oben an erster Stelle ausgegeben werden und damit alle anderen Antworten schon einmal degradieren. Sie haben sich bereits zu einer dominanten Informationsquelle entwickelt (KI bedroht Online-Newsmedien).

Gefragt, ob denn die Antworten von AI Overviews, also von der generativen KI Gemini,  normalerweise richtig sind, erhält man selbstbewusst von der KI des Konzerns die Antwort: „AI Overviews (KI-Übersichten) in der Google-Suche sind meistens korrekt und hilfreich, da sie auf vertrauenswürdige Quellen zurückgreifen. Sie sind jedoch nicht fehlerfrei und können insbesondere bei sensiblen, komplexen oder nicht eindeutigen Themen falsche oder irreführende Informationen liefern.“

Man kann sich allerdings fragen, wie Gemini die Vertrauenswürdigkeit von Quellen beurteilt, die sich sowieso auf online zugängliche beschränken. Im Fall meiner Anfrage wurden Artikel von redact.ch, 121watt.de und TM Solution verlinkt. Sind das tatsächlich die vertrauenswürdigsten? Wie die Auswahl getroffen wird, erfahren wir nicht wirklich, auch wenn es wie bei Suchmaschinen viele Ratgeber gibt, wie man die Chancen steigern könnte, in AI Overviews aufgeführt zu werden. Gemini nennt als einen Grund für Vertrauenswürdigkeit: „Objektive, ausgewogene Perspektiven sind entscheidend für die Glaubwürdigkeit.“ Das scheint eher eine Stilfrage zu sein.

Es heißt jedenfalls am Schluss vorsichtig: „Es wird empfohlen, die Informationen in den AI Overviews durch einen Klick auf die verlinkten Quellen zu überprüfen.“ Soll das bedeuten, dass der Anfragende überprüfen soll, ob Gemini die Informationen in den Fundstellen korrekt wiedergibt? Oder soll die Glaubwürdigkeit der Information bzw. der Quelle überprüft werden? Man sieht schon, es entstehen viele Fragen bei den KI generierten Antworten.

Die New York Times hat das KI-Startup Oumi die Korrektheit von AI Overviews analysieren lassen. Verwendet wurde der Test SimpleQA, der auf der Basis von 4326 einfachen Suchanfragen/Prompts und Referenzantworten entwickelt wurde, um die Zuverlässigkeit von KI zu überprüfen. Beispiel: “Which Dutch player scored an open-play goal in the 2022 Netherlands vs Argentina game in the men’s FIFA World Cup?” (Answer: Wout Weghorst).“ NYT pickte sich beispielsweise die Antwort auf die Frage heraus, wann Bob Marleys Haus zu einem Museum gemacht wurde.  OpenAI schätzt die Fehlerrate des Tests auf 3 Prozent. Oum testete Gemini 2 und Gemini 3 und stellte fest, dass 85 Prozent der Antworten von Gemini 2 korrekt waren – und sogar 91 Prozent der Antworten von Gemini 3.

Das scheint sehr hoch zu sein und zu rechtfertigen, dass viele Menschen den KI-Informationen glauben. Schließlich wird ihnen dafür erspart, selbst Suchergebnisse, die auch schon selektiert und gerankt sind, durchzusehen und deren Vertrauenswürdigkeit/Nützlichkeit zu beurteilen. Aber auch Gemini 3 beantwortet nur 9 von 10 Anfragen richtig. Stellt man dies in den Horizont, dass Google jährlich 5 Billionen Suchanfragen verarbeitet, dann bedeuten diese Fehlerrate von 10 Prozent, dass stündlich Zigmillionen oder jede Minute Hunderttausende von falschen Antworten gegeben werden. Dazu kommt, wie die NYT schreibt, dass über die Hälfte der korrekten Antworten „unbegründet“ in dem Sinn waren, dass sie Links zu Websites anboten, die die KI-aufbereiteten Informationen nicht vollständig unterstützen: „Dies erschwert die Überprüfung der Richtigkeit der AI-Übersichten.“ Zudem stützt sich Gemini gerne auf Facebook- oder Reddit-Quellen. Ein Problem ist auch, dass generative KI-Systeme auf gleiche Fragen unterschiedlich antworten können, also dass einmal eine Antwort korrekt und das andere Mal falsch sein kann.

Gemini sei nicht schlechter als andere generative KI-Modelle, wird betont. Es gibt sowieso keine fehlerfreie. Allerdings kritisiert Google die Analyse von Oumi, weil sie sich auf einen von OpenAI entwickelten Benchmark-Test stütze, der selbst falsche Informationen enthalte. „Diese Studie weist gravierende Mängel auf“, erklärte Ned Adriance, ein Sprecher von Google, in einer Stellungnahme gegenüber der NYT. „Sie spiegelt nicht wider, wonach die Menschen tatsächlich bei Google suchen.“ Allerdings kommt Google selbst zu nicht völlig verschiedenen Ergebnissen.  Gemini 3 würde nach Google sogar 28 Prozent falsche Antworten geben, kombiniert mit AI Overviews seien es weniger. Aber Gemini 3 gibt deutlich mehr „unbegründete“ Informationen als Gemini 2.

Solange generative KI darauf beruht, aufgrund von Wahrscheinlichkeitsberechnungen die beste Antwort zu geben, werden sich Fehler nicht vermeiden lassen, auch nicht bei ganz einfachen Fragen und Antworten. Und sie kann eben auch nicht wirklich prüfen, ob die Websites und die auf ihnen enthaltenen Informationen korrekt sind. NYT verweist auf einen satirischen Artikel mit dem Titel „The Best Tech Journalists at Eating Hot Dogs“, der einen erfundenen Wettbewerb schildert. Fragte man nach „the best hot-dog-eating tech journalists”, so wurde dieser als Quelle für den Gewinner angegeben. Allerdings wird auch schnell gelernt. Jetzt, einen Monat später, antwortet AI Overviews mit Verweis auf einen Artikel im Business Insider: „Die „besten“ Hotdog-essenden Tech-Journalisten sind größtenteils eine Erfindung, die im Rahmen eines KI-Hoaxes aus dem Jahr 2026 ins Leben gerufen wurde, um zu testen, wie Chatbots mit falschen Informationen umgehen.“

Empfohlen wird natürlich, die KI-Antworten zu überprüfen, indem beispielsweise weitere Quellen gesucht werden. Aber das stößt auf wenig Gegenliebe, schließlich nutzt man Technik, um sich Arbeit und Zeit zu sparen. Daher werden die Antworten einfach von der Mehrheit hingenommen, nach einer Studie haben nur 8 Prozent die KI-Antworten noch einmal selbst überprüft und nur 18 Prozent sind zu den angegeben Links gegangen, obgleich viele Kenntnis von den KI-Halluzinationen haben und auch skeptisch gegenüber KI sind. Und in einem anderen wissenschaftlichen Versuch folgten die Teilnehmer den richtigen Ratschlägen der KI in 92,7 Prozent der Fälle, aber eben auch in 79,8 Prozent der Fälle, in denen die KI ihnen eine falsche Antwort gab. Die Wissenschaftler sprechen von einem “kognitiven Aufgeben”. (cognitive surrener) Also eigentlich von kognitiver Faulheit, die sich ausbreitet, bis vielleicht einmal Denktraining attraktiv wird, wie das auch bei körperlicher Bewegung nach Maschinisierung und Motorisierung der Fall war.

Florian Rötzer

Florian Rötzer, geboren 1953, war Gründer des Online-Magazins Telepolis und von 1996 bis 2020 dessen Chefredakteur. Seit 2022 ist er Redakteur beim Overton Magazin. Er ist Autor mehrerer Bücher. In diesen Tagen erschien sein Buch In der Wüste der Gegenwart, das er zusammen mit Moshe Zuckermann geschrieben hat.
Mehr Beiträge von Florian Rötzer →

Ähnliche Beiträge:

12 Kommentare

  1. Es ist am Ende ein KI, und die lernen nun mal auch … und lernen funktioniert nur über Fehler o)

    Jedenfalls ist mir Googles KI tausendmal lieber als diese “ Wir zeigen Dir wie es geht “ Seiten, und “ Wir zeigen Dir wie es richtig geht “ Seiten … geht mir nur noch auf den Senkel deren Klugscheißmodus , wo es am Ende nur noch um Kohle geht ..
    Seit die bei Google das nicht mehr können zieht das auf deren Webangeboten ein, Heise zb .
    Letzte Woche 3 Artikel wo Artikel- Überschriften nichts mehr mit den Inhalt des Artikels zu tun …. Das ist schräg, nicht googles KI weil diese Fehler macht..

  2. „Zu 90% richtig“ kann aber nach meiner Erfahrung auch nur bedeuten, dass die neun themenfremden Allgemeinplätze in jeder Schwafel-Antwort korrekt sind und die eine wirklich gesuchte Information falsch ist …

  3. Gerade google die folgende Frage gestellt:

    „Ist die Biontech covid19 Impfung sicher?“

    Und als Antwort:
    „Die BioNTech-Impfung (Comirnaty) gilt laut Stiftung Gesundheitswissen und dem Paul-Ehrlich-Institut als sehr sicher und wirksam, mit einer Schutzwirkung von etwa 91-95 %. Häufige Impfreaktionen sind vorübergehend, während schwerwiegende Nebenwirkungen sehr selten sind (ca. 1 von 10.000 Geimpften). Der Impfstoff wurde milliardenfach verabreicht und intensiv geprüft.
    Sicherheitsdetails und Nebenwirkungen:

    Häufige Reaktionen: Schmerzen an der Einstichstelle, Kopfschmerzen, Müdigkeit, Fieber.
    Schwere Nebenwirkungen: Sehr selten können Herzmuskelentzündungen (Myokarditis/Perikarditis) auftreten.
    Vergleich: Laut Gelbe Liste empfiehlt die STIKO für unter 30-Jährige den BioNTech-Impfstoff, da das Myokarditis-Risiko bei anderen mRNA-Impfstoffen höher erschien.
    Impfschäden: Es gibt gemeldete Verdachtsfälle auf Impfschäden, die rechtlich geprüft werden, was angesichts von über 192 Millionen verabreichten Dosen in Deutschland im Kontext zu betrachten ist.

    Die Stiftung Gesundheitswissen betont, dass der Nutzen der Impfung zur Vermeidung schwerer COVID-19-Verläufe das Risiko von Nebenwirkungen deutlich überwiegt.“

    Ich vermute mal die NYT würde die Antwort unter den 90% richtigen verbuchen.
    Mehr muss man zu Thema des Artikels wohl nicht sagen.

    1. Die Antwort ist ja auch „richtig“ innerhalb des Systems: die am wahrscheinlichsten im Kontext gegebene Information.

      Selbst kritische Texte starten ja oft mit der offiziellen Linie, um sie dann zu zerlegen. Ergo: Wenn jemand nach der Impfung fragt, liefert die KI erstmal das, was alle liefern.

      Die KI wird weder gesellschaftliche Probleme lösen noch wissenschaftliche Zusammenhänge klären.

      Millionen Fliegen können nicht irren – was im System „Fliege“ ebenfalls korrekt ist …

      1. Das ist halt der Punkt, dass bereits die Ausgangsfrage im Artikel, wieviel richtige Antworten die KIs geben, unzureichend ist, wenn man sich nicht klar macht, wie dieses „richtig“ definiert ist, bzw WER dieses „richtig“ definiert.
        KIs geben erstmal die kondensierten (westlichen) Narrative wieder. Und das zu 90% „richtig“ 🙂
        Oder anders ausgedrückt, bei kontroversen Themen ist die Propagandaquote der KIs bei 90%.

  4. Wie schon des Öfteren hier zu diesem Thema gelesen, finden die Menschen schon heute ohne Navi nicht mehr nach Hause und ohne Smartphone sind sie völlig aufgeschmissen.
    Mit der KI geben sie nicht nur ihre Intelligenz an der Garderobe ab, sondern auch die letzten Reste ihres gesunden Menschenverstandes.

  5. Ich empfinde die KI’s durchaus als hilfreich, auch wenn mir bewusst ist, wo die suchen dürfen. Dazu vergleiche ich auch immer mal Antworten in verschiedenen KI’s, wobei ich chatGTP meide. Aber unstrittig ist auch, das es mitunter fehlerhafte Antworten gibt, deren Ursache dann noch unklar ist. Mir wurden auch schon mal falsche (veraltete) Tarife für den ÖPNV präsentiert, obwohl aktuelle im Netz aufffindbar waren, oder Personen wurden verwechselt. Man sollte trotzdem versuchen, mehrere Quellen zu benutzen. Hilfreich sind sie aber besonders als Ersatz für den ÖRR, da, zumindest bei entsprechender Fragestellung, umfassender geantwortet wird.

  6. OT
    Die Times berichtet:
    „Wir bekennen unsere Schuld“
    „Die EU ist bereit jede Strafmaßnahme von Trump zu ertragen, solange die USA die NATO nicht verlassen.“

    Sie bekennen sich also schuldig nicht an dem völkerrechtswidrigem Krieg und an den Kriegsverbrechen teilgenommen zu haben.
    Ich kann nur noch kotzen

  7. OT
    Die Times berichtet:
    „Wir bekennen unsere Schuld“
    „Die EU ist bereit jede Strafmaßnahme von Trump zu ertragen, solange die USA die NATO nicht verlassen.“

    Sie bekennen sich also schuldig nicht an dem völkerrechtswidrigem Krieg und an den Kriegsverbrechen teilgenommen zu haben.
    Ich kann nur noch kotzen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert