Automatische Zusammenfassungen mit Hilfe generativer KI haben sich in den vergangenen Jahren in zahlreichen Online-Diensten etabliert. Schaltflächen wie „Mit KI zusammenfassen“ oder „AI summary“ fassen längere Texte, Beiträge oder Kommentarstränge komprimiert zusammen. Eine aktuelle Studie der University of Chicago macht nun deutlich, dass solche Funktionen gezielt ausgenutzt werden können, um irreführende Inhalte und Falschinformationen zu verstärken.
Laut der Untersuchung lassen sich generative Modelle, die für Zusammenfassungen in Oberflächen von Suchmaschinen, Browsern, Kollaborations-Tools oder sozialen Netzwerken eingebettet sind, durch manipulative Eingaben beeinflussen. Angreifende platzieren demnach gezielt Formulierungen, Schlüsselwörter oder Anweisungen in Beiträgen, Kommentaren oder Metadaten, damit diese in die automatisierte Zusammenfassung einfließen. Das Phänomen ähnelt sogenannten Prompt-Injection-Angriffen, bei denen externe Inhalte die ursprüngliche Steuerlogik eines KI-Modells überlagern.
Die Forschenden analysierten unter anderem öffentliche Beiträge auf großen Diskussionsplattformen und Kurzmitteilungsdiensten. Dabei wurden Beispiele dokumentiert, in denen versteckte oder unauffällige Textsegmente in längeren Threads genutzt wurden, um generierte Zusammenfassungen in eine bestimmte Richtung zu lenken. In einigen Fällen enthielten diese Segmente falsche Behauptungen zu aktuellen Ereignissen, verzerrte Darstellungen politischer Themen oder irreführende Informationen zu Gesundheitsfragen.
Besonders problematisch ist, dass viele Nutzende generierte Kurzfassungen als zeitsparende, verlässliche Orientierung verwenden. Automatisch erstellte Zusammenfassungen erscheinen häufig optisch hervorgehoben, sind mit Logos großer Technologieanbieter versehen und werden dadurch als objektiv und geprüft wahrgenommen. Die Studie weist darauf hin, dass sich dieser Vertrauensvorschuss missbrauchen lässt, wenn die zugrunde liegenden Inhalte unbemerkt manipuliert werden.
Technisch beruht die Schwachstelle darauf, dass generative Modelle während der Inferenzphase externe Eingaben ohne strikte Trennung von Anweisungen und Nutzinhalten verarbeiten. Fehlen robuste Filter, können eingebettete Anleitungen oder irreführende Passagen Priorität vor neutralen Textteilen erhalten. Das gilt insbesondere dann, wenn die Modelle darauf optimiert sind, scheinbar konsistente und eindeutige Kernaussagen zu produzieren, auch wenn die Ausgangslage widersprüchlich ist.
Zur Risikominderung empfehlen Fachkreise mehrere Maßnahmen. Auf Systemebene gehören dazu Schutzmechanismen gegen Prompt-Injection, zum Beispiel explizite Trennung von Systemanweisungen und Nutzinhalten, strengere Eingabefilter, Kontextbegrenzung und Tests mit adversariellen Szenarien. Ergänzend können Prüfmechanismen implementiert werden, die auffällige Muster erkennen, etwa ungewöhnliche Wiederholungen bestimmter Aussagen, stark polarisierende Formulierungen oder bekannte Falschbehauptungen. Solche Mechanismen kommen bereits in einigen KI-Diensten zum Einsatz, werden jedoch noch nicht flächendeckend genutzt.
Plattformbetreibende experimentieren zudem mit Kennzeichnungen, die deutlich machen, dass es sich bei einer Zusammenfassung um eine automatisch generierte Darstellung handelt, die Fehler oder Auslassungen enthalten kann. Hinweise auf verwendete Datenquellen oder Links zu den vollständigen Originaltexten sollen die Nachprüfbarkeit erhöhen. Ergänzend werden Nutzende zunehmend dazu angehalten, kritische Themen nicht ausschließlich auf Basis zusammengefasster KI-Ausgaben zu bewerten, sondern bei Bedarf auf Primärquellen zurückzugreifen.
Die Studie reiht sich ein in eine wachsende Zahl von Arbeiten, die systematische Risiken generativer KI im Informationsökosystem untersuchen. Neben Manipulation von Zusammenfassungen stehen dabei auch die unbeabsichtigte Verstärkung bestehender Voreingenommenheiten, die Skalierung von Desinformationskampagnen und die Erzeugung täuschend echter Falschinformationen im Fokus. Fachgremien und Regulierungsbehörden diskutieren daher Mindeststandards für Transparenz, Verantwortlichkeit und Sicherheit bei KI-gestützten Informationsdiensten.
Aus der Perspektive der Informationssicherheit gilt die Verwundbarkeit von Zusammenfassungsfunktionen als ein Beispiel dafür, wie sich klassische Angriffsmodelle auf KI-Systeme übertragen lassen. So wird etwa vorgeschlagen, generative Modelle ähnlich wie andere kritische Infrastrukturen regelmäßig auf Schwachstellen zu testen, Angriffsszenarien zu simulieren und Ergebnisse unabhängig überprüfen zu lassen. Ziel ist es, ein Sicherheitsniveau zu etablieren, das mit der zunehmenden Verbreitung solcher Systeme Schritt hält.
Die Ergebnisse der Untersuchung unterstreichen, dass der Einsatz generativer KI im Nachrichten- und Informationsbereich nicht nur technische, sondern auch gesellschaftliche Implikationen hat. Je stärker Nutzerinnen und Nutzer sich auf automatisch erstellte Zusammenfassungen stützen, desto größer ist die Verantwortung der Anbieter, robuste Schutzmechanismen zu implementieren und mögliche Fehlanreize zu adressieren. Parallel dazu bleibt Medienkompetenz ein zentrales Element, um die Wirkung manipulierter Inhalte zu begrenzen.
Benötigen Sie Hilfe bei Ihrem GEO- oder SEO-Projekt? Schreiben Sie uns gerne unter support@mertes-leven.de an.