Eine aktuelle Untersuchung der University of Chicago beschreibt neue Angriffsvektoren auf KI-Funktionen zur Textzusammenfassung, wie sie unter anderem in Microsoft-Diensten bereitgestellt werden. Demnach können Funktionen, die längere Inhalte mit einem Klick in kompakte Empfehlungen oder Zusammenfassungen überführen, gezielt manipuliert werden, um irreführende oder falsche Informationen hervorzuheben.
Im Mittelpunkt stehen automatisierte Zusammenfassungsfunktionen, die in Browsern, Office-Anwendungen und auf Nachrichtenportalen eingesetzt werden. Solche Systeme greifen in der Regel auf große Sprachmodelle zurück, die Eingabetexte analysieren und daraus Kernaussagen ableiten. In mehreren Testszenarien zeigte sich, dass bereits kleine, strategisch platzierte Textfragmente ausreichen können, um die Ausgabe systematisch zu verzerren. Als Technik kommt dabei häufig sogenanntes Prompt- oder Indirekt-Prompt-Injection zum Einsatz, bei dem der ursprüngliche Inhalt unsichtbare oder unauffällige Anweisungen an das Modell enthält.
Die Forschenden konnten nachweisen, dass manipulierte Eingabetexte auf unterschiedlichen Plattformen verbreitet werden, darunter soziale Netzwerke, Diskussionsforen und kommentierbare Nachrichtenangebote. Insbesondere dort, wo Inhalte automatisiert aggregiert und anschließend mit KI-Funktionen zusammengefasst werden, entsteht ein Risiko, dass manipulierte Aussagen eine überproportionale Rolle in den erzeugten Empfehlungen einnehmen. Dadurch kann der Eindruck entstehen, eine bestimmte Sichtweise sei durch die KI validiert oder besonders relevant.
Ein zentrales Ergebnis der Untersuchung ist die Diskrepanz zwischen technischer Funktionsweise und öffentlicher Wahrnehmung. Viele Nutzende schätzen KI-Zusammenfassungen als objektive, neutrale Verdichtung ein und übertragen das Vertrauen in die Infrastruktur-Anbieter auf die konkret generierten Inhalte. Studien zur Mediennutzung zeigen jedoch, dass große Sprachmodelle anfällig für sogenannte Halluzinationen sind, also für das Erfinden nicht belegter Fakten, und zudem auf die Qualität der Trainings- und Eingabedaten angewiesen bleiben. In Kombination mit gezielten Manipulationsversuchen kann dies die Verbreitung von Fehlinformationen verstärken.
Der Bericht verweist auf bekannte Sicherheitslücken von Sprachmodellen, die bereits in anderen Kontexten dokumentiert wurden. Dazu zählen Datenvergiftungsangriffe, bei denen Trainings- oder Referenzdaten vorsätzlich verändert werden, sowie Content-Poisoning in offenen Plattformen, auf denen später KI-Tools operieren. Ergänzend werden Risiken durch eingebettete Anweisungen in HTML, Markdown, Code-Snippets oder Metadaten beschrieben, die von Modellen häufig als Teil des zu interpretierenden Kontextes verstanden werden.
Nach Veröffentlichung entsprechender Forschungsergebnisse haben mehrere Anbieter großer KI-Plattformen angekündigt, Schutzmechanismen zu verstärken. Dazu gehören Filter für Anweisungen in Nutzerdaten, Systeme zur Erkennung verdächtiger Muster in Inhalten und abgestufte Sicherheitsrichtlinien, die bestimmte Eingaben entschärfen oder ignorieren. Im Umfeld von Microsoft-Diensten wurden unter anderem Verbesserungen an Inhaltsmoderation, Richtlinien-Updates für Integrationspartner sowie zusätzliche Prüfmechanismen in KI-Funktionen kommuniziert. Ziel ist es, das Risiko zu reduzieren, dass schädliche oder irreführende Eingaben ungefiltert in Zusammenfassungen oder Empfehlungen einfließen.
Fachkreise fordern darüber hinaus mehr Transparenz über die Arbeitsweise solcher Systeme. Empfohlen werden klar gekennzeichnete KI-generierte Inhalte, Hinweise auf potenzielle Fehlerquellen sowie besser sichtbare Erläuterungen, dass Zusammenfassungen keine redaktionelle Prüfung ersetzen. Ergänzend werden technische Maßnahmen diskutiert, darunter robuste Prompt-Filter, mehrschichtige Sicherheitsprüfungen, Modelltests mit adversarialen Beispielen und Richtlinien für Integrationen in Drittplattformen.
Regulatorische Entwicklungen auf internationaler Ebene greifen diese Fragestellungen zunehmend auf. Der AI Act der Europäischen Union etwa sieht Anforderungen an Transparenz, Risikobewertung und Sicherheitsmechanismen für bestimmte KI-Systeme vor. Auch in anderen Regionen werden Leitlinien und Standards erarbeitet, die unter anderem den Umgang mit generativer KI, den Schutz vor manipulativen Inhalten und die Verantwortung von Anbietern und Betreibenden adressieren.
Die Untersuchung unterstreicht, dass KI-Zusammenfassungen nicht isoliert betrachtet werden können, sondern Teil komplexer Informationsökosysteme sind. Angriffe auf diese Schnittstellen zwischen Rohdaten und Nutzeroberfläche besitzen das Potenzial, Informationsflüsse großflächig zu beeinflussen. Langfristig wird daher eine Kombination aus technischer Härtung, organisatorischen Prozessen, kontinuierlicher Sicherheitsforschung und Aufklärung der Nutzenden als notwendig angesehen, um die Integrität von KI-gestützten Empfehlungssystemen zu schützen.
Benötigen Sie Hilfe bei Ihrem GEO- oder SEO-Projekt? Schreiben Sie uns gerne unter support@mertes-leven.de an.