DA+

Kurzbeitrag : Indirect Prompt Injections bei anwendungsintegrierten KI-Sprachmodellen – was die BSI-„Warnung“ bedeutet : aus der RDV 5/2023 Seite 304 bis 307

Steve RITTERArchiv RDV
Lesezeit 13 Min.

I. Einleitung

Am 18.07.2023 hat das Bundesamt für Sicherheit in der Informationstechnik (BSI) eine BSI-IT-Sicherheitsinformation zu „Indirect Prompt Injections – [als] intrinsische Schwachstelle in anwendungsintegrierten KI-Sprachmodellen“ herausgegeben.[1] Der Beitrag soll beleuchten, was sie für Entwickler, Anbieter und Anwender von anwendungsintegrierten KI-Sprachmodellen technisch aber auch rechtlich bedeutet und warum das BSI solche Informationen überhaupt veröffentlicht.

II. Die BSI-„Warnung“

Die Information des BSI wurde in den Medien teilweise als Warnung aufgegriffen[2] , wurde vom BSI jedoch nur als BSI-IT-Sicherheitsinformation und gerade nicht als Warnung bezeichnet.[3] Das Informationshandeln des BSI wird im Wesentlichen durch § 7 BSIG[4] gesetzlich normiert, der als Befugnis die Informationsaufgabe aus § 3 Abs. 1 S. 2 Nr. 14 und 14a BSIG für Warnungen und Informationen flankiert und konkretisiert.[5] Denn zu den Aufgaben des BSI gehören u.a. die Beratung, Information und Warnung von Herstellern, Vertreibern und Anwendern in Fragen der Sicherheit der Informationstechnik (§ 3 Abs. 1 S. 2 Nr. 14 BSIG). Die bloße Information lässt sich oft nicht leicht von Warnungen oder Beratungen abgrenzen[6], wobei die Lit. a)nnimmt, dass bei der Information gerade noch keine konkrete Gefahrenlage für geschützte Rechtsgüter vorliegen muss.[7] Den Adressaten kann die Zuordnung zu einer der drei Kategorien aber egal sein, da für sie nur entscheidend ist, dass das BSI über bestimmte informationssicherheitsrelevante Umstände informiert und sie in der Lage sind, sich vor den Lücken zu schützen.[8]

Ziel der aktuellen Information ist es, die Entwickler und Anwender von KI auf bestimmte Schwachstellen und Risiken hinzuweisen. Das BSI beschäftigt sich bereits länger mit der Informationssicherheit im Bereich der Künstlichen Intelligenz (KI), da KI-Systeme ganz eigene Sicherheitsrisiken aufweisen[9], die es zu adressieren gilt. Es wirkt an der Erarbeitung von Prüfkriterien, -methoden und -werkzeugen für die Informationssicherheit von KI auf nationaler und europäischer Ebene mit.[10] Zudem hat es Forschungspapiere zu KI-bezogenen Themen veröffentlicht, wie zum sicheren, robusten und nachvollziehbaren Einsatz oder der Erklärbarkeit von KI.[11] Mit dem AI Cloud Service Compliance Catalogue (AIC4)[12] stellt es explizit Anbietern und Nutzern von Cloud-basierter KI Informationsmaterial zur sicheren Nutzung von KI zur Verfügung. Die aktuelle Sicherheitsinformation ist also die konsequente Fortsetzung der bisherigen KI-Tätigkeiten des BSI.

III.Technische Hintergründe

  1. Anwendungsintegration

Ausgangspunkt der Sicherheitseinschätzung des BSI ist, dass große KI-Sprachmodelle (LLM[13]), wie sie etwa ChatGPT nutzt, immer beliebter werden und in einer Form eingesetzt werden, bei der sie Zugriff auf externe Ressourcen (etwa zur Recherche im Internet), den Inhalt anderer Programme (wie z.B. Mails) und sensible Daten (z.B. bei der Texterstellung) haben. Während ChatGPT ursprünglich nur auf eigene und nicht auf externe Daten zugreifen konnte, können Chatbots durch Integration entsprechender Plugins inzwischen z.B. problemlos Internetseiten auslesen und deren Inhalt für die Nutzer auswerten. Diese neuen Möglichkeiten zur Verarbeitung externer Daten durch LLMs lassen nach Auffassung von Wissenschaft und BSI die Grenzen zwischen Daten und Befehlen verschwimmen.[14]

  1. Indirect Prompt Injections

Angreifer haben damit die Möglichkeit, den LLMs heimlich Befehle zukommen zu lassen, um deren Datenverarbeitung zu manipulieren.[15] Das kann z.B. über Text in Schriftgröße null oder in der Farbe des Hintergrundes auf einer Webseite, in einer Mail oder einer Word- oder PDF-Datei erfolgen. Diese sind für Menschen nicht ohne Weiteres sichtbar, werden von der KI aber als normaler Input verarbeitet.[16] Aber auch auf Seiten der Quellen können die Ergebnisse der KI manipuliert werden, indem der KI bei Webseitenabfrage andere Inhalte (und auch Befehle) ausgeliefert werden als einem Menschen, der diese Webseite mit einem Browser besucht. Über die Aufrufparameter kann der Webserver zwischen beiden unterscheiden.[17]

Daraus folgen für das BSI folgende Risiken für verschiedene KI-Anwendungsfälle:

  • „Verwendung eines LLM zur Zusammenfassung oder Analyse von Texten aus externen Quellen

› Angreifende könnten das Ergebnis gezielt manipulieren

  • Verwendung eines Chatbots, der auf modifizierte Internet-Seiten zugreift

› Ergebnisse von Anfragen könnten gezielt manipuliert werden

› Der Chatbot könnte ein unerwünschtes Verhalten aufweisen und beispielsweise rechtlich bedenkliche oder unerwünschte Aussagen treffen

› Der Chatbot könnte Nutzende dazu motivieren, einen (bösartigen) Link aufzurufen

› Der Chatbot könnte versuchen, sensitive Informationen von Nutzenden zu erlangen (z.B. Kreditkarteninformationen)

› Angreifende könnten (unbemerkt) sensitive Informationen aus dem Chatverlauf extrahieren, falls beispielsweise die Möglichkeit zum Aufrufen von URLs oder dem Anzeigen externer Bilder existiert

› Der Chatbot könnte selbst weitere Plugins aufrufen und damit unerwünschte Aktionen ausführen, wie zum Beispiel:

– Zugriff auf das E-Mail-Konto, Zusammenfassung der letzten E-Mails und Extraktion der Informationen

– Veröffentlichung privater Quellcode-Repositories

  • Autonomer Agent der lokal in einem Docker Container läuft und auf ein LLM via API zugreift:

› Angreifende könnten aus dem Container ausbrechen und root-Rechte auf dem Zielsystem erlangen“[18]

Diese Einschätzungen beruhen u.a. auf aktuellen wissenschaftlichen Veröffentlichungen, in denen die Machbarkeit solcher Angriffe (proof of concept) über indirect prompt injections (IPI) erstmals aufgezeigt wurde.[19] Wie sich u.a. an der Liste des BSI zeigt, zeichnen sich IPI dadurch aus, dass sich mit ihnen Angriffe nicht nur gegen KI selbst, sondern auch gegen deren Nutzer richten lassen.[20]

  1. Wie funktionieren die Angriffe?

Die Forschung hat die IPI in verschiedene indirect-injectionMethoden unterteilt, mit denen Angreifer versuchen können, ihre Befehle in die LLMs einzuschleusen. Bei der passiven Methode macht sich ein Angreifer die Fähigkeit von LLMs zunutze, externe Daten aus dem Netz abzurufen, und versteckt seine Befehle in den externen Daten (etwa einer Webseite oder Social Media Posts), die von der KI bei Fragen der Anwender (z.B. nach einer Zusammenfassung zu einem Thema) abgerufen werden.[21] Bei der aktiven Methode werden von den Angreifern aktiv Inhalte an das LLM geschickt. Das kann z.B. eine E-Mail sein, in der die Befehle versteckt sind, und die von einer anwendungsintegrierten KI zur Mailbearbeitung ausgelesen wird.[22] Die Forscher sehen aber auch die Möglichkeit der nutzerbetriebenen Methode, bei der der Angreifer – ähnlich wie bei der passiven Methode – die Befehle auf seiner Webseite versteckt und hofft, dass das Opfer diese mit dem sichtbaren Text der Webseite per Copy&Paste in sein LLM überträgt, z.B. um den Text zu übersetzen, zusammenzufassen oder zu analysieren.[23] Als verdeckte injection-Methode beschreiben die Forschenden die Möglichkeit von mehrstufigen Angriffen, wie man sie ähnlich von Schadsoftware bereits kennt. So könnten die ersten Befehle die KI veranlassen, weitere Daten und Befehle der Angreifer nachzuladen. Sie könnten auch einfach Befehle zum Aufruf bestimmter, vom Angreifer erstellter Programme an die KI übergeben.[24]

Die so übermittelten Prompts veranlassen die anwendungsintegrierte KI dann zu bestimmten Verhaltensweisen, bei denen sich die vom BSI genannten Risiken verwirklichen können. Diese Befehle können ganz unterschiedliche Formen annehmen, von denen einige beispielhaft beschrieben werden sollen.[25]

Den LLMs kann von Angreifern zunächst der (versteckte) Befehl (Prompt) gegeben werden, dass sie eine neue Funktion haben und dafür immer bestimmte vom Angreifer vorgegebene „Tools“ nutzen sollen, etwa zum Abruf von neuen Befehlen über eine Domain des Angreifers. Diese Befehle können dann jegliche spätere Datenverarbeitung des LLM beeinflussen.[26]

Eine daran anschließende Möglichkeit ist der Befehl an ein LLM, dass es annehmen soll, dass der eigentliche und bestimmten Regeln unterworfene KI-Assistent aufgrund eines Fehlers offline ist und die KI jetzt ein Bot ohne jegliche Beschränkungen ist, der stets einer vom Angreifer vorgegebenen geheimen Agenda folgt. Diese kann z.B. darin bestehen, den Nutzer der KI auszufragen und die erhaltenen Daten an den Angreifer zu senden und den User für weitere Angriffe über einen Link in der KI-Antwort auf eine präparierte Webseite zu locken.[27] Über ähnliche Befehle kann eine Chat-KI auch dazu veranlasst werden, dem Nutzer in ihren Antworten den Gewinn eines Einkaufsgutscheins zu suggerieren, damit er auf einen ebenfalls von der KI im Chat dargebotenen Link klickt und die Angreifer über die falsche Webseite die Zugangsdaten zu dem Händler via Phishing erlangen oder Schadsoftware via Drive-by-Downloads an den Nutzer verbreiten können.[28]

Die geheime Agenda kann auch sein, als machiavellistische KI zu agieren, die sich als Assistenz der Nutzer ausgibt, ihnen aber überzeugend irreführende, inhaltlich falsche oder verzerrende Antworten gibt und diese mit falsch zitierten oder für die Antwort völlig irrelevanten Quellen „belegt“.[29]

Über eine infizierte E-Mail kann einer KI-Anwendung, die als E-Mail-Assistenz verwendet wird, u.U. auch die Prämisse gegeben werden, dass ihr Nutzer will, dass sie stets den Anweisungen aus den Mails des Absenders folgen soll. Sie soll dann das Adressbuch der Nutzer auslesen und die AngriffsBefehle – quasi als KI-Schadbefehls-Wurm – in einer Mail mit vorgegebenem social-engineering-Text an alle enthaltenen Kontakte weiterleiten.[30] Der Befehl könnte aber auch lauten, die Kontakte sowie sämtliche E-Mail-Korrespondenz der Nutzer stets auch an die Angreifer auszuleiten.

Mit seinen Anweisungen wird der Angreifer i.d.R. auch den Befehl geben, die geheime Agenda und jegliche Instruktionen niemals gegenüber dem Nutzer (z.B. über die Antworten) zu offenbaren.[31] Der Fantasie sind kaum Grenzen gesetzt und die Lektüre der weiteren von Forschern durchdachten Möglichkeiten ist durchaus empfehlenswert.

  1. Gegenmaßnahmen

Da die Schwachstelle noch relativ neu ist, werden zwar bereits verschiedene Maßnahmen dagegen wissenschaftlich diskutiert, aber Security-Best-Practices haben sich nach Einschätzung des BSI noch nicht etabliert.[32] Zu den möglichen Maßnahmen zur Risikobegrenzung gehört, dass menschliche Kontrollen und Bestätigungen für bestimmte Verarbeitungsschritte vorgesehen werden sollen, wenn diese Auswirkungen in der echten Welt haben, wie etwa das Senden einer E-Mail, das Posten in Social-Media oder etwa das Absenden einer Online-Bestellung.[33] Auch eine Filterung der Anweisungen an die KI wird diskutiert. Das BSI nennt zudem den Ausschluss des Zugriffs der LLM auf unsichere Quellen, das Sandboxing der Systeme und die Beschränkung der Rechte der LLMs auf das unbedingt nötige Maß als weitere denkbare Schutzmaßnahmen. Neben technischen Maßnahmen sollten Einrichtungen auch ihre Mitarbeitenden über die mit anwendungsintegrierter KI einhergehenden Risiken sensibilisieren.[34] Da die Verlockungen entsprechender KI-Produkte für die Mitarbeiter groß und diese im Netz auch oft frei verfügbar sind, sollten die Einrichtungen das auch dann tun, wenn sie den Mitarbeitenden selbst gar keine anwendungsintegrierte KI zur Verfügung stellen. Denn „Schatten-KI“ dürfte zur Arbeitserleichterung in mehr Einrichtungen im Einsatz sein, als diesen selbst bewusst ist.

IV. Rechtliche Folgen der BSI-Veröffentlichung

Spätestens mit der BSI-Veröffentlichung müssen sich Entwickler, Anbieter und Anwender der anwendungsintegrierten KI mit den darin skizzierten Risiken auseinandersetzen und prüfen, ob sie risikominimierende Schritte einleiten. Tun sie das nicht, könnten sie gegen rechtliche Pflichten oder Obliegenheiten verstoßen, die jedoch nachfolgend nur unvollständig angerissen werden sollen.

Soweit anwendungsintegrierte KI auch zur Verarbeitung von personenbezogenen Daten verwendet wird (z.B. bei Zugriff auf E-Mail-Postfächer), müssen sich die Anwender als Verantwortliche schon aufgrund von Art. 32 DS-GVO Gedanken dazu machen, ob die Sicherheit der Verarbeitung noch gewährleistet ist. Sofern Risiken bestehen, muss dann geprüft werden, ob das Risiko durch bestimmte Maßnahmen (s.o. III. 4.) auf ein akzeptables Maß reduziert werden kann oder die entsprechende Verarbeitung nicht durchgeführt werden darf. Unterlassen sie das, verstoßen sie gegen Art. 32 DS-GVO und es drohen Bußgelder für fehlende Absicherungsmaßnahmen.

Sofern sie vertrauliche, nicht-personenbezogene Daten für Auftraggeber verarbeiten, die über die Lücken abhandenkommen könnten, droht bei fehlenden Gegenmaßnahmen eine Haftung wegen Pflichtverletzung.[35] Für den Fall, dass die mittels KI erzeugten Arbeitsergebnisse Fehler aufweisen, weil Angreifer die Lücken genutzt haben, um die Verarbeitung zu sabotieren, können den Anwendern Gewährleistungsansprüche der Auftraggeber drohen.

Unternehmen sollten sich mit den genannten Risiken auch deswegen beschäftigen, da über die Sicherheitslücken auch solche Daten abfließen könnten, die das Unternehmen als Betriebs- und Geschäftsgeheimnis geschützt wissen will. Rechtlichen Schutz als Geschäftsgeheimnis genießen die Daten nach § 2 Nr. 1 lit. b) GeschGehG nämlich nur dann, wenn der Geheimnisinhaber eigene technische, organisatorische oder rechtliche Schutzmaßnahmen zur Sicherung seiner Geheimnisse trifft.[36] Dementsprechend müssen Unternehmen auch geeignete Maßnahmen zum Schutz der Risiken für ihre Daten ergreifen, die aus der Nutzung von anwendungsintegrierter KI folgen.

Entwickler bzw. Anbieter von anwendungsintegrierter KI sollten sich ebenfalls mit den Risiken beschäftigen. Denn bei Produkten, aus denen ein Abfluss von personenbezogenen Daten droht – wie bei der KI zur E-Mail-Bearbeitung – steht die Frage im Raum, ob sie mangelfrei sind, da sie sich u.U. wg. Verstoßes gegen Art. 32 DS-GVO nicht zur Verarbeitung personenbezogener Daten eignen.[37] Wollen sie die Mangelfreiheit ihrer Produkte für möglichst viele Anwendungsfälle sicherstellen, sollten sie versuchen, die Risiken in der Produktentwicklung zu reduzieren. Zudem sollten auch sie die Kunden über die mit ihren Produkten zusammenhängenden Risiken transparent informieren.[38] Denn zumindest die entwickelnden Betreiber und Anbieter der anwendungsintegrierten KI könnte eine Produktbeobachtungs- und Gefahrenabwehrpflicht treffen, da auch hinsichtlich der IT-Sicherheit von Software eine Produktbeobachtungspflicht bestehen kann[39], an die sich die Pflicht zur Verhinderung von Schäden durch die Produkte, insbesondere in Form von Hinweis- und Warnpflichten, anschließen kann[40]. Eine behördliche Warnung lässt diese Pflichten nicht ohne Weiteres entfallen.[41]

Aufgrund des Phishing-Potenzials von Chat-Bots sollte sich eigentlich jeder, der gesetzlich zur Informationssicherheit verpflichtet ist, mit den Risiken beschäftigen.

V. Fazit

Bei anwendungsintegrierten Sprachmodellen besteht das Risiko, dass durch indirect prompt injections vertrauliche und ggf. auch personenbezogene Daten in unbefugte Hände gelangen können. Anwender müssen angesichts der Veröffentlichung des BSI sicherstellen, dass sie technische oder organisatorische Maßnahmen treffen, um eine solche unbefugte Offenbarung bestimmter vertraulicher Daten zu verhindern. Auch gegen die Möglichkeit manipulierter Antworten durch anwendungsintegrierte KI müssen sich die Entwickler, Anbieter und Anwender von KI wappnen. Tun sie das nicht, kann dies – je nach Art der Datenverarbeitung – einen bußgeldbewehrten Verstoß gegen Datenschutzrecht darstellen, haftungsrechtliche Fragen aufwerfen oder Firmen könnten den Schutz des GeschGehG verlieren.

* Steve Ritter ist Referatsleiter im Bundesamt für Sicherheit in der Informationstechnik, Mitglied im Vorstand der GDD e.V. und Lehrbeauftragter an der TH Köln. Der Beitrag gibt seine persönliche Auffassung wieder.

[1]Https://www.bsi.bund.de/SharedDocs/Cybersicherheitswarnungen/DE/2023/2023-249034-1032.pdf

[2] Vgl. https://www.heise.de/news/BSI-warnt-vor-Prompt-Injections-bei-generativen-Sprachmodellen-9222807.html

[3] Anders z.B. in der „BSI-Cyber-Sicherheitswarnung“ zur Log4Shell-Schwachstelle: https://www.bsi.bund.de/SharedDocs/Cybersicherheitswarnungen/DE/2021/2021-549177-1032.pdf.

[4] BSI-Gesetz vom 14.08.2009 (BGBl. I S. 2821), das zuletzt durch Art. 12 des Gesetzes vom 23.06.2021 (BGBl. I S. 1982) geändert worden ist.

[5] Vgl. Kipker-Ritter, Cybersecurity, 2. Aufl., Kap. 15, Rn. 38; Ritter-Schulte, Die Weiterentwicklung des IT-Sicherheitsgesetzes, Rn. 299 und 305f.; Kipker/ Reusch/Ritter-Leisterer, Recht der Informationssicherheit, §  7 BSIG Rn. 1; Schenke/Graulich/Ruthig-Buchberger, Sicherheitsrecht des Bundes, 2. Aufl. § 7 BSIG Rn. 1.

[6] Vgl. Kipker/Reusch/Ritter-Ritter, (s. Fn. 5), § 3 BSIG Rn. 20; Ritter-Schulte, (s. Fn. 5), Rn. 307

[7] Vgl. Kipker/Reusch/Ritter-Leisterer, (s. Fn. 5), §  7 BSIG Rn. 11; Ritter-Schulte, (s. Fn. 5), Rn. 307

[8] Leisterer/Schneider, K&R 2015, 681, 682

[9] Kipker-Gollrad, (s. Fn. 5)., Kap. 20, Rn. 22.

[10] Vgl. Kipker-Ritter, (s. Fn. 5), Kap. 15, Rn. 50

[11]Https://www.bsi.bund.de/DE/Themen/Unternehmen-und-Organisationen/Informationen-und-Empfehlungen/Kuenstliche-Intelligenz/kuenstliche-intelligenz_node.html.

[12]Https://www.bsi.bund.de/SharedDocs/Downloads/EN/BSI/CloudComputing/AIC4/AI-Cloud-Service-Compliance-Criteria-Catalogue_AIC4.pdf.

[13] Englisch für Large Language Model.

[14] BSI-CSW 2023-249034-1032, 18.07.2023, S. 3, abrufbar unter: https://www.bsi.bund.de/SharedDocs/Cybersicherheitswarnungen/DE/2023/2023-249034-1032.pdf; Greshake et al., Not what you’ve signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection, S. 1, abrufbar unter: https://arxiv.org/pdf/2302.12173.pdf.

[15] BSI-CSW 2023-249034-1032, 18.07.2023, S. 1.pdf

[16]BSI-CSW 2023-249034-1032, 18.07.2023, S. 2.pdf, Greshake et al., S. 3

[17] BSI-CSW 2023-249034-1032, 18.07.2023, S. 2.pdf.

[18] BSI-CSW 2023-249034-1032, 18.07.2023

[19] BSI-CSW 2023-249034-1032, 18.07.2023, S. 3.

[20] Greshake et al., S. 1 f, 3.

[21] Greshake et al., S. 3 f.

[22] Greshake et al., S. 4.

[23] Vgl. Greshake et al., S. 4

[24] Greshake et al., S. 4.

[25] Die konkreten Prompts und welche Ergebnisse sie produzieren zeigen Greshake et. al., S. 14 ff

[26] Greshake et al., S. 20, bei dem das LLM nur veranlasst wurde, jede Antwort mit einem Piratenakzent zu geben.

[27] Vgl. Greshake et al., S. 6 f. und 16.

[28] Greshake et al., S. 7 und 17 f

[29] Greshake et al., S. 9 und 23

[30] Greshake et al., S. 8 und 19

[31] Vgl. etwa die Prompts bei Greshake et al., S. 16, 19 oder 25.

[32] BSI-CSW 2023-249034-1032, 18.07.2023, S. 4

[33] Vgl. BSI-CSW 2023-249034-1032, 18.07.2023, S. 4; https://openai.com/blog/function-calling-and-other-api-updates

[34] BSI-CSW 2023-249034-1032, 18.07.2023, S. 4

[35] Vgl. Schwartmann/Ritter, FuL 2020, 664 f. speziell für den Bereich der Hochschulen.

[36] Hessel/Leffer, MMR 2020, 647 (649); Scholtyssek/Judis/Krause, CCZ 2020, 23 (24); Voigt/Hermann/Grabenschröer, BB 2019, 142 f. und 144

[37] Vgl. zur Problematik Heidelberger Kommentar DS-GVO/BDSG-Ritter, Art. 32 DS-GVO Rn. 25.

[38] So weist etwa OpenAI auf die Risiken im Zusammenhang mit Funktions- und API-Aufrufen über ChatGPT hin und empfiehlt bestimmte Einzelmaßnahmen: https://openai.com/blog/function-calling-and-other-api-updates.

[39] Schmid, IT- und Rechtssicherheit automatisierter und vernetzter cyber-physischer Systeme, S. 193 ff.; Hornung/Schallbruch-Spindler, IT-Sicherheitsrecht, § 11 Rn. 31 nimmt das besonders für KI-Systeme an.

[40] Vgl. Schmid (FN 27), S. 193 ff.; Hornung/Schallbruch-Spindler, IT-Sicherheitsrecht, § 11 Rn. 32.

[41] Kipker/Reusch/Ritter-Leisterer, (s. Fn. 5), § 7 BSIG Rn. 13.