DA+

Aufsatz : Sind Personendaten in KI-Modellen personenbezogen? Eine kontroverse Debatte : aus der RDV 6/2024, Seite 313 bis 317

Wer heute mit KI interagiert, denkt nicht unbedingt an Datenschutz. Wir freuen uns, wie treffsicher ChatGPT und Claude unsere Fragen beantworten. Doch hinter den Fähigkeiten dieser KI-Systeme stecken sogenannte Large Language Models (LLMs) – große Sprachmodelle, trainiert mit riesigen Text- und Datenvolumina. Aufgrund der Verarbeitung dieser Trainingsdaten können Sie unsere Welt sprachlich abbilden. Doch: Speichern LLMs bei all dem auch personenbezogene Daten aus diesen Trainingsdaten? Inwieweit das Datenschutzrecht diese Technologie regulieren kann, wird aktuell kontrovers diskutiert.

Einstieg

Dabei ist eine Unterscheidung[1] wichtig: Ein LLM (GPT-4o) ist nicht gleichzusetzen mit dem KI-System (ChatGPT), in dem es zum Einsatz kommt.[2] Es ist ein wesentliches Element des KI-Systems, isoliert oder ruhend aber nutzlos. Um es mit einem Auto zu vergleichen: Das LLM ist der Motor, während Benutzeroberfläche, Einbindung von Internetsuchen und Ausgabefilter quasi Karosserie und Fahrwerk bilden – und erst alles zusammen das fahrtüchtige Kraftfahrzeug.

Diese Unterscheidung ist auch rechtlich relevant. Denn klar ist, dass KI-Systeme in ihren Ein- und Ausgabeprozessen personenbezogene Daten verarbeiten können. Man denke nur an Support-Chatbots im Online-Handel, die ständig mit Kundendaten arbeiten. Oder an Gesichtserkennungssysteme, die biometrische Daten analysieren. In solchen Fällen greift das Datenschutzrecht unzweifelhaft. Weitgehend einig ist man sich auch, dass das Training mit den Massen an Texten eine Verarbeitung personenbezogener Daten sein kann. Es geht in der Debatte also nicht um das Training oder die sog. Ein- oder Ausgabe von KI-Systemen. Umstritten ist, ob die zugrunde liegenden LLMs – die Motoren der KI-Systeme – selbst personenbezogene Daten aus ihren Trainingsdaten speichern.

Die Beantwortung dieser Frage ist kein bloßes Glasperlenspiel. Als Kerntechnologie moderner KI-Systeme bilden LLMs die Basis für eine Vielzahl von Anwendungen, die Einzug in unseren Alltag halten. Gleichzeitig stehen wir vor der Herausforderung, dass die genaue Funktionsweise von LLMs intransparent bleibt. Als hochkomplexe Systeme, die aus Milliarden von Parametern bestehen und auf der Basis statistischer Wahrscheinlichkeiten operieren, entziehen sie sich oft einer direkten Analyse. Es ist nicht immer klar ersichtlich, wie genau große Sprachmodelle zu einem bestimmten Ergebnis kommen und wie sie mit Trainingsdaten umgehen. Um im Bild zu bleiben: Es ist, als würden wir ein Auto betrachten, dessen Motorhaube versiegelt ist. Wir wissen, dass der Motor läuft und das Auto fährt, aber wir können nicht genau erklären, wie der Motor funktioniert. Diese Autonomie der KI wird auch in der KI-Verordnung der Europäischen Union adressiert. Aus ihr folgt, dass KI menschlich nicht beherrschbar, sondern nur in konkreten Kontexten verantwortbar ist. Aber was, wenn die Betriebserlaubnis davon abhinge? Die Frage, ob LLMs personenbezogene Daten speichern, hat direkte Auswirkungen auf ihre Vereinbarkeit mit der Datenschutz-Grundverordnung (DS-GVO) und damit auf die Möglichkeiten und Grenzen ihres Einsatzes.

Auch wenn die genauen Betriebsaktivitäten von LLMs nicht einsehbar sind, ist bekannt, wie sie gebaut werden. Dieses Wissen ist essenziell, um die rechtliche Problematik einordnen zu können. LLMs sind hochkomplexe KI-Modelle, die darauf trainiert werden, Struktur und Muster menschlicher Sprache zu erkennen und zu reproduzieren. Dazu werden sie mit riesigen Mengen an Textdaten gefüttert. Im Trainingsprozess zerlegen sie diese Daten in Zeicheneinheiten, sogenannte Tokens. Diese sind in der Regel kleiner als ganze Wörter und größer als einzelne Buchstaben. Durch statistische Analyse lernen die Modelle, welche Tokens häufig zusammen auftreten, wie sie sich gegenseitig bedingen und zu Sätzen und Texten fügen. Das Ergebnis dieses Lernprozesses sind mathematische Repräsentationen, sogenannte Embeddings. In ihrer Gesamtheit kodieren sie das gesamte Wissen des LLMs über die Sprache, in Milliarden von Wortbeziehungen. Man kann sich diese Embeddings vorstellen wie Knoten in einem dichten Netz, in dem unser Sprachschatz verwoben ist. Doch enthalten diese Embeddings selbst personenbezogene Daten?

Juristisch liegt ein personenbezogenes Datum dann vor, wenn eine Information einer bestimmten Person zugeordnet werden kann.[3] Direkt oder indirekt muss es sich um eine Information über einen Menschen handeln. So ist etwa eine Versicherungs-, Abonnement-, oder Bibliotheksausweisnummer ohne Kontext erst einmal nichtssagend. Kann die Versicherung, der Verlag oder die Bücherei sie aber einer konkreten Person zuordnen, handelt es sich in ihren Händen um ein personenbezogenes Datum.

Ob diese Definition auf die Embeddings in LLMs zutrifft, ist der Kern der Debatte. Die Einen betonen, dass die Embeddings hochdimensionale Vektoren sind, die keine konkreten Sätze oder Fakten enthalten.[4] Sie repräsentieren statistische Wahrscheinlichkeiten darüber, wie unsere Sprache funktioniert. Die Anderen sagen, dass diese Sprachmuster ein Spiegelbild unserer Realität sind, weil die Muster unserer Sprache die Strukturen unserer Welt reflektieren.[5] Fraglich ist, ob die Embeddings Informationen über Menschen aus dem Trainingsdatensatz speichern oder lediglich, dass Wortfragmente in bestimmten Kontexten häufig verbunden sind, ohne eine konkrete Information über einen Menschen zu sichern.  Anders gefragt: Trägt der nicht einsehbare Motor, der ChatGPT antreibt, in seinem Inneren identische Abdrücke von Personen aus dem Training oder sind es bloß statistische Beziehungen, aus denen erst durch entsprechende Eingaben im System personenbezogene Informationen neu generiert werden?

Debattenbeitrag 1:

Wahrscheinlichkeiten reichen nicht:

Warum KI-Modelle keine Datenspeicher sind

„Trinkt der bayerische Ministerpräsident Markus Söder gerne Bier?“ ChatGPT antwortet auf diese Frage derzeit wahrscheinlich mit „Ja, Markus Söder, der bayerische Ministerpräsident, trinkt gerne Bier“. Dabei ist bekannt, dass Herr Söder kaum Alkohol trinkt. Hat Söder nun einen Anspruch auf Berichtigung dieser Fehlinformation im Sprachmodell von ChatGPT?

Diese Thematik greift ein Diskussionspapier des Hamburgischen Beauftragten für Datenschutz und Informationsfreiheit auf[6] und hat dadurch eine auch international geführte Debatte angestoßen.[7] Diese ist wichtig, um einen einheitlichen Blick auf den Umgang von KI und Datenschutz zu entwickeln. Die Hamburger These besagt, dass zwischen KI-Systemen und KI-Modellen zu trennen ist und in den gängigen LLM keine personenbezogenen Daten im Sinne der DS-GVO gespeichert werden.[8] LLM-Embeddings bilden lediglich ein Netz statistischer Beziehungen von Wortteilen. Erst bei der Ausgabe im KI-System werden personenbezogene Daten verarbeitet. Das bloße Vorhalten eines LLMs unterliegt daher nicht der DS-GVO. Betroffenenrechte müssen durch das datenverarbeitende KI-System erfüllt werden.

Diese These mag kontraintuitiv erscheinen, erklärt sich aber durch die Funktionsweise von KI-Systemen und LLMs. Es gilt gerade nicht: „Wenn es da rauskommt, muss es doch dort drin sein“. Was aus einem KI-System herauskommt, ist nicht zwingend im LLM gespeichert. KI-Systeme wie ChatGPT bestehen aus mehreren Komponenten, nicht nur aus dem Sprachmodell selbst. Das Ausgabefeld zeigt lediglich, dass das KI-System personenbezogene Daten generiert hat, nicht aber 1:1, was im zugrunde liegenden Sprachmodell gespeichert ist.[9]

Auch bei isolierter Betrachtung des LLM speichern Embeddings keine konkreten Informationen über Personen. Stattdessen werden Wortfragmente der Begriffe „Markus Söder“, „Bayerischer Ministerpräsident“ und „Bier“ mit wahrscheinlichen Assoziationsketten für bayerische Politiker verknüpft. Diese allgemeinen Wahrscheinlichkeitsketten stellen jedoch keine Information über eine konkrete Person dar, wie sie die EuGH-Rechtsprechung für den Begriff des Personenbezugs voraussetzt.[10]

Einige Experten argumentieren, dass sogenannte „Privacy-Attacks“ Teile der ursprünglichen personenbezogene Trainingsdaten zutage fördern können. Hier wird postuliert: „Was reingekommen ist, muss doch noch drin sein“. Diese Angriffe liefern aber bestenfalls zufällige Datenfragmente, eine gezielte Suche nach Informationen über bestimmte Personen im LLM ist nicht möglich.[11] In der Praxis erfordern solche Angriffe außerdem Fachexpertise, Rechenressourcen und Zeit,[12] während die Rechtsprechung des EuGH für die Annahme eines Personenbezugs verlangt, dass kein unverhältnismäßiger Aufwand nötig sein darf, um ihn herzustellen.[13]

Letztlich offenbart die Debatte ein grundlegendes Dilemma: In den komplexen statistischen Modellen verschwimmt die klare Grenze zwischen Personenbezug und Nicht-Personenbezug. Ob sich aus den Abermillionen statistischer Verknüpfungen in einem LLM noch konkrete Personenbezüge herstellen lassen, ist keine binäre Frage, sondern eine Frage der Wahrscheinlichkeit.[14]Diese variiert je nach Modell und hängt von Faktoren wie Trainingsdaten, Modellkomplexität und Abfragetechniken ab.

Unsere Datenschutzregeln sind für diese probabilistische Welt nicht ausgelegt. Die DS-GVO kennt nur Personenbezug oder keinen Personenbezug, aber keinen „Vielleicht-Personenbezug“.[15] Diese Klarheit funktioniert in einer Welt von Excel-Namenslisten und Personendatenbanken. Bei LLMs stößt dieses binäre Denken an seine Grenzen. Die DS-GVO verlangt von Aufsichtsbehörden handfeste Beweise für das sichere Vorliegen einer personenbezogenen Datenverarbeitung,[16]mehr oder weniger vage Möglichkeiten reichen bspw. nicht, um eine Geldbuße festzusetzen.

Heißt das nun, dass wir Sprachmodelle einfach vom Datenschutz ausnehmen sollten? Keinesfalls. Aber wir müssen genau hinschauen, wo tatsächlich die Risiken für Betroffene liegen.

Würden Embeddings als Datenspeicher im LLM eingestuft, müssten Anbieter theoretisch jeder Person Auskunft geben und Daten auf Verlangen berichtigen oder löschen. Dies ist unstreitig technisch nicht umsetzbar:[17] Ein Löschversuch gleicht einem einzelnen, ungezielten Scherenschnitt[18] – er macht das Netz unbrauchbar, ohne alle relevanten Knotenpunkte zu erwischen. In den verbleibenden Embeddings bleiben statistische Muster erhalten, die indirekt auf die „gelöschten“ Daten verweisen. Wäre damit den Betroffenen konkret geholfen? Der Ansatz kann keinen Weg aufzeigen, wie LLM-basierte Systeme datenschutzkonform genutzt werden können.[19]

Stattdessen sollte sich der Datenschutz auf eine zielgenaue Regulierung in Bereichen konzentrieren, in denen sicher mit personenbezogenen Daten umgegangen wird: beim Trainieren der Modelle, der Eingabe von Nutzerdaten in KISysteme und vor allem bei der Ausgabe sowie deren Verwendung.[20] Ansprüche auf Löschung, Berichtigung oder Auskunft sollten sich folglich auf das KI-System richten, nicht auf das Modell. Auch das Training des Modells ist von der Nutzung des Systems zu trennen: Ein etwaiges rechtswidriges LLMTraining hindert nicht zwingend die rechtmäßige Nutzung eines KI-Systems.

Der Hamburger Ansatz verdeutlicht im Übrigen nicht nur, dass KI-Modelle keine personenbezogenen Daten speichern, sondern auch, dass sie im Rahmen eines KI-Systems grundsätzlich keine zuverlässigen Recherchewerkzeuge sind. Ohne Datenbankabgleiche „erfinden“ LLM-basierte KI-Systeme neue Inhalte, die nicht immer der Realität entsprechen. Deshalb generiert ChatGPT auf die Frage nach Söders Trinkgewohnheiten eine „wahrscheinliche“, aber falsche und noch harmlos diskriminierende Antwort. Nutzer/-innen tragen deshalb die Verantwortung für die kritische Verwendung dieser generierten Daten.

Für die Sprachmodelle selbst braucht es eine andere Regulierung. Hier kommt die neue KI-Verordnung ins Spiel: Sie stellt sicher, dass die Modelle hinter Systemen wie ChatGPT nach Produktstandards gebaut werden – und bei Nichteinhaltung vom Markt gezogen werden.[21] Das Datenschutzrecht hingegen regelt – um zum Anfangsbild zurückzukehren – nicht die Konstruktion des Motors, sondern dessen Nutzung im Straßenverkehr. Wahrscheinliche Gefährdungen durch den Motor fallen unter die KI-VO, nicht den Datenschutz. Die DS-GVO sorgt für einen sicheren Datenverkehr.

In Zukunft werden diese beiden Instrumente Hand in Hand arbeiten. Die KI-VO regelt den Motor, die DS-GVO den Verkehr. Gemeinsam schaffen sie die Grundlage für eine rechtssichere KI. Durch die abgestimmte Kombination beider Gesetze ebnen wir den Weg für einen zukunftsfähigen Rechtsrahmen, der Innovationen ermöglicht und gleichzeitig die Rechte der Bürger/-innen im Kontext fortschreitender KIEntwicklungen schützt – eine gesamtgesellschaftliche Aufgabe, der wir uns stellen müssen.

Thomas Fuchs, LL.M. Eur. ist seit 2021 Hamburgischer Beauftragter für Datenschutz und Informationsfreiheit. Zuvor war er von 2008 bis 2021 Direktor der Medienanstalt Hamburg/Schleswig-Holstein.

Dr. Markus Wünschelbaum ist Persönlicher Referent für Policy und Datenstrategie beim Hamburgischen Beauftragten für Datenschutz und Informationsfreiheit.

Debattenbeitrag 2:

Warum es auf Wahrscheinlichkeiten ankommt:

Darum sind personenbezogene Daten auch in LLM geschützt

Es gibt keine Sprache ohne Information. Da LLM statistische Wahrscheinlichkeiten zur Funktionsweise der menschlichen Sprache repräsentieren, speichern sie auch Informationen über die Umwelt und die Menschen, die mit dieser Sprache beschrieben werden. Die Modelle enthalten deshalb auch personenbezogene Daten.[22]

Ausgangspunkt für den Schutz personenbezogener Daten in LLM ist die DS-GVO. Sie dient dem Schutz des Menschen durch den Schutz seiner persönlichen Informationen.[23] Die DS-GVO versteht unter personenbezogenen Daten alle Informationen, die sich auf eine identifizierte oder identifizierbare Person beziehen.[24] Nach der Rechtsprechung des Europäischen Gerichtshofs (EuGH), der für die Auslegung der DS-GVO zuständig ist, hängt die Identifizierbarkeit einer Person unter anderem davon ab, ob sie mit einem verhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskräften durchführbar ist.[25] Für den Personenbezug von LLM sind deshalb zwei Fragen entscheidend: Speichern die Modelle überhaupt Informationen über Personen? Und können solche Informationen mit verhältnismäßigem Aufwand abgerufen werden?

Vertreter der Gegenmeinung betonen, dass in einem LLM lediglich Tokens gespeichert und durch unterschiedlich starke Verbindungen verknüpft sind. Deren Aussagegehalt beschränke sich auf die Wiedergabe spezifischer Eigenheiten der menschlichen Sprache. Informationen über Personen sollen dagegen nicht gespeichert sein. Die Eigenheiten der menschlichen Sprache führen allerdings regelmäßig dazu, dass eine wahrscheinliche Wortfolge eine bestimmte Information über eine Person vermittelt. Wird die aktuelle Version von ChatGPT aufgefordert, im Zusammenhang mit Olaf Scholz dessen Geburtsdatum anzugeben, dann wird es in der Regel korrekt genannt. Das haben Versuche gezeigt. Das mag lediglich Ausdruck der Wahrscheinlichkeitsverteilungen im zugrunde liegenden Sprachmodell GPT-4o sein. Zufällig ist die Reihenfolge der einzelnen Wörter allerdings nicht und informativ ist sie allemal.

Das Datenschutzrecht enthält keine Anhaltspunkte dafür, dass die Speicherung des Wissens über Menschen durch Wahrscheinlichkeitsverteilungen in Sprachmodellen anders zu behandeln ist als die Zuordnung eines Versicherten zu einer Versicherungsnummer. Die Versicherungsnummer lässt sich dem Versicherten durch die Aufzeichnungen der Versicherung im Sinne einer Wenn-Dann-Regel zweifelsfrei zuordnen. Warum aber sollte etwas anderes für ein Sprachmodell gelten, das die passende Versicherungsnummer zielsicher auf Grundlage einer wahrscheinlichen Aneinanderreihung von Tokens ermittelt? Gerade die neuen Sprachmodelle zeichnen sich durch eine hohe Treffsicherheit bei der Simulation unserer Sprache aus. Diese beruht im Wesentlichen auf sogenannten Aufmerksamkeitsmechanismen, die Texte, Wörter und einzelne Tokens im LLM in einen Kontext rücken.

Sie führen dazu, dass auf das Wort „Arbeitsplatz“ in einem Text über die nordrhein-westfälische Landesdatenschutzbeauftragte das Wort „Düsseldorf“ folgt, während sich in einem Text über den hessischen Landesdatenschutzbeauftragten das Wort „Wiesbaden“ anschließt. Auch dadurch entsteht zwar kein semantisches Verständnis des Sprachmodells. Die Verknüpfung von wahrscheinlichkeitsbasierter Sprache und Information wird aber weiter verstärkt. Diese tatsächliche Betrachtung spiegelt sich in der rechtlichen Bewertung wider: Die DS-GVO verlangt für die Speicherung von Informationen keinen streng regelbasierten Wenn-Dann-Prozess. Der Personenbezug wird also nicht zwingend aufgelöst, wenn Informationen durch einen Wahrscheinlichkeitsbezug gespeichert werden.[26]

Die Konsequenz ist, dass die Verankerung wahrscheinlicher Wortfolgen in LLM regelmäßig Informationen über natürliche Personen in sich trägt. Die Differenzierung zwischen KI-System und LLM ist dabei zwar für das Verständnis der technischen Hintergründe essenziell. Sie ist für die juristische Betrachtung aber nicht entscheidend. Das System ist der Schlüssel, der das Modell nutzbar macht, ebenso wie Karosserie und Fahrwerk den Motor nutzbar machen. Die Informationen, die über Motor und Fahrzeug gespeichert werden, sind aber auch vorhanden, wenn dem Fahrer kein Auslesegerät als Zugangsschlüssel zur Verfügung steht.[27] Genauso speichert das Sprachmodell Informationen, auch wenn diese wegen eines fehlenden KI-Systems gerade nicht abgerufen werden können.

Damit lässt sich auf LLM übertragen, was der EuGH entschieden hat: Der Personenbezug ist anzunehmen, wenn sich dem Sprachmodell mit verhältnismäßigem Aufwand Informationen über Personen entlocken lassen.[28] „Es kommt darauf an“ lautet also das rechtlich richtige, wenn auch unbefriedigende Ergebnis. Es überzeugt insbesondere auf der Wertungsebene. Dass Sprachmodelle entwickelt werden können, die bei Bedarf die gesuchten personenbezogenen Daten ausgeben, wurde bereits in Versuchen gezeigt. Ebenso wurde von Angriffen auf Modelle berichtet, bei denen Hacker angelegte Informationen extrahiert haben.[29] Soll ein Sprachmodell nicht der DS-GVO unterfallen, muss der Entwickler deshalb Maßnahmen ergreifen, die die Ausgabe personenbezogener Daten mit einem erheblichen Aufwand verbinden. Als Ersatz für Suchmaschinen werden sich solche Sprachmodelle nicht eignen. Sie können aber bspw. mächtige Assistenten bei der Verwaltung technischen Wissens in einem Unternehmen sein.

KI-Verständnis im Detail ist für die juristische Bewertung von Sprachmodellen unerlässlich. Es gilt aber auch im Zeitalter der KI mit Augenmaß das große Ganze zu sehen. Auch die Erkenntnisse der Quantenphysik führen im Rechtsstaat nicht dazu, das Kriterium der Kausalität aufzugeben. Ebenso führen neue Formen der Datenverarbeitung nicht dazu, dass der Datenschutz nur noch an einer KI-generierten Endmoräne wirkt. Schutz personenbezogener Daten ist Grundrechtsschutz und der macht auch vor Sprachmodellen nicht Halt.

Prof. Dr. Rolf Schwartmann ist Leiter der Kölner Forschungsstelle für Medienrecht an der Technischen Hochschule, Mitherausgeber von Recht der Datenverarbeitung (RDV) sowie Vorsitzender der Gesellschaft für Datenschutz und Datensicherheit (GDD) e.V.

Moritz Köhler ist Wissenschaftlicher Mitarbeiter ebenda und Doktorand bei Prof. Dr. Rolf Schwartmann.

[1] Der Aufsatz basiert auf einer vorangegangenen Veröffentlichung in der F.A.Z. vom 16.09.2024. Die Einleitung ist unter Mitwirkung aller Autoren entstanden. Im Anschluss vertreten zunächst die Autoren Fuchs/Wünschelbaum, sodann die Autoren Schwartmann/Köhler ihre Ansicht.

[2] Art. 3 Nr. 1; EG 97 KI-VO

[3] EuGH, Urt. v. 19.10.2016, C 582/14, Rn. 46.

[4] So etwa Diskussionspapier HmbBfDI, https://ogy.de/HmbBfDI; Moos, CR 2024, 442; Golland EuZW 2024, 846, 847; Bartels, GRUR Int., 2024, 526; auch die dänische Datenschutzaufsichtsbehörde vertritt diese Auffassung, vgl. Leitfaden der dänischen Datenschutzaufsichtsbehörde zum Einsatz Künstlicher Intelligenz, S. 7, https://ogy.de/DKAI; vgl. dazu ebenfalls die Ausführungen der belgischen Aufsichtsbehörde in ihrer Entscheidung 46/2024 vom 15.03.2024, S. 12, Rn. 46, https://ogy.de/BEAI.

[5] Schwartmann/Benedikt/Reif/Schwartmann/Köhler, Datenschutz im Internet, Kap. 29 Rn. 5 ff. (im Erscheinen); ähnlich wohl Paal, ZfDR 2024, 129.

[6] Das Diskussionspapier des HmbBfDI ist hier abrufbar: https://ogy.de/HmbBfDI

[7] Vgl. etwa Coyer, Bloomberg News v. 28.08.2024 „Personal Info in AI Models Threatens Split in US, EU Approach”, https://ogy.de/BLMBRG.

[8] Diskussionspapier des HmbBfDI, S. 2, https://ogy.de/HmbBfDI.

[9] Hierzu eingehend Fuchs, KIR 3/2024 (im Erscheinen).

[10] Siehe Diskussionspapier HmbBfDI, S. 5 ff, https://ogy.de/HmbBfDI.; EuGH, Urt. v. 20.12.2017 – C-434/16, Rn. 35; EuGH, Urt. v. 08.12.2022 – C180/21, Rn. 70; EuGH, Urt. v. 04.05.2023 – C-487/21, Rn. 24.

[11] „Thus, generative-AI models are often neither transparent or searchable”, Cooper/Grimmelmann, The Files are in the Computer (2024), S. 35, https://arxiv.org/pdf/2404.12590.

[12] Dazu Diskussionspapier HmbBfDI, S. 7 ff., https://ogy.de/HmbBfDI.

[13] Insbesondere stellt der EuGH nach st. Rspr. auf den Aufwand nach „allgemeinem Ermessen“ ab, nicht auf ein spezifisches Ermessen von Forschergruppen, zuletzt EuGH, Urt. v. 07.03.2024 – C-479/22 P, Rn. 51 f.; vgl. auch Fuchs, KIR 3/2024 (im Erscheinen).

[14] „From this discussion, it follows that any claims one might want to make about how a generative-AI model behaves will be probabilistic”, Cooper/ Grimmelmann, The Files are in the Computer (2024), S. 44, https://arxiv.org/pdf/2404.12590.

[15] Vgl. Simitis/Hornung/Spiecker gen. Döhmann/Karg, 1. Aufl. 2019, Art. 4 Nr. 1, Rn. 14, insbesondere verbietet die „binäre Natur“ einen risikobasierten und damit wahrscheinlichkeitsorientierten Ansatz, der zu einer graduellen Anwendbarkeit der DS-GVO führt.

[16] Auch die Rechenschaftspflicht des Verantwortlichen ändert dies nicht, weil diese erst greift, wenn die DS-GVO anwendbar ist, also sicher personenbezogene Daten verarbeitet werden, vgl. Kühling/Buchner/Kühling/Raab, 4. Aufl. 2024, DS-GVO Art.  2 Rn.  1). Es ist Sache der Datenschutzbehörden, den Personenbezug gesichert festzustellen oder abzulehnen (vgl. EuG, Urt. v. 26.04.2023 – T-557/20, Rn. 100); Fuchs, KIR 3/2024 (im Erscheinen).

[17] Pesch/Böhme MMR 2023, 917, 919; zu rechtlichen Lösungsansätzen vgl. Golland, EuZW 2024, 846, 851.

[18] Vgl. Cooper/Grimmelmann, The Files are in the Computer (2024), S. 35, https://arxiv.org/pdf/2404.12590: „For the models of most interest today, there is no easy way to inspect their parameters and obtain a list of of all the information they have learned. Nor is it currently (or generally) possible to find “where” in a model a particular memorized example is encoded”.

[19] Stattdessen wird u.a. eine LLM-Reform der DS-GVO oder eine nationale Anpassung der Betroffenenrechte nach Art. 23 DS-GVO gefordert, vgl. etwa Engeler, KIR 2024, 37; gegenwärtig ist dies nicht absehbar – entscheidend ist derzeit, welche Anknüpfungspunkte das geltende Recht bietet, vgl. Fuchs KIR 3/2024 (im Erscheinen)

[20] Diskussionspapier HmbBfDI, S. 1 mit Verweis auf praktische Folgen auf S. 9 ff, https://ogy.de/HmbBfDI.

[21] Vgl. Art. 93 Abs. 1 lit. c) KI-VO.

[22] So bereits Schwartmann/Benedikt/Reif/Schwartmann/Köhler, Datenschutz im Internet, Kap. 29 Rn.  5 ff. (im Erscheinen); Schwartmann/Keber/Zenner/ Schwartmann/Köhler, KI-Verordnung, Leitfaden für die Praxis, 2. Teil 3. Kap. Rn. 8 ff.

[23] Vgl. Art. 1 Abs. 1 DS-GVO.

[24] Art. 4 Nr. 1 DS-GVO.

[25] EuGH, Urt. v. 19.10.2016 – C-582/14, Rn. 46

[26] So auch Hansen/Walczak, KIR 3/2024 (im Erscheinen); Kühling, ZD 2021, 74 (75); Kühling/Buchner/Klar/Kühling, DS-GVO/BDSG, DS-GVO, Art. 4 Rn. 10; zur Rechtslage vor Geltungsbeginn der DS-GVO bereits Martini, DVBl 2014, 1481, 1486. In diesem Sinne auch Art. 2 lit. c) des Übereinkommens zum Schutz des Menschen bei der automatischen Verarbeitung personenbezogener Daten: „In diesem Übereinkommen umfasst „automatische Verarbeitung die folgenden Tätigkeiten […]: das Durchführen logischer und/oder rechnerischer Operationen mit diesen Daten […].“ Dazu Schild, in: BeckOK Datenschutzrecht, DS-GVO, Art. 4 Nr. 32a.

[27] Vgl. Simitis/Hornung/Spieker gen. Döhmann/Roßnagel, Datenschutzrecht, DS-GVO, Art.  4 Rn.  19; Taeger/Gabel/Arning/Rothkegel, DS-GVO – BDSG – TTDSG, DS-GVO, Art.  4 Rn.  76; Kühling/Buchner/Herbst, DS-GVO/BDSG, DS-GVO, Art. 4 Rn. 24.

[28] Vgl. EuGH, Urt. v. 19.10.2016 – C-582/14, Rn. 46.

[29] Dazu eingehend Hansen/Walczak, KIR 3/2024 (im Erscheinen).