Meta – Dürfen die das?

AI LLM Meta Datenschutz

Angesichts des heute beginnenden Trainings der KI von Meta durch den facebook-Konzern mit in den sozialen Medien gespeichteren Daten stellt sich die Frage, ob das Training von KI mit personenbezogenen Daten eine Datenverarbeitung im Sinne der DSGVO darstellt und eventuell eine Nutzung von Daten mangels Erlaubnis aus der DSGVO gegen geltendes Datenschutzrecht verstößt.

Zunächst kommt es darauf an, ob die Training einer KI mit personenbezogenen Daten eine Verarbeitung personenbezogener Daten darstellt. Gemäß Art. 4 Nr. 2 DSGVO umfasst der Begriff der Verarbeitung eine Vielzahl von Vorgängen, darunter das Erheben, Erfassen, Organisieren, Speichern, Anpassen oder Verändern, Auslesen, Abfragen, Verwenden, Offenlegen durch Übermittlung, Verbreiten oder eine andere Form der Bereitstellung, den Abgleich oder die Verknüpfung, das Einschränken, das Löschen oder die Vernichtung von personenbezogenen Daten. 

Eine Gegenmeinuing könnte in der sog. Hamburger These zu sehen sein. Die Hamburger These bezieht sich auf die datenschutzrechtliche Einordnung von Large Language Models (LLMs) und deren Umgang mit personenbezogenen Daten. Diese Thesen wurden bereits am 15. Juli 2024 vom Hamburgischen Beauftragten für Datenschutz und Informationsfreiheit (HmbBfDI) veröffentlicht und sollen einen Impuls für die Debatte um die datenschutzrechtliche Einordnung von LLMs setzen.

Die bloße Speicherung eines LLMs soll demnach keine Verarbeitung im Sinne des Art. 4 Nr. 2 DSGVO darstellen, da in LLMs keine personenbezogenen Daten gespeichert werden. LLMs operieren mit abstrakten mathematischen Repräsentationen, bei denen Trainingstexte in numerische Tokens zerlegt werden. Diese Tokens sind kleinere Einheiten als Wörter, aber größer als einzelne Buchstaben. Im Trainingsprozess lernt das LLM, die Beziehungen zwischen diesen Tokens zu verstehen und die Wahrscheinlichkeiten für bestimmte Wortfolgen einzuschätzen. Dabei sei zudem zwischen KI-Systemen und LLMs zu unterscheiden. Ein KI-System (z.B. ChatGPT) besteht aus mehreren Komponenten, von denen das LLM nur eine darstellt. Zu den weiteren Bausteinen zählen etwa die Benutzerschnittstelle sowie Ein- und Ausgangsfilter.

Die Funktionsweise von LLMs unterscheidet sich jedenfalls fundamental von herkömmlichen Datenspeichermethoden. Mangels Speicherung personenbezogener Daten im LLM könnten die Betroffenenrechte der DSGVO nicht das Modell selbst zum Gegenstand haben. Ansprüche auf Auskunft, Löschung oder Berichtigung können sich jedoch zumindest auf Input und Output eines KI-Systems beziehen. Das Training von LLMs mit personenbezogenen Daten muss datenschutzkonform erfolgen. Dabei sollten also vorsichtshalber auch die Betroffenenrechte beachtet werden. Ein ggf. datenschutzwidriges Training wirkt sich nach der Hamburger These jedoch nicht auf die Rechtmäßigkeit des Einsatzes eines solchen Modells in einem KI-System aus. Die Hamburger These betont also auch die Notwendigkeit, zwischen der Speicherung und der Verarbeitung von Daten zu unterscheiden. Während LLMs keine personenbezogenen Daten speichern, müssen die Verarbeitungsvorgänge, die personenbezogene Daten betreffen, den Anforderungen der DSGVO entsprechen.

Soweit ersichtlich geht aber die Mehrheit der Rechtsmeinungen davon aus, dass die gestartete Nutzung personenbezogener Daten von Social-Media-Plattformen wie Facebook und Instagram für das Training von KI-Modellen durch Meta wahrscheinlich gegen die DSGVO verstößt. Dies liegt daran, dass die Verarbeitung personenbezogener Daten ohne ausreichende Rechtsgrundlage und ohne Einhaltung der datenschutzrechtlichen Grundsätze erfolgt. Die Verarbeitung personenbezogener Daten zum Zweck des KI-Trainings muss auf eine datenschutzrechtliche Rechtsgrundlage gestützt werden. Dies kann beispielsweise die Einwilligung der betroffenen Person (Art. 6 Abs. 1 lit. a DSGVO) oder das berechtigte Interesse des Verantwortlichen (Art. 6 Abs. 1 lit. f DSGVO) sein. Angesichts der automatischen Einwilligung, der nur bis zum 26.05.2025 widersprochen werden konnte, liegt eine informierte und umfassende Einwilligung, der jederzeit widersprochen können werden muss, wohl nicht vor. Es kommt dann noch das berechtigte Interesse gemäß Art. 6 Abs. 1 lit. f DSGVO als Rechtsgrundlage in Frage. Dabei müssen die Interessen der betroffenen Personen sorgfältig gegen die Interessen des Verantwortlichen abgewogen werden. Fraglich ist, ob Meta auch die notwendige Datenschutzfolgenabschätzung durchgeführt hat, wenn die Verarbeitung voraussichtlich ein hohes Risiko für die Rechte und Freiheiten der betroffenen Personen darstellt. Dies ist insbesondere bei umfangreichen oder sensiblen Datenverarbeitungen erforderlich und auch vor dem Hintergrund der Risikoeinschätzung der KI nach AI-Act.

Der Europäische Datenschutzausschuss (EDSA) hat in einer Stellungnahme betont, dass KI-Modelle als anonym angesehen werden können, wenn es sehr unwahrscheinlich ist, dass Personen, deren Daten zur Erstellung des Modells verwendet wurden, direkt oder indirekt identifiziert werden können. Diese Stellungnahme unterstützt die Ansicht, dass KI-Modelle keine personenbezogenen Daten speichern, sondern auf anonymisierten Daten basieren können. Die Verarbeitung personenbezogener Daten im Rahmen des KI-Trainings unterliegt den strikten Anforderungen der DSGVO. Dies umfasst unter anderem die Sicherstellung der Transparenz, die Einhaltung der Betroffenenrechte und die Durchführung einer Datenschutz-Folgenabschätzung, wenn ein hohes Risiko für die Rechte und Freiheiten der betroffenen Personen besteht. Es müssen geeignete technische und organisatorische Maßnahmen getroffen werden, um die Sicherheit der Daten zu gewährleisten. Dies umfasst den Schutz vor unbefugtem Zugriff sowie die Sicherstellung der Datenintegrität. Ein dreistufiger Test hilft dabei, die Nutzung berechtigter Interessen als Rechtsgrundlage zu beurteilen. Der EDSA nennt Beispiele für einen Konversationsagenten zur Unterstützung der Nutzer und den Einsatz von KI zur Verbesserung der Cybersicherheit. Diese Dienste können für Einzelpersonen von Vorteil sein und sich auf ein berechtigtes Interesse als Rechtsgrundlage stützen, jedoch nur, wenn sich die Verarbeitung als unbedingt erforderlich erweist und die Abwägung der Rechte gewahrt wird.Wenn schließlich ein KI-Modell mit unrechtmäßig verarbeiteten personenbezogenen Daten entwickelt wurde, könnte sich dies nach MEinung der EDSA sehr wohl auch auf die Rechtmäßigkeit seines Einsatzes auswirken, es sei denn, das Modell wurde ordnungsgemäß anonymisiert. 

Das begonnene Training des LLM mit Nutzerdaten aus Socialmedia ist also nicht eindeutig rechtswidrig, aber auch nicht zweifellos vereinbar mit dem geltenden Datenschutzrecht. Angesichts der enormen Gefahr einer Strafe durch die Aufsichtsbehörden (max. 4 % des gesamten weltweit erzielten Jahresumsatzes) wird Meta wohl entsprechende Rücklagen gebildet haben oder das neue Zeitalter des wissentlichen Rechtsbruch in einem neuerdings rechtsfreien Raum hat sich schon sehr weit durchgesetzt. Die Bedeutung und das Selbstbewusstsein Europäischer Aufsichtsbehörden sollte man jedoch nicht unterschätzen.

Das könnte dich auch interessieren …