Digitalisierung und Datenschutz – Teil 2

Im ersten Teil meines Artikels ging es um die Abbildung der Realität in ein digitales Modell und die Bedeutung von Interpretationen, Macht und Datenschutz: Zunächst müssen Sachverhalte der Realität in Datenpunkte eines Modells abgebildet werden. Dieser Prozess wird allgemein als Abstraktion bezeichnet. Der umgekehrte Prozess, die Interpretation, leitet Aussagen über reale Sachverhalte aus den Datenpunkten des Modells ab. Mit Hilfe der im Modell zur Verfügung gestellten Operationen können Datenpunkte in neue Datenpunkte überführt werden. Typischerweise sollten diese Operationen Veränderungen entsprechen, die auch in der Realität eine Bedeutung haben. Also auch die Operationen eines Modell bedürfen einer Interpretation.

Das gesamte Modell betrachten wir als korrekt, wenn nach Anwendung von Operationen innerhalb des Modells die Interpretation der neu berechneten Datenpunkten zu korrekten Aussagen über Sachverhalte in der Realität führen. Ist dies nicht der Fall, sprechen wir von einem Fehler des Modells. Im Falle von Computermodellen wird dann üblicherweise von einem Fehler des Programms gesprochen. Wenn die durch Bediener:innen vorzunehmenden Abstraktionen oder Interpretationen fehlerhaft sind, dann spricht man einfach von Bedienungsfehlern. Die Ergonomie von IT-Systemen kann darüber entscheiden, wie häufig Fehler bei der Abstraktion der Realität in Computerdaten und bei der Interpretation der berechneten Daten geschehen. 

Im Rahmen der IT-Evolution haben sich unterschiedliche Paradigmen entwickelt, wie Computermodelle – insbesondere die Operationen – formuliert werden können. Doch unabhängig davon, ob diese funktional, prozedural, objektorientiert, sequentiell, parallel, kontextbasiert oder sonst irgendwie formuliert werden, am Ende bleibt es bei der guten alten Turing-Maschine und einem algorithmischen Ablauf, bei dem eine Folge von Operationen die Eingabedaten schrittweise in Ausgabedaten transformiert. Jeder Schritt der Operation kann in einem solchen Computermodell nachvollzogen und überprüft werden. Algorithmen sind die Basis jeden Computermodells. Und doch sind auch Algorithmen nur Datenpunkte. Datenpunkte, die von Computern als Anweisungen interpretiert werden, andere Datenpunkte zu transformieren. Auf diese Weise ergeben sich Programme, die andere Programme generieren und verändern. Wir erhalten also einen Algorithmus, der einen anderen Algorithmus als Eingabe erhält und daraus einen neuen Algorithmus als Ausgabe berechnet. Wenn wir das Konzept konsequent weiterdenken, so landen wir in der Folge beim Machine Learning (ML), einer unter den Begriff KI fallende Technologie, bei der sich Algorithmen im Hinblick auf gewünschte Ergebnisse stetig selbst verbessern, also neben der „eigentlichen“ Ausgabe eines Ergebnisses auch eine „verbesserte“ Version von sich selbst erstellen. 

Während traditionelle Algorithmen von Menschen erstellt werden und prinzipiell nachvollziehbar sind (wobei sich schon letzteres teilweise schwer gestalten kann.), sind ML-basierte Entscheidungssysteme kaum noch von außen überprüfbar. Das liegt in der Natur der ML-Systeme, die gerade dazu dienen, komplexe Zusammenhänge zu verarbeiten, die mit einer traditionellen. Programmierung nicht mehr realistisch zu bewältigen wären. Als konventioneller Programmierer mit einem ML-System konkurrieren zu wollen hat etwas von einem Mathematiker, der mit einem Taschenrechner um die Wette rechnet. Ein ML-System basiert immer noch auf Algorithmen, bewältigt aber komplexe Fragestellungen, an denen das menschliche algorithmischen Denken grundsätzlich scheitern muss.    

Die durch den maschinellen „Lernprozess“ entstehende Intransparenz stellt eine der großen Herausforderungen insbesondere  für den Datenschutz dar. Schließlich ist es eines der Hauptanliegen des Datenschutzes, dem Betroffenen einer Datenverarbeitung eine möglichst große Transparenz über den Verarbeitungsprozess zu gewähren. Diese Transparenz kann nur noch in Grundzügen hergestellt werden. ML-Systeme sind Modelle, die nicht programmiert sondern trainiert werden. Hierzu gibt es unterschiedliche Herangehensweisen, die ich hier aber nicht ausführen möchte. Wichtig dabei ist, dass das Training der Modelle eine große Menge realer Daten benötigt, um anschließend richtige Ergebnisse mit einer hinreichend guten Wahrscheinlichkeit zu berechnen. Hierin unterscheiden sich ML-Systeme ebenfalls von klassischen Algorithmen. Der Anspruch eines Programmierers ist es üblicherweise, einen Algorithmus zu entwerfen, der unter Einhaltung gewisser Rahmenbedingungen ein 100% korrektes Ergebnis berechnet. ML-Systeme können dies nicht leisten. Ihre Ergebnisse sind immer nur mit einer gewissen Wahrscheinlichkeit korrekt. Genauer gesagt, berechnen sie Ergebnisse aufgrund statistischer Eigenschaften der Trainingsdaten. Dies kann für viele Anwendungen absolut ausreichend sein und muss trotzdem berücksichtigt werden, wenn wir schädliche Auswirkungen auf die von einer solchen Verarbeitung betroffenen Menschen verhindern wollen. Zum einen müssen wir sicherstellen, dass die ML-Systeme mit Daten trainiert werden, deren statistische Verteilung hinsichtlich der zu lösenden Fragestellungen der Realität entsprechen. Andernfalls riskieren wir, dass ML-basierte Systeme zur Diskriminierung von Bevölkerungsgruppen tendieren, weil dies bereits in den Trainingsdaten angelegt war. Wenn z.B. in den Trainingsdaten bestimmte Bevölkerungsgruppen unterpräsentiert sind, kann dies zu statistisch falschen Aussagen im späteren Modell führen, die dann in der Konsequenz zu schädlichen Auswirkungen für die betroffenen Menschen führen.

Die Crux ist, dass die Verwendung echter Daten in großen Mengen für das Training gegen die Idee der Datenminimierung im Datenschutz verstößt. Die Minimierung der verarbeiteten bzw. gespeicherten Daten soll die Angriffs- und Mißbrauchsfläche für Daten und damit das Risiko für die Betroffenen senken. Aber genau diese Datenminimierung wird zum Nadelöhr für das effektive Training für ML-Systeme und kann im schlimmsten Fall eben zu fehlerhaften Modellen und diskriminierenden Ergebnissen führen. Im Sinne des Datenschutzes sind beide Resultate nicht.

Deutlich wird, dass die konventionelle Betrachtung des Datenschutzes bei der Bewertung von ML-Systemen an Grenzen stößt. Dem höheren Risiko bei der Nutzung von Echtdaten  zum Training von ML-Systemen steht das Risiko diskriminierender Berechnungen gegenüber. Die Anonymisierung von personenbezogenen Daten vor der Nutzung als Trainingsdaten kann ebenso Einfluß auf die Güte des Modells haben oder in bestimmten Fällen Daten für das Training sogar unbrauchbar machen. Man stelle sich z.B. ML-Systeme vor, die zur Analyse menschlichem Genoms eingesetzt werden sollen. Die Anonymisierung von DNA-Daten ohne den Verlust signifikanter Elemente für die Analyse von z.B. genetischen Krankheiten wird im allgemeinen eine größere Hürde darstellen.

Die Entwicklungen im KI-Bereich schreiten voran und werden die Anwendungen der Zukunft mehr und mehr beeinflußen und mitbestimmen. Im Sinne einer Risikobetrachtung für Betroffene müssen Datenschutzregeln für den KI-Bereich überdacht werden. Gerade hier kann ein zuwenig an Daten zu negativen Auswirkungen für Betroffene führen, die ggf. sogar höher zu gewichten sind als die Tatsache, dass personenbezogene Daten von Betroffenen zuvor für das Training der Modelle genutzt wurden. Ich plädiere daher keineswegs für die Abschaffung des Datenschutzes für die Weiterentwicklung der KI sondern für eine den Besonderheiten der KI-Entwicklung angepassten Risikobetrachtung im Datenschutz. Schließlich ist Datenschutz nicht der Schutz von Daten sondern der Schutz von Menschen vor den negativen Auswirkungen der Verarbeitung ihrer Daten. 

Wenn Dir der Artikel gefallen hat, freuen wir uns über eine Weiterempfehlung oder Verlinkung. Wenn Du Kritik hast oder den Beitrag kommentieren möchtest, kannst Du das gerne weiter unten tun.

Share on linkedin
LinkedIn
Share on xing
XING
Share on twitter
Twitter
Share on facebook
Facebook
Share on email
Email
0 0 vote
Article Rating
Abonnieren
Benachrichtige mich bei
0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x