Digitalisierung und Datenschutz – Teil 2

Im ersten Teil meines Artikels ging es um die Abbildung der Realität in ein digitales Modell und die Bedeutung von Interpretationen, Macht und Datenschutz: Zunächst müssen Sachverhalte der Realität in Datenpunkte eines Modells abgebildet werden. Dieser Prozess wird allgemein als Abstraktion bezeichnet. Der umgekehrte Prozess, die Interpretation, leitet Aussagen über reale Sachverhalte aus den Datenpunkten des Modells ab. Mit Hilfe der im Modell zur Verfügung gestellten Operationen können Datenpunkte in neue Datenpunkte überführt werden. Typischerweise sollten diese Operationen Veränderungen entsprechen, die auch in der Realität eine Bedeutung haben. Also auch die Operationen eines Modell bedürfen einer Interpretation.

Das gesamte Modell betrachten wir als korrekt, wenn nach Anwendung von Operationen innerhalb des Modells die Interpretation der neu berechneten Datenpunkten zu korrekten Aussagen über Sachverhalte in der Realität führen. Ist dies nicht der Fall, sprechen wir von einem Fehler des Modells. Im Falle von Computermodellen wird dann üblicherweise von einem Fehler des Programms gesprochen. Wenn die durch Bediener:innen vorzunehmenden Abstraktionen oder Interpretationen fehlerhaft sind, dann spricht man einfach von Bedienungsfehlern. Die Ergonomie von IT-Systemen kann darüber entscheiden, wie häufig Fehler bei der Abstraktion der Realität in Computerdaten und bei der Interpretation der berechneten Daten geschehen. 

Im Rahmen der IT-Evolution haben sich unterschiedliche Paradigmen entwickelt, wie Computermodelle – insbesondere die Operationen – formuliert werden können. Doch unabhängig davon, ob diese funktional, prozedural, objektorientiert, sequentiell, parallel, kontextbasiert oder sonst irgendwie formuliert werden, am Ende bleibt es bei der guten alten Turing-Maschine und einem algorithmischen Ablauf, bei dem eine Folge von Operationen die Eingabedaten schrittweise in Ausgabedaten transformiert. Jeder Schritt der Operation kann in einem solchen Computermodell nachvollzogen und überprüft werden. Algorithmen sind die Basis jeden Computermodells. Und doch sind auch Algorithmen nur Datenpunkte. Datenpunkte, die von Computern als Anweisungen interpretiert werden, andere Datenpunkte zu transformieren. Auf diese Weise ergeben sich Programme, die andere Programme generieren und verändern. Wir erhalten also einen Algorithmus, der einen anderen Algorithmus als Eingabe erhält und daraus einen neuen Algorithmus als Ausgabe berechnet. Wenn wir das Konzept konsequent weiterdenken, so landen wir in der Folge beim Machine Learning (ML), einer unter den Begriff KI fallende Technologie, bei der sich Algorithmen im Hinblick auf gewünschte Ergebnisse stetig selbst verbessern, also neben der “eigentlichen” Ausgabe eines Ergebnisses auch eine “verbesserte” Version von sich selbst erstellen. 

Während traditionelle Algorithmen von Menschen erstellt werden und prinzipiell nachvollziehbar sind (wobei sich schon letzteres teilweise schwer gestalten kann.), sind ML-basierte Entscheidungssysteme kaum noch von außen überprüfbar. Das liegt in der Natur der ML-Systeme, die gerade dazu dienen, komplexe Zusammenhänge zu verarbeiten, die mit einer traditionellen. Programmierung nicht mehr realistisch zu bewältigen wären. Als konventioneller Programmierer mit einem ML-System konkurrieren zu wollen hat etwas von einem Mathematiker, der mit einem Taschenrechner um die Wette rechnet. Ein ML-System basiert immer noch auf Algorithmen, bewältigt aber komplexe Fragestellungen, an denen das menschliche algorithmischen Denken grundsätzlich scheitern muss.    

Die durch den maschinellen “Lernprozess” entstehende Intransparenz stellt eine der großen Herausforderungen insbesondere  für den Datenschutz dar. Schließlich ist es eines der Hauptanliegen des Datenschutzes, dem Betroffenen einer Datenverarbeitung eine möglichst große Transparenz über den Verarbeitungsprozess zu gewähren. Diese Transparenz kann nur noch in Grundzügen hergestellt werden. ML-Systeme sind Modelle, die nicht programmiert sondern trainiert werden. Hierzu gibt es unterschiedliche Herangehensweisen, die ich hier aber nicht ausführen möchte. Wichtig dabei ist, dass das Training der Modelle eine große Menge realer Daten benötigt, um anschließend richtige Ergebnisse mit einer hinreichend guten Wahrscheinlichkeit zu berechnen. Hierin unterscheiden sich ML-Systeme ebenfalls von klassischen Algorithmen. Der Anspruch eines Programmierers ist es üblicherweise, einen Algorithmus zu entwerfen, der unter Einhaltung gewisser Rahmenbedingungen ein 100% korrektes Ergebnis berechnet. ML-Systeme können dies nicht leisten. Ihre Ergebnisse sind immer nur mit einer gewissen Wahrscheinlichkeit korrekt. Genauer gesagt, berechnen sie Ergebnisse aufgrund statistischer Eigenschaften der Trainingsdaten. Dies kann für viele Anwendungen absolut ausreichend sein und muss trotzdem berücksichtigt werden, wenn wir schädliche Auswirkungen auf die von einer solchen Verarbeitung betroffenen Menschen verhindern wollen. Zum einen müssen wir sicherstellen, dass die ML-Systeme mit Daten trainiert werden, deren statistische Verteilung hinsichtlich der zu lösenden Fragestellungen der Realität entsprechen. Andernfalls riskieren wir, dass ML-basierte Systeme zur Diskriminierung von Bevölkerungsgruppen tendieren, weil dies bereits in den Trainingsdaten angelegt war. Wenn z.B. in den Trainingsdaten bestimmte Bevölkerungsgruppen unterpräsentiert sind, kann dies zu statistisch falschen Aussagen im späteren Modell führen, die dann in der Konsequenz zu schädlichen Auswirkungen für die betroffenen Menschen führen.

Die Crux ist, dass die Verwendung echter Daten in großen Mengen für das Training gegen die Idee der Datenminimierung im Datenschutz verstößt. Die Minimierung der verarbeiteten bzw. gespeicherten Daten soll die Angriffs- und Mißbrauchsfläche für Daten und damit das Risiko für die Betroffenen senken. Aber genau diese Datenminimierung wird zum Nadelöhr für das effektive Training für ML-Systeme und kann im schlimmsten Fall eben zu fehlerhaften Modellen und diskriminierenden Ergebnissen führen. Im Sinne des Datenschutzes sind beide Resultate nicht.

Deutlich wird, dass die konventionelle Betrachtung des Datenschutzes bei der Bewertung von ML-Systemen an Grenzen stößt. Dem höheren Risiko bei der Nutzung von Echtdaten  zum Training von ML-Systemen steht das Risiko diskriminierender Berechnungen gegenüber. Die Anonymisierung von personenbezogenen Daten vor der Nutzung als Trainingsdaten kann ebenso Einfluß auf die Güte des Modells haben oder in bestimmten Fällen Daten für das Training sogar unbrauchbar machen. Man stelle sich z.B. ML-Systeme vor, die zur Analyse menschlichem Genoms eingesetzt werden sollen. Die Anonymisierung von DNA-Daten ohne den Verlust signifikanter Elemente für die Analyse von z.B. genetischen Krankheiten wird im allgemeinen eine größere Hürde darstellen.

Die Entwicklungen im KI-Bereich schreiten voran und werden die Anwendungen der Zukunft mehr und mehr beeinflußen und mitbestimmen. Im Sinne einer Risikobetrachtung für Betroffene müssen Datenschutzregeln für den KI-Bereich überdacht werden. Gerade hier kann ein zuwenig an Daten zu negativen Auswirkungen für Betroffene führen, die ggf. sogar höher zu gewichten sind als die Tatsache, dass personenbezogene Daten von Betroffenen zuvor für das Training der Modelle genutzt wurden. Ich plädiere daher keineswegs für die Abschaffung des Datenschutzes für die Weiterentwicklung der KI sondern für eine den Besonderheiten der KI-Entwicklung angepassten Risikobetrachtung im Datenschutz. Schließlich ist Datenschutz nicht der Schutz von Daten sondern der Schutz von Menschen vor den negativen Auswirkungen der Verarbeitung ihrer Daten. 

Andere Artikel

18 Seiten Brennstoff für’s Hirn

Die Luca-App ist in aller Munde. Nicht nur Smudo von den Fantastischen Vier sondern eine ganze Reihe bekannter und weniger bekannter Promis haben sich für die App medial eingesetzt. Leider scheint die App nicht das zu halten, was uns immer

Weiterlesen »

Ein Drama mit Ansage

Wir sind mitten in einem Drama. Seit bald einem Jahr erleben wir eine Einschränkung der Bürgerrechte und -freiheiten, wie sie für Friedenszeiten zuvor kaum vorstellbar gewesen sind. Mit Ausgangssperren hatte ich vor Corona nur Diktaturen und Kriegsgebiete in Verbindung gebracht

Weiterlesen »

Clubhouse oder was?

Keine Sorge, dieser Artikel dreht sich wieder nur um Clubhouse. Sie brauchen sich – liebe Leser:in – nicht umgewöhnen. Etwas tiefgründiger geht es aber auch um Innovationen, um europäische Identität und ethische Leitlinien und um das, was der Hype uns

Weiterlesen »

Connection lost

Alle sprechen irgendwie über Digitalisierung. Den einen geht die Digitalisierung nicht schnell genug, wenn es um Schulen, Behörden, das Gesundheitswesen oder das schnelle Internet geht. Anderen sind Entwicklungen zu schnell, weil weitreichende Fragen der Ethik nicht geklärt sind. Fakt ist,

Weiterlesen »

Ein anderer Rückblick auf 2020

Dieses aus meiner Sicht interessante Video habe ich kürzlich auf YouTube entdeckt. Es gibt einen hübschen Rückblick auf Trends im Bereich Cyberattacks in 2020.  https://youtu.be/w_UTvZ2QvC4

Weiterlesen »