Digitalisierung und Datenschutz – Teil 2

Im ersten Teil meines Artikels ging es um die Abbildung der Realität in ein digitales Modell und die Bedeutung von Interpretationen, Macht und Datenschutz: Zunächst müssen Sachverhalte der Realität in Datenpunkte eines Modells abgebildet werden. Dieser Prozess wird allgemein als Abstraktion bezeichnet. Der umgekehrte Prozess, die Interpretation, leitet Aussagen über reale Sachverhalte aus den Datenpunkten des Modells ab. Mit Hilfe der im Modell zur Verfügung gestellten Operationen können Datenpunkte in neue Datenpunkte überführt werden. Typischerweise sollten diese Operationen Veränderungen entsprechen, die auch in der Realität eine Bedeutung haben. Also auch die Operationen eines Modell bedürfen einer Interpretation.

Das gesamte Modell betrachten wir als korrekt, wenn nach Anwendung von Operationen innerhalb des Modells die Interpretation der neu berechneten Datenpunkten zu korrekten Aussagen über Sachverhalte in der Realität führen. Ist dies nicht der Fall, sprechen wir von einem Fehler des Modells. Im Falle von Computermodellen wird dann üblicherweise von einem Fehler des Programms gesprochen. Wenn die durch Bediener:innen vorzunehmenden Abstraktionen oder Interpretationen fehlerhaft sind, dann spricht man einfach von Bedienungsfehlern. Die Ergonomie von IT-Systemen kann darüber entscheiden, wie häufig Fehler bei der Abstraktion der Realität in Computerdaten und bei der Interpretation der berechneten Daten geschehen. 

Im Rahmen der IT-Evolution haben sich unterschiedliche Paradigmen entwickelt, wie Computermodelle – insbesondere die Operationen – formuliert werden können. Doch unabhängig davon, ob diese funktional, prozedural, objektorientiert, sequentiell, parallel, kontextbasiert oder sonst irgendwie formuliert werden, am Ende bleibt es bei der guten alten Turing-Maschine und einem algorithmischen Ablauf, bei dem eine Folge von Operationen die Eingabedaten schrittweise in Ausgabedaten transformiert. Jeder Schritt der Operation kann in einem solchen Computermodell nachvollzogen und überprüft werden. Algorithmen sind die Basis jeden Computermodells. Und doch sind auch Algorithmen nur Datenpunkte. Datenpunkte, die von Computern als Anweisungen interpretiert werden, andere Datenpunkte zu transformieren. Auf diese Weise ergeben sich Programme, die andere Programme generieren und verändern. Wir erhalten also einen Algorithmus, der einen anderen Algorithmus als Eingabe erhält und daraus einen neuen Algorithmus als Ausgabe berechnet. Wenn wir das Konzept konsequent weiterdenken, so landen wir in der Folge beim Machine Learning (ML), einer unter den Begriff KI fallende Technologie, bei der sich Algorithmen im Hinblick auf gewünschte Ergebnisse stetig selbst verbessern, also neben der “eigentlichen” Ausgabe eines Ergebnisses auch eine “verbesserte” Version von sich selbst erstellen. 

Während traditionelle Algorithmen von Menschen erstellt werden und prinzipiell nachvollziehbar sind (wobei sich schon letzteres teilweise schwer gestalten kann.), sind ML-basierte Entscheidungssysteme kaum noch von außen überprüfbar. Das liegt in der Natur der ML-Systeme, die gerade dazu dienen, komplexe Zusammenhänge zu verarbeiten, die mit einer traditionellen. Programmierung nicht mehr realistisch zu bewältigen wären. Als konventioneller Programmierer mit einem ML-System konkurrieren zu wollen hat etwas von einem Mathematiker, der mit einem Taschenrechner um die Wette rechnet. Ein ML-System basiert immer noch auf Algorithmen, bewältigt aber komplexe Fragestellungen, an denen das menschliche algorithmischen Denken grundsätzlich scheitern muss.    

Die durch den maschinellen “Lernprozess” entstehende Intransparenz stellt eine der großen Herausforderungen insbesondere  für den Datenschutz dar. Schließlich ist es eines der Hauptanliegen des Datenschutzes, dem Betroffenen einer Datenverarbeitung eine möglichst große Transparenz über den Verarbeitungsprozess zu gewähren. Diese Transparenz kann nur noch in Grundzügen hergestellt werden. ML-Systeme sind Modelle, die nicht programmiert sondern trainiert werden. Hierzu gibt es unterschiedliche Herangehensweisen, die ich hier aber nicht ausführen möchte. Wichtig dabei ist, dass das Training der Modelle eine große Menge realer Daten benötigt, um anschließend richtige Ergebnisse mit einer hinreichend guten Wahrscheinlichkeit zu berechnen. Hierin unterscheiden sich ML-Systeme ebenfalls von klassischen Algorithmen. Der Anspruch eines Programmierers ist es üblicherweise, einen Algorithmus zu entwerfen, der unter Einhaltung gewisser Rahmenbedingungen ein 100% korrektes Ergebnis berechnet. ML-Systeme können dies nicht leisten. Ihre Ergebnisse sind immer nur mit einer gewissen Wahrscheinlichkeit korrekt. Genauer gesagt, berechnen sie Ergebnisse aufgrund statistischer Eigenschaften der Trainingsdaten. Dies kann für viele Anwendungen absolut ausreichend sein und muss trotzdem berücksichtigt werden, wenn wir schädliche Auswirkungen auf die von einer solchen Verarbeitung betroffenen Menschen verhindern wollen. Zum einen müssen wir sicherstellen, dass die ML-Systeme mit Daten trainiert werden, deren statistische Verteilung hinsichtlich der zu lösenden Fragestellungen der Realität entsprechen. Andernfalls riskieren wir, dass ML-basierte Systeme zur Diskriminierung von Bevölkerungsgruppen tendieren, weil dies bereits in den Trainingsdaten angelegt war. Wenn z.B. in den Trainingsdaten bestimmte Bevölkerungsgruppen unterpräsentiert sind, kann dies zu statistisch falschen Aussagen im späteren Modell führen, die dann in der Konsequenz zu schädlichen Auswirkungen für die betroffenen Menschen führen.

Die Crux ist, dass die Verwendung echter Daten in großen Mengen für das Training gegen die Idee der Datenminimierung im Datenschutz verstößt. Die Minimierung der verarbeiteten bzw. gespeicherten Daten soll die Angriffs- und Mißbrauchsfläche für Daten und damit das Risiko für die Betroffenen senken. Aber genau diese Datenminimierung wird zum Nadelöhr für das effektive Training für ML-Systeme und kann im schlimmsten Fall eben zu fehlerhaften Modellen und diskriminierenden Ergebnissen führen. Im Sinne des Datenschutzes sind beide Resultate nicht.

Deutlich wird, dass die konventionelle Betrachtung des Datenschutzes bei der Bewertung von ML-Systemen an Grenzen stößt. Dem höheren Risiko bei der Nutzung von Echtdaten  zum Training von ML-Systemen steht das Risiko diskriminierender Berechnungen gegenüber. Die Anonymisierung von personenbezogenen Daten vor der Nutzung als Trainingsdaten kann ebenso Einfluß auf die Güte des Modells haben oder in bestimmten Fällen Daten für das Training sogar unbrauchbar machen. Man stelle sich z.B. ML-Systeme vor, die zur Analyse menschlichem Genoms eingesetzt werden sollen. Die Anonymisierung von DNA-Daten ohne den Verlust signifikanter Elemente für die Analyse von z.B. genetischen Krankheiten wird im allgemeinen eine größere Hürde darstellen.

Die Entwicklungen im KI-Bereich schreiten voran und werden die Anwendungen der Zukunft mehr und mehr beeinflußen und mitbestimmen. Im Sinne einer Risikobetrachtung für Betroffene müssen Datenschutzregeln für den KI-Bereich überdacht werden. Gerade hier kann ein zuwenig an Daten zu negativen Auswirkungen für Betroffene führen, die ggf. sogar höher zu gewichten sind als die Tatsache, dass personenbezogene Daten von Betroffenen zuvor für das Training der Modelle genutzt wurden. Ich plädiere daher keineswegs für die Abschaffung des Datenschutzes für die Weiterentwicklung der KI sondern für eine den Besonderheiten der KI-Entwicklung angepassten Risikobetrachtung im Datenschutz. Schließlich ist Datenschutz nicht der Schutz von Daten sondern der Schutz von Menschen vor den negativen Auswirkungen der Verarbeitung ihrer Daten. 

Andere Artikel

Daten sind das neue Gold

Vertraust Du Deine Wertsachen einfach fremden Leuten an? Heute ist die Nutzung von Diensten oder Software über das Internet nichts ungewöhnliches mehr. Du kannst damit jede Menge Zeit und auch Geld sparen. Du musst weder für die Infrastruktur noch für

Weiterlesen »

Wie wirst Du in 15 Jahren leben?

Unsere Lebensbedingungen ändern sich. Wie wirst Du in 15 Jahren leben? 4 Beispiele für die hybride Welt von Morgen. Mein Leben findet heute schon digital-hybrid statt. Dieser Trend wird sich fortsetzen, beschleunigen, verfestigen. Das rein “analoge” Leben gibt es dann

Weiterlesen »

Motorrad oder Laufrad?

Wer von Euch fährt mit seinem Motorrad als wäre es nur ein Laufrad? Vermutlich keiner! Aber warum tut Ihr das dann bei anderen Dingen? Mit seinem Motorrad zu fahren als ob es nur ein Laufrad wäre, ist ja nur mäßig

Weiterlesen »

Sind Eure MitarbeiterInnen eigentlich informiert?

“Das wissen die doch! Das sind doch keine Geheimnisse!” Der respektvolle Umgang mit den Kolleginnen und Kollegen ist für Dich als UnternehmerIn selbstverständlich. Du bezahlst ein vernünftiges Gehalt und schaffst auch sonst eine angenehme und produktive Arbeitsumgebung. Dazu gehört auch,

Weiterlesen »

Wenn Projekte über Daten stolpern

In dieser Woche habe ich ein Thema mitgebracht, dass alle Projektleiter in mittleren und größeren, insbesondere auch in internationalen Projekten interessieren könnte. Dabei geht es nicht speziell um IT sondern um alle möglichen Projekte, vom Hausbau, über Bahnhöfe, Flughäfen oder

Weiterlesen »

2022 wird ein spannendes Jahr!

🔸2022 wird ein spannendes Jahr. Während ich mich in den letzten Monaten doch sehr auf den Datenschutz konzentriert habe, werde ich im neuen Jahr meinen fachlichen Radius wieder etwas weiter ziehen. 🔸Datenschutz wird weiterhin ein großer fachlicher Schwerpunkt bleiben, genauso

Weiterlesen »

Immer gut informiert mit unserem Newsletter

Wenn Sie über die neuesten Entwicklungen rund um die rechtskonforme Verarbeitung von Daten informiert werden wollen, möchte ich Ihnen meinen Newsletter gerne ans Herz legen. In Abständen von vier bis sechs Wochen werden Sie von mir auf dem Laufenden gehalten.