Der Ausweg aus dem DSGVO-Dilemma

Machine Learning Reply setzt auf Generative Adversarial Neural Networks (GANs), um Data-Science-Studien mit der DSGVO zu vereinbaren

Die DSGVO schützt Verbraucher davor, dass ihre personenbezogenen Daten von Unternehmen missbraucht werden. Jedoch bedeutet die Verordnung auch, dass Produktentwicklungen und -tests in vielen Fällen ohne die Nutzung von sehr aussagekräftigen Daten durchgeführt werden müssen – obwohl sich durch neue Entwicklungen im Bereich KI und Machine Learning extrem viele Möglichkeiten für verbesserte Produkte und Dienstleistungen ergeben.

Damit birgt die DSGVO nicht nur Hürden für Unternehmen, sondern macht es beispielsweise auch Forschern unmöglich, Daten untereinander zu teilen oder sie externen Dienstleistern zur Verfügung zu stellen.

Die Anforderungen an den Use Case

  • Einen Kompromiss finden:
    Der notwendige Schutz personenbezogener Daten sollte erhalten bleiben, gleichzeitig der Fortschritt durch Big Data und Analytics nicht gehemmt werden; 

  • Komplexität und Verständlichkeit vereinen:
    Ein statistisches Samplen von Daten erfasst Wechselwirkungen in den Attributen nicht und bildet sie daher nicht in der für moderne Methoden nötigen Komplexität ab. Dimensionsreduzierende Verfahren dagegen büßen meist an Verständlichkeit der Daten ein.

  • Informationen verdeckt austauschen:
    Die Modelle sollten auf realen Daten basieren, aber keine Rückschlüsse auf den Ursprung zulassen. Persönliche Informationen müssen verdeckt ausgetauscht werden können (sicherer Austausch von Entitäten ohne Duplikate). Gleichzeitig müssen realistische Daten optimal und quantifizierbar generiert werden.

Exkurs: Generative Adversarial Neural Networks (GANs)

Die Experten von Machine Learning Reply haben die Methodik der Generative Adversarial Neural Networks (GANs) als Lösung für das Datenschutz-Dilemma identifiziert.

Dass KI zumindest über eine gewisse eigene Art der Kreativität verfügt, hat vor kurzem ein Algorithmus bewiesen, der aus 15.000 eingespeisten Portraits aus dem 14. bis 20. Jahrhundert ein Gemälde generiert hat, das den fiktiven Adligen „Edmond de Belamy“ zeigt. Die Methode, die dabei verwendet wurde, ist der Einsatz von Generative Adversarial Neural Networks (GANs). Damit können Bilder wie das des Edmond de Belamy oder auch fotorealistische Bilder aus handgemalten Skizzen erstellt werden.

Der Computer macht das, indem er zwei künstliche Intelligenzen gegeneinander „spielen“ lässt. Zunächst lernen beide mit echten Daten – das können strukturierte Daten oder wie im oben genannten Beispiel unstrukturierte Daten wie Kunstwerke sein. Im zweiten Schritt versucht die eine KI, ein neues Bild (oder einen neuen Datenpunkt) zu generieren, während es die Aufgabe der anderen ist, zu erkennen, ob es sich dabei um ein synthetisches oder ein ursprüngliches Bild handelt. So trainieren sich die beiden Teile eines GANs gegenseitig und die synthetisierten Daten werden immer realistischer.

Die Idee synthetischer Daten ist es, die statistischen Eigenschaften eines realen Datensatzes nachzuahmen, ohne einzelne Einheiten aufzudecken. Vielmehr werden dabei die realen Datensätze durch synthetische ausgetauscht, die jedoch den gleichen Mustern folgen. Es gibt verschiedene Ansätze, um synthetische Daten zu erzeugen, zum Beispiel die Principal Component Analysis (PCA), Autoencoder und generative Modelle.

Um zu bewerten, welche Methode Daten erzeugt, die als Input für überwachte als auch unbeaufsichtigte Modelle funktionieren, hat Machine Learning Reply die Leistung der beiden generativen Modelle – Variable Autoencoder (VAE) und Wasserstein GAN (WGAN-GP) – miteinander verglichen.

Darüber hinaus hat Machine Learning Reply den KNN-Algorithmus angewandt, um die Ähnlichkeit zwischen synthetischen und realen Daten zu untersuchen und so zu bestimmen, welcher Algorithmus Entitäten erzeugt, die sicherer exponiert werden können.


Die große Herausforderung bestand darin, die statistischen Eigenschaften korrekt darzustellen und gleichzeitig die Generierung von (Beinahe-)Duplikaten zu vermeiden. Nur dann kann dieses Verfahren sicher angewendet werden, da letztere geschützte Informationen preisgeben würden.

Das Ergebnis

Machine Learning Reply hat für den Datenschutz-Use-Case die Wasserstein GANs-Methode als vielversprechend evaluiert. Sie eignet sich, um Korrelationen innerhalb realer Datensäte zu reproduzieren. Mit der GAN-Methode konnten größere Überschneidungen zwischen den synthetischen und den realen Daten festgestellt werden als mit der VAE-Methode. Denn die nachgestellten Entitäten der VAE-Methode haben Bereiche nicht abgedeckt, die in den realen Daten zu finden waren.