Anonimiseren en Pseudonimiseren. Welke hoort bij de GDPR?

In de General Data Protection Regulation (GDPR) die vanaf mei 2018 van kracht wordt, wordt het concept “gepseudonimiseerde data” geïntroduceerd als voorkeursoplossing voor het gebruik van persoonsgegevens buiten de productieomgeving.

In dit artikel gaan we in op het verschil tussen gepseudonimiseerde en geanonimiseerde data en welke van de twee het meest geschikt is bij het testen van software.

Pseudonimiseren

Definitie
Pseudonimiseren is een procedure waarmee identificerende gegevens met een bepaald algoritme worden vervangen door versleutelde gegevens (het pseudoniem). Het algoritme kan voor een persoon altijd hetzelfde pseudoniem bepalen, waardoor informatie over de persoon, ook uit verschillende bronnen, kan worden gecombineerd

Voorbeeld:

Piet Pieterse wordt 2@1ab99ZZ. Dit gebeurt bijvoorbeeld met behulp van encryptie. Na de encryptie is de verantwoordelijke instantie nog steeds in staat om de betrokkene te identificeren. Het algoritme levert namelijk voor het voorbeeld Piet Pieterse altijd hetzelfde pseudoniem op en kan dus met de kennis van het algoritme weer worden teruggehaald.

Pseudonimisering is daardoor omkeerbaar en als zodanig zijn het nog steeds persoonsgegevens die vallen onder de GDPR. Pseudonimisering vermindert wel de kans op misbruik van de gegevens bij een eventueel datalek, want je moet weten hoe het algoritme werkt.

Voor testdoeleinden is deze methode niet zo geschikt. Wanneer je namelijk testgevallen hebt waarmee je moet controleren of de voornaam met een bepaalde letter begint kan dat niet of wanneer je de geboortedatum hebt gepseudonimiseerd kun je testgevallen die moeten controleren op basis van de geboortedatum (bijvoorbeeld leeftijd > 21) niet meer uitvoeren.

Anonimiseren (datamasking)

Datamasking is een methode waarbij de data wordt bewerkt volgens bepaalde regels. Er zijn verschillende methodes om dit te doen.
Een paar voorbeelden staan hieronder:

Shuffle (al dan niet geconditioneerd)
Achternamen kunnen bijvoorbeeld onderling worden verwisseld.
Blanken
Bepaalde velden kunnen worden leeggemaakt
Firstday
De dagen in een datum kunnen worden vervangen door een 1
Look-up
Gegevens kunnen worden vervangen door fictieve gegevens uit een ander bestand
Expression
Gegevens worden vervangen op basis van vooraf gedefinieerde regels

Anonimiseren is onomkeerbaar: gegevens zijn na maskeren dan ook geen persoonsgegevens meer. Wanneer deze gegevens zich buiten de productieomgeving bevinden, is er ook na inwerkingtreding van de GDPR géén sprake van een potentieel datalek. Dit is daardoor een goede methode om productiedata geschikt te maken voor testdoeleinden.

Let op!

Belangrijke randvoorwaarde is natuurlijk wel dat alle herleidbare persoonsgegevens gemaskeerd worden.
Het anonimiseren dient wel te gebeuren door daartoe geautoriseerde personen en binnen de geldende regels. Vóór het anonimiseren zijn het namelijk nog wel persoonsgegevens die vallen onder de GDPR regels.