Hovedpointer
- GDPR data discovery er en løbende proces, ikke et engangsprojekt. Der bliver skabt nye persondata hver dag, så indsatsen skal være kontinuerlig for at give et opdateret overblik.
- Persondata gemmer sig på uventede steder. I de fleste Microsoft 365-miljøer ligger persondata spredt i e-mail-vedhæftninger, personlige OneDrive-mapper, delte SharePoint-sites og Teams-chats - ofte uden at nogen er klar over det.
- Det er sværere at finde persondata, end man skulle tro. Meget af dataen ligger i scannede dokumenter, billeder og vedhæftninger, som almindelige søgeværktøjer ikke kan læse. Effektiv data discovery kræver teknologi, der kan forstå andre formater end ren tekst.
- Det kræver mere end teknologi at rydde op. Selv når man kan se, hvor persondataene ligger, kræver det involvering fra medarbejderne og klar opbakning fra ledelsen at få dem slettet og restruktureret.
- Enkelhed vinder over kompleksitet. Et godt GDPR data discovery-værktøj holder fokus på kerneopgaven: at finde de persondata, der reelt er forbundet med risiko, præsentere dem uden juridisk sprog og give medarbejderne en klar og intuitiv måde at handle på dem. Værktøjer med for mange valgmuligheder, for meget opsætning eller for meget kompleksitet ender med ikke at blive brugt.
- Et lavt antal falske positiver betyder mere end lange lister over features. Et værktøj, der markerer alt som "potentielt sensitivt", skaber så meget støj, at medarbejderne lærer at ignorere det. Discovery-værktøjer skal være præcise nok til, at medarbejderne stoler på resultaterne.
- GDPR data discovery er ikke kun en compliance-øvelse. Gjort rigtigt reducerer det sikkerhedsrisiko, sænker omkostninger til datalagring og giver ledelsen et klart billede af, hvor persondata ligger i organisationen.
Hvad er GDPR data discovery?
GDPR data discovery er processen med at identificere, klassificere og håndtere persondata i organisationens systemer. Behovet findes, fordi de fleste organisationer - selv dem med gode politikker på papiret - ikke har et klart billede af, hvor persondata faktisk befinder sig i deres filer, e-mails og delte drev.
I praksis besvarer GDPR data discovery tre spørgsmål:
1. Hvor er persondataene gemt? Persondata ligger sjældent samlet ét sted. De ender i e-mail-vedhæftninger, i delte mapper, i gamle dokumenter og følger medarbejderne på tværs af systemer.
2. Hvilken type persondata er det? Ikke alle persondata indebærer samme risiko. Et CPR-nummer, en paskopi eller en følsom helbredsoplysning udgør en langt større risiko end en intern telefonliste. Klassificering efter type og følsomhed er det, der gør dataene anvendelige.
3. Hvad skal der ske med dem nu? Når I ved, hvad I har, og hvor det ligger, kan I beslutte, hvad der skal beholdes, slettes eller restruktureres.
Det sidste punkt er det, der adskiller GDPR data discovery fra almindelig data mapping eller ren scanning. En data discovery-indsats, der kun identificerer data uden at føre til handling, er ufuldstændig. Pointen med at finde persondata er at få muligheden for at handle på sin viden - typisk at slette det, der ikke længere er brug for, flytte det, der hører til et andet sted, eller dokumentere det, der har et legitimt formål.
Data discovery er ikke det samme som data mapping
Begreberne bruges ofte i flæng, men der er en brugbar forskel:
- Data mapping handler om at forstå, hvordan persondata flyder gennem organisationen - hvor de kommer fra, hvor de ender, hvem der har adgang til dem, og hvilke retsgrundlag der gælder. Det er primært en dokumentationsopgave og indgår i jeres fortegnelse over behandlingsaktiviteter (RoPA) efter GDPR artikel 30.
- Data discovery handler om at finde persondata, der allerede ligger i jeres systemer - særligt dem, I måske ikke vidste fandtes. Det er primært en operationel opgave.
De fleste organisationer har brug for begge dele. Data mapping dokumenterer, hvad der bør ske; data discovery viser, hvad der faktisk sker.
Data discovery er ikke det samme som DLP
Data Loss Prevention-værktøjer (DLP) er designet til at forhindre persondata i at forlade organisationen - for eksempel ved at blokere udgående e-mails med kreditkortnumre. Data discovery fokuserer derimod på persondata, der allerede ligger i jeres systemer, ofte gennem flere år. Begge spiller en vigtig rolle, men de løser forskellige udfordringer. Et DLP-værktøj hjælper jer ikke med at finde en mappe fyldt med gamle kopier af pas, og et data discovery-værktøj forhindrer ikke nogen i at sende persondata på mail i dag.
Hvorfor er GDPR data discovery vigtigt?
Under GDPR har organisationer ansvar for at beskytte persondata gennem hele dataenes livscyklus - fra indsamling til sletning. Det ansvar forsvinder ikke, fordi data er blevet glemt i en gammel e-mail eller begravet i en delt mappe. Når dataene findes, er det jeres ansvar at håndtere dem korrekt.
GDPR data discovery er vigtigt, fordi de fleste organisationer ikke kan leve op til det ansvar uden. I kan ikke beskytte, slette eller dokumentere data, I ikke ved findes.
GDPR-principper, der afhænger af data discovery
Flere af GDPR's grundlæggende principper er svære eller umulige at efterleve uden løbende data discovery:
- Dataminimering (artikel 5). I bør kun opbevare persondata, der er nødvendige til et klart, defineret formål. I praksis kræver det, at I ved, hvilke data I faktisk har, og kan identificere dem, der ikke længere tjener et formål.
- Opbevaringsbegrænsning (artikel 5). Persondata bør ikke opbevares længere end nødvendigt. Uden indsigt i, hvor dataene ligger, og hvor gamle de er, forbliver opbevaringspolitikker noget, der står på papiret frem for at blive efterlevet i praksis.
- Ansvarlighed (artikel 5). I skal kunne dokumentere, at I overholder reglerne. Det betyder, at I skal kunne fremvise dokumentation for, hvilke persondata I behandler, hvor de er gemt, og hvilke beslutninger der er truffet om dem.
- Integritet og fortrolighed (artikel 32). Persondata skal beskyttes med passende sikkerhedsforanstaltninger. I kan ikke beskytte data effektivt, hvis I ikke ved, hvor de er.
Fra privatlivspolitik til praksis
De fleste organisationer har en privatlivspolitik, der beskriver, hvordan persondata skal håndteres, hvor længe de må opbevares, og hvor de må ligge. Udfordringen er at få den politik til at leve i praksis.
Det er præcis dér, GDPR data discovery gør en forskel. Ved løbende at identificere, hvor persondata faktisk ligger i jeres systemer, kan I opdage de tilfælde, hvor virkeligheden ikke spiller sammen med politikken - og handle på dem. Over tid forvandler det GDPR-efterlevelse fra en engangsdokumentation til en løbende operationel praksis.
GDPR data discovery og overgangen til AI
En nyere årsag til, at data discovery er blevet vigtigt, er tilføjelsen af AI i Microsoft 365. Værktøjer som Microsoft Copilot kan søge på tværs af e-mails, dokumenter og delte drev - hvilket betyder, at persondata, der ligger i de systemer, nu potentielt er inden for rækkevidde af AI-genererede svar og AI-træningsdata.
For de fleste organisationer rejser det et spørgsmål, der er værd at besvare, før AI rulles bredt ud: ved vi, hvilke persondata der ligger i det miljø, AI skal arbejde i? At rydde op i unødvendige persondata først er den sikrere vej - det reducerer risikoen for, at AI uventet bringer følsomme oplysninger frem, og fjerner en kategori af data, som AI slet ikke bør have adgang til.
GDPR data discovery er derfor både en compliance-indsats og en forberedelse til den næste generation af arbejdspladsværktøjer.
Hvor gemmer persondata sig i Microsoft 365?
For de fleste organisationer ligger størstedelen af persondataene ikke i en struktureret database eller et dedikeret CRM. De ligger i den daglige arbejdsplads: e-mails, dokumenter, delte mapper og chats. Microsoft 365 er der, hvor det meste af det daglige arbejde foregår - og dermed der, hvor de fleste persondata gemmer sig.
At forstå, hvor dataene typisk samler sig, er det første skridt mod faktisk at finde dem. Herunder gennemgår vi de steder, vi oftest ser persondata gemme sig i Microsoft 365-miljøer.
E-mail-vedhæftninger i Exchange
E-mail er den enkeltstående største kilde til glemte persondata i de fleste organisationer. Folk sender og modtager CV'er, underskrevne kontrakter, kopier af pas, sygemeldinger og økonomiske dokumenter - og når e-mailen først er læst, ligger vedhæftningen i indbakken på ubestemt tid.
Et par mønstre, vi ser igen og igen:
- HR-indbakker med store mængder ansøgerdata. CV'er og identitetsdokumenter fra kandidater, der aldrig blev ansat.
- Lederes indbakker med følsomme medarbejderdata. Sygemeldinger, performance-dokumenter og lønoplysninger, der ideelt set ikke burde være sendt på mail i første omgang.
- Økonomi-indbakker med betalings- og identitetsdata. Kreditkortoplysninger, kontoudtog og ID-dokumenter sendt til verifikation.
- Sendt-mapper. Ofte overset, men indeholder ofte et komplet arkiv over alle de følsomme vedhæftninger, medarbejderen nogensinde har sendt.
Exchange In-Place Archive er et andet almindeligt gemmested. Når mailbokse rammer lagergrænserne, bliver ældre e-mails automatisk arkiveret - og dermed ude af syne. Persondataene er der stadig, det er stadig jeres ansvar, men de bliver sjældent gennemgået.
Personlige OneDrive-mapper
OneDrive er positioneret som personligt lager, men i praksis samler det en blanding af personlige og professionelle dokumenter. Medarbejderne gemmer downloadede vedhæftninger, dokumentudkast, scannede kopier og personlige noter, der ofte indeholder persondata.
Udfordringen med OneDrive er, at dataene per design er private for hver enkelt medarbejder. Som administrator kan I ikke gå dem igennem. Det er derfor, medarbejderdrevet data discovery og oprydning betyder noget - de mennesker, der kender indholdet i deres OneDrive, er de rigtige til at beslutte, hvad der skal ske med det.
SharePoint-sites og delte drev
SharePoint er stedet, hvor der deles på tværs af organisationen - og dermed også stedet, hvor dataene har det med at sprede sig. Et site, der er sat op til et bestemt projekt, ender med at indeholde persondata længe efter, at projektet er afsluttet. Dokumenter bliver uploadet én gang og derefter glemt, når folk går videre til andre opgaver.
Almindelige mønstre:
- Gamle projekt-sites med persondata om kunder, partnere eller kandidater.
- Afdelingsdrev med HR-records, onboarding-dokumenter og medarbejderudviklingssamtaler.
- Team-sites med bred adgang, hvor persondata ligger synlige for langt flere mennesker, end de burde.
- Filer fra Teams. Når nogen deler en fil i en Teams-kanal eller -chat, gemmes den i SharePoint eller OneDrive i baggrunden. Det betyder, at filer delt via Teams også er en del af data discovery-billedet - selvom selve Teams-chatbeskederne ikke er det.
Scannede dokumenter, billeder og skærmbilleder
Det er den kategori, traditionelle søgeværktøjer ikke kan håndtere. Et scannet pas, et skærmbillede af et kreditkort, et foto af et kørekort - alle indeholder persondata, men dataene er ikke tekst. De er pixels.
Almindelige søge- og DLP-værktøjer kan ikke læse billeder. Det betyder, at en hel kategori af højrisiko-persondata reelt er usynlig for de fleste oprydningsindsatser. Et moderne data discovery-værktøj skal kunne forstå mere end ren tekst - det skal kunne læse indholdet af billeder og scannede dokumenter, ikke kun filnavnene.
De data, man ikke tænker på at lede efter
Mønstret i de fleste data discovery-projekter er, at de oplagte steder indeholder færre persondata end forventet, mens de uventede steder indeholder flere. Eksempler:
- Et mødereferat, der citerer nogens CPR-nummer som baggrund.
- Et scannet ID-dokument vedhæftet en e-mailtråd om noget helt andet.
- En "kladde" gemt for år tilbage, som aldrig blev sendt, men stadig indeholder en kopi af nogens pas.
- En underskrevet PDF gemt i en mappe med navnet "Gamle ting - slettes nok", der indeholder kreditkortoplysninger.
Det er den slags tilfælde, der betyder mest for GDPR. Det er de datapunkter, ingen politik eksplicit har tilladt - og dem, der mest sandsynligt vil give et ærgerligt billede under en audit eller en undersøgelse af et databrud.
Hvilke typer persondata skal I lede efter?
GDPR gælder for alle persondata - men i praksis udgør ikke alle persondata samme risiko. Et navn i en e-mail-signatur er teknisk set persondata; det samme er en kopi af et pas gemt på et delt drev. Forskellen i reel risiko er betragtelig.
En effektiv GDPR data discovery-indsats fokuserer på de kategorier af persondata, der udgør den største risiko, hvis de bliver håndteret forkert, bliver eksponeret eller opbevaret for længe. Det er den risikobaserede tilgang, GDPR lægger op til, og den mest praktiske måde at rette oprydningsindsatsen mod det, der repræsenterer den største risiko.
Højrisiko-kategorier, det er værd at prioritere
Kategorierne nedenfor findes typisk i store mængder i de fleste organisationer og udgør forhøjet risiko under GDPR:
- Personlige identifikationsnumre. Nationale identitetsnumre som CPR-numre (Danmark), personnummer (Sverige og Norge) eller tilsvarende identifikatorer i andre lande. De bruges bredt til autentificering og identitetsbekræftelse, hvilket gør dem til værdifulde mål ved et databrud.
- Kreditkortnumre. Sendes ofte som vedhæftninger til e-mails i forbindelse med betalingsverifikation, refusionsanmodninger eller finansiel dokumentation. Særligt følsomme på grund af direkte økonomisk risiko og PCI-DSS-implikationer.
- Officielle identitetsdokumenter. Kopier af pas, kørekort og lignende dokumenter - ofte sendt som vedhæftninger til e-mails til verifikation og derefter glemt.
- Følsomme helbredsoplysninger. Diagnoser, sygemeldinger eller andre helbredsrelaterede dokumenter, der falder under GDPR's særlige kategorier af persondata (artikel 9) og kræver stærkere beskyttelse.
- Straffeattester. Baggrundstjek og udskrifter fra det kriminelle register, der også er klassificeret som særlige kategorier af persondata og er underlagt strengere håndteringskrav.
- HR-relaterede dokumenter. CV'er og lignende dokumenter, der typisk kombinerer flere kategorier af persondata i én fil.
Det er de kategorier, hvor et lille antal filer kan udgøre en betydelig risiko - og hvor det at finde og handle på dem hurtigt giver den største compliance-værdi.
Derfor er almindelige identifikatorer ikke altid det rette fokus
Navne, e-mailadresser, telefonnumre og hjemmeadresser er teknisk set persondata under GDPR, men at gøre dem til hovedfokus for data discovery gør ofte mere skade end gavn. Der er tre grunde:
- Mængden. Almindelige identifikatorer findes i praktisk talt alle e-mails, dokumenter og systemer i organisationen. At markere dem alle skaber så meget støj, at de meningsfulde mønstre forsvinder.
- Konteksten. Et navn i en e-mail-signatur er ikke det samme som et navn på en liste over sygemeldte medarbejdere. Risikoen ligger i kombinationen af data, ikke i det enkelte datapunkt.
- Handlemulighederne. De fleste almindelige identifikatorer kan ikke slettes uden at forstyrre den daglige drift. At fokusere på dem skaber arbejde uden reelt at reducere risiko.
Det er derfor, en risikobaseret tilgang starter med de kategorier, der reelt er forbundet med risiko - og hvor man kan handle uden at forstyrre den daglige drift.
Lokale forskelle har betydning
Persondata ser ikke ens ud i alle lande. Et CPR-nummer i Danmark, et personnummer i Sverige, et National Insurance number i Storbritannien, et Personalausweis-nummer i Tyskland og et PESEL-nummer i Polen er alle nationale identitetsnumre - men formaterne er helt forskellige.
For organisationer, der opererer på tværs af flere nordeuropæiske markeder, betyder effektiv GDPR data discovery, at man genkender de rette formater for hvert land. Et værktøj, der kun er bygget til ét lands dataformater, vil systematisk overse højrisiko-persondata i de andre.
De fire trin i GDPR data discovery
En velfungerende GDPR data discovery-indsats følger en klar rækkefølge. I forbinder jer til jeres systemer, I scanner og klassificerer, I gennemgår og handler, og derefter fortsætter I arbejdet. Trinnene er enkle i princippet - men forskellen mellem et projekt, der virker, og et, der går i stå, ligger i, hvordan hvert trin gennemføres.
Trin 1: Forbind til jeres systemer
Det første trin er at forbinde jeres data discovery-værktøj til de systemer, hvor persondataene faktisk ligger. For de fleste organisationer i dag betyder det Microsoft 365 - Exchange (inklusive In-Place Archive), OneDrive, SharePoint og filerne, der deles via Teams.
Et par ting har betydning på dette trin:
- Dækning. Alle relevante Microsoft 365-tjenester bør være med fra start. At udelade OneDrive eller Exchange In-Place Archive skaber blinde vinkler, der undergraver indsatsen.
- Adgangsrettigheder. Værktøjet har brug for læseadgang til at scanne indhold og skriveadgang for at kunne udføre sletninger, når medarbejderne beslutter at fjerne en fil. Adgangen bør være afgrænset til det nødvendige og ikke mere - både af hensyn til privatliv og sikkerhed.
- Opsætningstid. Et moderne værktøj bør kunne forbindes til Microsoft 365 på minutter, ikke dage. Kompleks opsætning er en af de mest almindelige årsager til, at data discovery-projekter bliver forsinket eller opgivet.
Trin 2: Scan og klassificer
Når forbindelsen er på plads, scanner værktøjet jeres miljø for persondata og klassificerer fundene efter type og følsomhed. Det er den tekniske kerne i data discovery.
Det, der afgør om dette trin lykkes:
- Evnen til at læse mere end tekst. Meget af den prioriterede persondata ligger i scannede dokumenter, billeder og PDF-filer. Et værktøj, der kun læser ren tekst, vil overse flere kategorier, som er vigtige at have med.
- Formatkendskab. Nationale identitetsnumre, pasnumre og andre regulerede formater varierer fra land til land. Søgelogikken skal kunne genkende de formater, der er relevante for de lande, jeres organisation opererer i.
- Lavt antal falske positiver. Et værktøj, der markerer alt som potentielt følsomt, vil hurtigt blive ignoreret af medarbejdere. Præcision betyder mere end at fange alt - en kortere liste af nøjagtige fund er langt mere brugbar end en lang liste med støj.
Resultatet af dette trin er et klart billede af, hvor persondata ligger i jeres miljø, opdelt efter type, risikovurdering og placering.
Trin 3: Gennemgå og tag stilling
Det er trinnet, hvor de fleste data discovery-projekter enten skaber værdi eller går i stå. At identificere persondata er kun nyttigt, hvis der sker noget med dem bagefter.
To mønstre virker godt i praksis:
- Medarbejderdrevne beslutninger. De mennesker, der har oprettet eller arbejder med en fil, er typisk bedst til at vurdere, om den skal beholdes, slettes eller flyttes. De kender den kontekst, intet scanningsværktøj kan se. At vise fund frem for den relevante medarbejder - frem for at bede en enkelt administrator gennemgå tusindvis af filer - er det, der får oprydningen til reelt at ske.
- Klare, enkle valg. Medarbejderne bør ikke skulle læse juridisk tekst for at handle. De bedste discovery-værktøjer præsenterer fund i klart sprog og tilbyder et lille antal tydelige valg: slet, behold, beslut senere. For mange valgmuligheder eller for meget kompleksitet er den hurtigste vej til at få folk til at miste motivationen.
I baggrunden indstiller administratorerne de politikker, der afgør, hvad der tæller som en overtrædelse, hvilke data der skal udelades, og hvor ofte medarbejderne skal mindes om at handle. Kombinationen af administratorpolitik og medarbejderhandling er det, der forvandler data discovery fra en engangs-scanning til en velfungerende proces.
Trin 4: Fortsæt arbejdet
GDPR data discovery er ikke noget, man bliver færdig med. Nye e-mails kommer ind, nye dokumenter bliver skabt, nye delte sites bliver oprettet. Persondata hober sig løbende op, så data discovery-processen skal også være løbende.
I praksis betyder det:
- Indledende fuld scanning. Den første scanning dækker alt i jeres Microsoft 365-miljø. Den fastlægger udgangspunktet og bringer den historiske data frem, der har samlet sig gennem årene.
- Daglige opdateringer. Derefter skal værktøjet kun se på det, der er ændret - nye filer, ændrede filer, nye delte sites. Det holder billedet aktuelt uden at scanne hele miljøet igennem hver dag.
- Periodiske kampagner. Løbende opdateret overblik fungerer bedst sammen med periodiske kampagner, der involverer medarbejderne. En påmindelse til de relevante medarbejdere en gang om måneden eller en gang i kvartalet holder oprydningen i gang uden at blive påtrængende.
På den måde går GDPR-efterlevelse fra at være et engangsprojekt til at være noget, der kører som et fast element i baggrunden af det normale arbejde.
Manuel kontra automatiseret data discovery
Der er to måder at gribe GDPR data discovery an på: manuelt eller med et dedikeret værktøj. Manuel data discovery har sin plads - nogle organisationer planlægger dedikerede "slettedage", hvor medarbejderne sidder og finder og rydder op i persondata - men resultatet udgør typisk en falsk tryghed. Folk finder noget, men langt fra alt, og den tid, der er investeret, modsvarer sandsynligvis ikke værdien.
Sådan ser manuel data discovery ud
En manuel data discovery-indsats betyder typisk, at hver medarbejder i organisationen bliver bedt om at gennemgå sin egen mailboks og sine egne drev for persondata. I et Microsoft 365-miljø kan det betyde:
- At medarbejderne bliver bedt om at søge i deres egne mailbokse efter nøgleord som "pas", "CPR" eller "kreditkort"
- At de bliver bedt om at gennemgå deres egne mapper i OneDrive
- At organisationen kører "slettedage", hvor alle bliver bedt om at bruge timer på oprydning
- At resultaterne bliver samlet i regneark eller rapporter til dokumentation
Tilgangen giver resultater, men resultaterne er ujævne. Det grundlæggende problem er ikke indsats - det er, at manuelle metoder ikke finder den persondata, der betyder mest:
- Søgning overser det meste af den persondata, der udgør den største risiko. Almindelig søgning kan ikke læse scannede dokumenter, billeder eller PDF-filer - og det er præcis der, persondata med høj risiko ofte gemmer sig. Man kan bruge en hel dag på at søge i sin mailboks og stadig overse de kopier af pas, der ligger som billed-vedhæftninger.
- Det er langsomt. En grundig manuel gennemgang af et mellemstort Microsoft 365-miljø kan tage uger eller måneder af medarbejdernes tid - og selv da vil der typisk restere betragtelige mængder data.
- Det er forældet med det samme. Selv hvis man gennemfører en manuel gennemgang, bliver der skabt nye persondata hver dag. Uden løbende scanning er det billede, man har skabt, allerede forældet, når man er færdig.
- Det placerer ansvaret det forkerte sted. At bede hver medarbejder om manuelt at finde persondata i sin egen mailboks og sine egne drev giver mening i princippet - medarbejderne kender selv deres data bedst. Men uden et værktøj, der kan vise, hvad der er værd at gennemgå, ender medarbejderne med enten at gennemgå ingenting eller at forsøge at gennemgå alt. Ingen af delene virker.
Sådan gør automatiseret data discovery det anderledes
Et automatiseret data discovery-værktøj scanner jeres systemer løbende, identificerer persondata - inklusive den, der gemmer sig i billeder og scannede dokumenter - og præsenterer fundene på en struktureret måde, som medarbejdere og administratorer kan handle på.
Forskellen handler ikke kun om hastighed. Den handler om at gøre noget, der før var umuligt, praktisk gennemførligt:
- Fuld dækning af alle relevante Microsoft 365-tjenester, inklusive de formater, manuel søgning ikke kan se.
- Løbende opdateringer, der holder billedet aktuelt uden at skulle starte forfra hver gang.
- Et klart workflow, der sender fund til de rette personer med den rette information til at handle på dem.
- Dokumenterede beslutninger, så I har dokumentation for, hvad der er fundet, hvad der er beholdt, og hvad der er slettet - den slags optegnelser, der betyder noget, når en tilsynsmyndighed spørger.
Enkelhed er afgørende
Der er gode argumenter for automatiseret data discovery. Det er sværere at svare på, hvilket værktøj man skal vælge - og det kan komme an på, om værktøjet er tilstrækkelig enkelt i anvendelse.
Der findes mange data discovery-værktøjer på papiret. I praksis er mange af dem så komplekse, at de kræver dedikerede specialister at betjene, skaber så meget støj, at resultaterne bliver ignoreret, eller producerer rapporter, som ingen medarbejder nogensinde læser.
Et værktøj, der er svært at bruge, ender med ikke at blive brugt. De mest værdifulde data discovery-værktøjer er dem, der skjuler deres kompleksitet bag en klar og intuitiv brugerflade - både for administratorer, der opretter politikker, og for medarbejdere, der handler på fund. Enkelhed er ikke en funktion; det er det, der afgør, om indsatsen giver resultater eller ej.
Hvad skal I lede efter i et GDPR data discovery-værktøj?
Hvis I er ved at evaluere GDPR data discovery-værktøjer, vil featurelisterne ofte ligne hinanden. De forskelle, der reelt har betydning, viser sig først, når værktøjet er taget i brug. Herunder er de kriterier, der er værd at vurdere grundigt - baseret på, hvad der typisk erforskellen mellem projekter, der skaber værdi, og dem, der går i stå.
Dybden af Microsoft 365-integrationen
Hvis det meste af jeres persondata ligger i Microsoft 365, skal jeres discovery-værktøj dække det hele. Det betyder Exchange (inklusive In-Place Archive), OneDrive, SharePoint og de filer, der deles via Teams. Mindre end det giver blinde vinkler.
Generiske data discovery-værktøjer, der kan forbindes til "alle store cloud-tjenester", viser sig ofte at have en overfladisk integration med Microsoft 365 specifikt. Et værktøj, der er bygget omkring Microsoft 365, vil typisk give bedre resultater end et, der behandler det som én blandt mange muligheder.
Evnen til at læse scannede dokumenter og billeder
Det er det kriterium, der adskiller almindelige søgeværktøjer fra reelle data discovery-værktøjer. En betydelig del af de persondata, der udgør den største risiko - kopier af pas, scannede ID-dokumenter, fotografier af kreditkort - ligger i billedform frem for som ren tekst.
Et discovery-værktøj, der ikke kan læse billeder, vil systematisk overse denne kategori. Når I evaluerer værktøjer, så spørg specifikt, om de kan finde persondata i scannede PDF-filer, billeder og skærmbilleder - og hvor pålideligt det sker.
Lavt antal falske positiver
Sikker søgelogik er det kriterium, de fleste købere undervurderer - indtil de begynder at bruge et værktøj, der genererer tusindvis af falske positiver.
Et værktøj, der markerer alle tal, der bare ligner et CPR-nummer, er teknisk set grundigt, men praktisk talt ubrugeligt. Medarbejderne mister tilliden til systemet, ignorerer resultaterne og melder fra over for oprydningsindsatsen. Præcision betyder mere end blot at fange alt.
Når I evaluerer et værktøj, så bed om benchmarks på falske positiver og kør, om muligt, værktøjet på en stikprøve af jeres egne data for at se, hvordan det præsterer.
Medarbejderdrevet workflow
Oprydning i persondata sker kun, når de mennesker, der ejer dataene, er involveret. Et værktøj, der kun er designet til administratorer - hvor en eller to personer skal gennemgå tusindvis af filer - skaber sjældent reel oprydning.
Led efter værktøjer, der:
- Sender fund til den relevante medarbejder, ikke til en central kø
- Præsenterer fund i klart sprog uden juridisk fagsprog
- Tilbyder et lille antal tydelige valgmuligheder
- Gør det nemt at handle uden at forlade værktøjet
Målet er at gøre den rigtige handling til den nemme handling.
Understøttelse af flere landes formater
Persondataformater varierer fra land til land. Et CPR-nummer i Danmark er strukturelt forskelligt fra et personnummer i Sverige, et National Insurance number i Storbritannien, et Personalausweis-nummer i Tyskland eller et PESEL-nummer i Polen.
For organisationer, der opererer på tværs af Nordeuropa, skal et discovery-værktøj kunne genkende persondataformaterne for hvert land, det opererer i. Et værktøj, der kun er bygget til ét lands formater, vil systematisk overse højrisiko-data i de andre.
Opsætningshastighed
De første par timer med et data discovery-værktøj fortæller meget. Et moderne værktøj bør kunne forbindes til Microsoft 365 og begynde at producere resultater inden for en kort opsætningstid - typisk omkring ti minutter fra forbindelse til de første fund.
Lange opsætningsprocesser er et advarselstegn. De afspejler typisk et værktøj, der kræver ekspertkonfiguration for overhovedet at virke, hvilket ofte hænger sammen med vedvarende kompleksitet i den daglige brug. Hvis et værktøj kræver en specialist at sætte op, kræver det sandsynligvis også en specialist at drive.
Datahåndtering og sikkerhed
Jeres data discovery-værktøj vil per definition have adgang til jeres mest følsomme indhold. Hvordan værktøjet håndterer data, betyder lige så meget som det, det finder.
Konkrete ting, det er værd at se på:
- Hvor dataene behandles. Nogle værktøjer gemmer kopier af filindhold i deres egne systemer - det betyder, at jeres persondata nu ligger to steder i stedet for ét.
- Hvad der gemmes. Værktøjer, der kun gemmer metadata og ikke filindhold, indebærer selvsagt en lavere risiko end værktøjer, der gemmer de underliggende filer.
- Sikkerhedscertificeringer. ISO 27001 og lignende certificeringer er en rimelig basisforventning til ethvert værktøj, der håndterer følsomme persondata.
- Brug af tredjeparts-AI. Nogle værktøjer sender jeres data til tredjeparts sprogmodeller til klassificering. Om det er acceptabelt eller ej afhænger af jeres tilgang til privatliv - men det er vigtigt at vide.
Enkelhed hele vejen igennem
Det vigtigste kriterium er også det sværeste at evaluere ud fra en featureliste. Et godt GDPR data discovery-værktøj er enkelt nok til, at:
- En administrator kan konfigurere det uden dedikeret træning
- En medarbejder kan handle på et fund uden at læse en manual
- En privacy officer kan dokumentere efterlevelse uden at skulle sammensætte rapporter manuelt
Værktøjer, der er enkle at bruge, bliver brugt. Værktøjer, der ikke er enkle, ender nemt som endnu et dyrt stykke software, der tærer på compliance-budgettet uden at levere resultater.
Almindelige udfordringer og hvordan I løser dem
Den sværeste del af GDPR data discovery er ikke den tekniske del. Moderne værktøjer håndterer pålideligt scanning og klassificering. Det svære er det, der sker omkring teknologien - hvordan arbejdet bliver prioriteret, hvordan medarbejderne engagerer sig, og hvordan løsningen fører til reel forandring.
Herunder er de udfordringer, vi ser oftest, og hvad der typisk virker i praksis.
Indsatsen bliver ikke prioriteret højt nok
Den hyppigste årsag til, at GDPR data discovery-projekter underleverer, er ikke teknisk - den er organisatorisk. Når data discovery bliver kørt som et sideprojekt, der ejes af en enkelt person i compliance eller IT, uden tydelig opbakning fra ledelsen, behandler medarbejderne det som valgfrit. Resultatet er lavt engagement, langsom oprydning og en fornemmelse af, at indsatsen er mere bureaukratisk end nyttig.
Det mønster, vi konsekvent ser: data discovery giver stærke resultater, når ledelsen tydeligt kommunikerer, at det er vigtigt - ikke som en engangskommunikation, men som en løbende prioritering koblet til bredere mål om databeskyttelse, sikkerhed og tillid. Når medarbejderne forstår, at deres ledelse oprigtigt går op i resultatet, følger engagementet med.
I praksis ser det sådan ud:
- En kort besked fra direktøren eller den relevante leder, når indsatsen sættes i gang
- Regelmæssige opfølgninger - f.eks. på fællesmøder - hvor fremskridt bliver nævnt som en del af almindelige forretningsmæssige opdateringer
- Anerkendelse af afdelinger eller teams, der gør reelle fremskridt
- At koble data discovery til andre strategiske prioriteter, organisationen allerede går op i
Den tekniske opsætning af et discovery-værktøj er hurtigt overstået. Den organisatoriske implementering er det, der afgør, om indsatsen skaber resultater over tid.
Undtagelser bliver brugt til at undgå at restrukturere
Et andet almindeligt mønster er, at man prøver at undtage problematiske områder for at undgå at skulle se en evt. omstrukturering i øjnene. Når data discovery afdækker et problem - for eksempel et SharePoint-site med persondata, der ikke burde være der - er den nemme løsning at tilføje en undtagelse, der udelukker det fra fremtidig oprydning. Den sværere løsning er at restrukturere, hvordan dataene opbevares, så det underliggende problem bliver løst.
Over tid ender organisationer, der som standard vælger undtagelser, med en lang liste over "områder, vi har besluttet at ignorere", hvilket gradvist undergraver værdien af discovery-indsatsen. Rapporterne ser renere ud, men det faktiske datalandskab er ikke blevet bedre.
Den bedre tilgang er at behandle hvert væsentligt fund som en anledning til at spørge: Hører disse data overhovedet til her? Findes der et tydeligere sted at have dem? Kan vi restrukturere, så politikken gælder automatisk i stedet for via en undtagelse? Restrukturering er mere arbejde i starten, men det giver varige forbedringer i stedet for en voksende liste af særtilfælde.
Undtagelser bør bruges bevidst - til de tilfælde, hvor dataene reelt hører til, hvor de er, eller hvor restrukturering ikke er realistisk. De bør ikke være standardsvaret på et problem, værktøjet har afdækket.
Medarbejderne mister motivationen, når arbejdsgangen er uklar
Hvis medarbejderne ikke forstår, hvad de bliver bedt om at gøre, eller hvis værktøjet præsenterer fundene i juridisk sprog, der kræver særlige kompetencer, falder engagementet hurtigt. Folk lader ikke være med at rydde op af onde hensigter - de lader være, fordi opgaven føles forvirrende, tidskrævende eller uvigtig.
Hvad der virker bedre:
- Klart sprog i enhver interaktion med medarbejderne
- Et lille antal tydelige valgmuligheder, ikke en lang liste af muligheder
- Tydelig kontekst for hvert fund - hvad der er fundet, hvorfor det betyder noget, og hvad der skal gøres
- Korte, fokuserede opgaver frem for overvældende lister
Princippet er det samme som for al intern kommunikation: hvis man gør den rigtige handling til den nemme handling, er det den, der bliver valgt.
Dashboardet bliver set, men fører ikke til handling
Moderne data discovery-værktøjer giver administratorer et opdateret overblik over persondataene på tværs af miljøet - opdelt efter type, følsomhed og placering. Der kan være en risiko for, at man behandler det overblik som målet i sig selv.
Et dashboard, der viser jer tilstanden af jeres data, er værdifuldt, men kun hvis fundene fører til reelle beslutninger og oprydning. Vi ser organisationer, hvor administratorer logger ind regelmæssigt, ser de samme fund måned efter måned og konkluderer, at "vi har styr på det, fordi vi kan se det". Fundene er ikke nye, fordi de underliggende data ikke er ændret - og de underliggende data er ikke ændret, fordi ingen har handlet på dem.
Det, der gør forskellen, er når persondata-fundene behandles som et løbende afsæt for handling, ikke som et endegyldigt resultat. Hvert fund er en beslutning, der skal træffes af nogen: behold, slet, flyt. Når den løkke kører - når medarbejderne reelt engagerer sig i deres egne data og handler på dem - ændrer dashboardet sig over tid. Når den ikke gør, bliver dashboardet et statisk øjebliksbillede af et problem, som ingen løser.
Synlighed er forudsætningen. Handling er resultatet.
Ofte stillede spørgsmål om GDPR data discovery
Hvad er forskellen på GDPR data discovery og data mapping?
Data discovery handler om at finde persondata, der allerede ligger i jeres systemer - særligt de data, I måske ikke ved er der. Data mapping handler om at dokumentere, hvordan persondata flyder gennem organisationen: hvor de kommer fra, hvor de ender, hvem der har adgang, og hvilke retsgrundlag der gælder. De fleste organisationer har brug for begge dele. Data mapping beskriver, hvad der bør ske; data discovery viser, hvad der faktisk sker.
Er GDPR data discovery lovpligtigt?
GDPR kræver ikke data discovery som en navngiven aktivitet, men den kræver, at organisationer ved, hvilke persondata de behandler, hvor de er gemt, og kan dokumentere, at principperne om dataminimering og opbevaringsbegrænsning bliver overholdt. I praksis er det ikke realistisk at leve op til disse forpligtelser uden en form for løbende data discovery - manuel eller automatiseret.
Hvor ofte bør GDPR data discovery udføres?
GDPR data discovery bør være løbende frem for periodisk. Der bliver skabt nye persondata hver dag, og en engangsscanning er forældet næsten med det samme. Et fornuftigt mønster er en indledende fuld scanning, der fastlægger udgangspunktet, efterfulgt af daglige opdateringer, der opfanger nye og ændrede filer. Periodiske kampagner, der involverer medarbejderne - f.eks. månedligt eller kvartalsvis - holder oprydningen i gang uden at overvælde folk.
Hvor lang tid tager GDPR data discovery?
Den indledende scanning af et Microsoft 365-miljø tager typisk én til to uger, afhængigt af hvor meget data der har samlet sig gennem årene. Det er ikke arbejde, jeres team skal udføre - scanningen kører i baggrunden, mens I fortsætter det daglige arbejde. Selve forbindelsen til Microsoft 365 tager omkring ti minutter at sætte op. Den længere tidshorisont ligger i oprydningen bagefter: at gennemgå, slette og restrukturere persondata er det arbejde, der tager uger eller måneder, og den del kræver løbende medarbejderinvolvering.
Kan Microsoft Purview bruges til GDPR data discovery?
Microsoft Purview indeholder funktioner til klassificering og opdagelse af data, men er bygget til centraliseret IT-styring snarere end til løbende GDPR-fokuseret oprydning af persondata. Fundene ligger hos administratorerne, ikke hos de medarbejdere, der ejer dataene og kan træffe oplyste beslutninger om dem. Purview er også stærkere som DLP-værktøj - til at forhindre persondata i at forlade organisationen - end som værktøj til at rydde op i de persondata, der allerede har samlet sig. Om Purview er nok afhænger af jeres tilgang til compliance, og hvilken type oprydningsproces I har brug for.
Hvad er forskellen på data discovery og DLP?
Data Loss Prevention-værktøjer (DLP) forhindrer persondata i at forlade organisationen i realtid - for eksempel ved at blokere udgående e-mails med kreditkortnumre. Data discovery fokuserer på persondata, der allerede ligger i jeres systemer, ofte gennem flere år. De løser hver deres problem. Et DLP-værktøj hjælper jer ikke med at finde en mappe med gamle kopier af pas; et data discovery-værktøj forhindrer ikke nogen i at sende persondata på mail i dag.
Kræver GDPR data discovery, at medarbejderne bliver involveret?
I praksis ja. Selvom et discovery-værktøj kan finde persondata automatisk, afhænger beslutningerne om, hvad der skal beholdes, slettes eller flyttes, af kontekst, som kun de mennesker, der ejer dataene, har adgang til. Et scanningsværktøj kan ikke vurdere, om en konkret fil stadig tjener et legitimt forretningsmæssigt formål - det kan den medarbejder, der har oprettet den. De mest effektive data discovery-indsatser kombinerer automatiseret scanning med medarbejderdrevne beslutninger.
Hvad med AI og data discovery?
Fremkomsten af AI i Microsoft 365 har gjort data discovery endnu vigtigere. Værktøjer som Microsoft Copilot kan søge på tværs af e-mails, dokumenter og delte drev, hvilket betyder, at persondata, der ligger i de systemer, potentielt er inden for rækkevidde af AI-genererede svar. At rydde op i unødvendige persondata, før AI rulles bredt ud, reducerer risikoen for, at AI uventet bringer følsomme oplysninger frem, og fjerner en kategori af data, som AI slet ikke bør have adgang til.
Sådan lykkes I med GDPR data discovery
GDPR data discovery er ikke ét projekt med en begyndelse og en afslutning. Det er en løbende proces - at finde persondata, beslutte hvad der skal ske med dem, og holde billedet aktuelt, efterhånden som der bliver skabt nye data hver dag.
Den tekniske side er modnet betydeligt. Moderne værktøjer kan scanne Microsoft 365 grundigt, læse mere end ren tekst og klassificere fundene efter risiko med et lavt antal falske positiver. Det svære ligger fortsat i det organisatoriske: at sikre, at ledelsen står bag indsatsen, at medarbejderne forstår, hvad de bliver bedt om at gøre, og at fundene fører til handling frem for kun til dashboards.
De organisationer, der lykkes med GDPR data discovery, deler typisk nogle træk:
- De behandler det som en løbende indsats, ikke et engangsprojekt. Løbende scanning kombineret med regelmæssigt engagement fra medarbejderne skaber varig forandring.
- De holder det enkelt. Værktøjer, der er intuitive, bliver brugt. Værktøjer, der kræver specialister, ender ofte med ikke at blive brugt.
- De involverer de mennesker, der ejer dataene. Medarbejderne kender den kontekst, intet scanningsværktøj kan kende til - og det er dem, der kan træffe de rigtige beslutninger.
- De fokuserer på de data, der reelt udgør en risiko. En risikobaseret tilgang, forankret i de kategorier, der har reel betydning under GDPR, er mere effektiv end at forsøge at katalogisere hvert eneste navn og hver eneste e-mailadresse i organisationen.
Gjort på den måde bliver GDPR data discovery til noget, der kører stille i baggrunden af det almindelige arbejde - reducerer risiko, understøtter compliance og forbereder Microsoft 365-miljøet til den næste generation af AI-drevne værktøjer.
Hvis I gerne vil se, hvordan GDPR data discovery ser ud i praksis, kan I udforske Sheltr Data Discovery - eller kigge i vores Help Center for konkrete svar på specifikke spørgsmål om løsningen.

