Áður en gögn eru sett í opinn aðgang er mikilvægt að öll bein persónuauðkenni(direct personal identifiers) hafi verið fjarlægð úr gagnaskrá s.s. nöfn, heimilisföng, símanúmer og kennitölur. Einnig þarf að yfirfara gögnin með tilliti til óbeinna auðkenna(indirect personal identifiers) en þar er átt við upplýsingar sem skera sig úr á einhvern hátt og geta leitt til þess að rekja megi svör til einstaklinga. Við fyrstu sýn geta slíkar upplýsingar virst meinlausar en þegar betur er að gáð má nota þær, annað hvort einar eða með öðrum breytum, til að finna einstaklinga í gagnasafni. Dæmi um óbein auðkenni er óvenjulegur eða sérhæfður starfstitill, sjaldgæfar trúarskoðanir og aðild að fámennum félagasamtökum. Eftir því sem fleiri breytur innihalda upplýsingar af þessu tagi því meiri hætta er á persónurekjanleika og nauðsynlegt að bregðast við því með einhverjum hætti, t.d. eyða breytum, eða afmá eða dulkóða vissar upplýsingar.
Hafa ber í huga að ef margar breytur eða mikilvægar upplýsingar eru fjarlægðar úr gagnaskrá getur það dregið verulega úr notagildi gagnanna. Þá getur komið til álita að setja gagnaskrá í stýrðan aðgang þar sem gerðar eru strangari kröfur til notenda.
Mat á persónurekjanleika
Mat á persónurekjanleika felur jafnan í sér kerfisbundna athugun á öllum breytum í gagnaskrá, t.d. með tíðnigreiningu. Algengt viðmið er að ef færri en 20 einstaklingar nota tiltekinn svarmöguleika sé ástæða til að skoða gögnin nánar, sérstaklega ef um viðkvæmar upplýsingar er að ræða, t.d. um heilsufar, ólöglegt athæfi eða aðrar upplýsingar sem geta komið sér illa fyrir einstaklinga.
Dæmi: Rannsókn á viðhorfum starfsfólks og aðeins ein kona eða karlmaður er á vinnustaðnum.
Dæmi: Aldur og hjúskaparstaða eru ekki augljós persónuauðkenni, en hvað ef einn þátttakandi er 18 ára og fráskilinn?
Nota má sérhæfð forrit eða skipanir (scripts) til að greina mynstur í gögnum sem ekki endilega eru augljós en geta valdið því að svör eru rekjanleg til einstaklinga. Þá er mikilvægt að treysta ekki um of á slík forrit og taka einnig mið af sérfræðiþekkingu á því fræðasviði sem gögnin taka til.
Svör í textabreytum
Einnig þarf að athuga vel svör í textabreytum (string variables), sem innihalda frjáls svör þátttakenda. Þar geta ýmsar upplýsingar leynst sem eru rekjanlegar með beinum eða óbeinum hætti.
Dæmi: Einstaklingur kveðst hafa setið í bæjarstjórn undanfarin ár.
Dæmi: Óvenju hár fermetrafjöldi einbýlishúss í fámennu bæjarfélagi.
Aðgerðir sem stuðla að því að draga úr persónurekjanleika
Eins og áður hefur komið fram er nauðsynlegt að fjarlægja öll bein persónuauðkenni úr gagnaskrá hvort sem gögnin fara í opinn eða stýrðan aðgang. Að auki er mikilvægt að bregðast við óbeinum auðkennum sem geta valdið því að gögnin eru rekjanleg til einstaklinga. Í töflunni hér að neðan er að finna yfirlit yfir helstu aðferðir til að draga úr rekjanleika vegna beinna og óbeinna persónuauðkenna.
Bein persónuauðkenni | Dæmi |
Eyða breytum sem innihalda bein persónuauðkenni | Breyta sem inniheldur t.d. kennitölur, nöfn, netföng, símanúmer, póstnúmer, auðkenni frá þriðja aðila, upplýsingar um vinnustað/starf, ökutækjaskráningu, bankareikningsnúmer, IP tölur, nemendaauðkenni. |
Svör við opnum spurningum | Dæmi |
Greina ítarlega svör við opnum spurningum sem eru að finna í textabreytum (string variables) --> breyta (dulkóða) eða eyða svörum sem innihalda rekjanlegar upplýsingar --> Ef mörg opin svör eru af svipuðum toga má útbúa breiða flokkabreytu sem nær utan um þau svör. |
Svar þátttakanda: "Móðir mín kemur frá Líbíu og hefur búið á Íslandi í sex ár" --> Eyða svari eða dulkóða. Ef fleiri svara á þennan máta kemur til álita að útbúa flokkabreytu sem nær yfir þau svör (t.d. "Náinn ættingi flutti til Íslands fyrir nokkrum árum"). |
Bakgrunnsbreytur (demographic variables) | Dæmi |
Aldur --> flokka (categorise) í aldurshópa. Ef færri en 20 einstaklingar eru á tilteknum aldri kemur til álita að skilgreina víðara aldursbil sem nær yfir þann aldur, t.d. flokka alla sem eru eldri en 75 ára í sama flokk (þ.e. "75 ára og eldri"). |
15-19 ára |
Staða á vinnumarkaði --> flokka þannig að eru að lágmarki 20 einstaklingar í hverjum hópi |
Í fullu starfi |
Menntunarsvið --> flokka þannig að eru að lágmarki 20 einstaklingar í hverjum hópi (nota t.d. ISCED-F flokkun). |
Verkfræði |
Menntunargráða (ISCED flokkun) --> nota aðeins breiða flokka (að hámarki tveggja stafa tölur) en ekki ítarlegri flokkun í undirhópa. |
Barnaskólapróf |
Fjöldi ára í námi --> flokka þannig að eru að lágmarki 20 einstaklingar í hverjum hópi |
0-4 ár |
Tekjur --> flokka í breiða flokka | Undir 400.000 kr. á mánuði Á bilinu 400.000-600.000 kr. á mánuði o.s.frv. |
Fjöldi einstaklinga á heimili --> flokka þannig að eru að lágmarki 20 einstaklingar í hverjum hópi | 1 einstaklingur 2 einstaklingar 3 einstaklingar 4 einstaklingar > 5 einstaklingar |
Móðurmál --> flokka þannig að eru að lágmarki 20 einstaklingar í hverjum hópi |
Íslenska |
Heilsufarsupplýsingar --> flokka þannig að eru að lágmarki 20 einstaklingar í hverjum hópi |
Þjáist af þunglyndi: |
Fæðingarland --> nota landa- og svæðaflokkun Sameinuðu þjóðanna (UN M49); nota breiðari flokka ef færri en 20 einstaklingar eru frá tilteknu landi/svæði. |
Austur-Afríka |
Starf --> nota alþjóðlega starfaflokkun ISCO; nota breiðari flokka ef færri en 20 einstaklingar og/eða sérhæfður starfsvettvangur. (Sjá einnig ÍSTARF21, Hagstofa Íslands). | Afgreiðslustörf á kassa í verslunum og stórmörkuðum Kennsla á framhaldsskólastigi Sérhæfð störf við fiskiðnað o.s.frv. |