Persónurekjanleiki

Áður en gögn eru sett í opinn aðgang er mikilvægt að öll bein persónuauðkenni (direct personal identifiers) hafi verið fjarlægð úr gagnaskrá s.s. nöfn, heimilisföng, símanúmer og kennitölurEinnig þarf að yfirfara gögnin með tilliti til óbeinna auðkenna (indirect personal identifiers) en þar er átt við upplýsingar sem skera sig úr á einhvern hátt og geta leitt til þess að rekja megi svör til einstaklinga. Við fyrstu sýn geta slíkar upplýsingar virst meinlausar en þegar betur er að gáð má nota þær, annað hvort einar eða með öðrum breytum, til að finna einstaklinga í gagnasafni. Dæmi um óbein auðkenni er óvenjulegur eða sérhæfður starfstitill, sjaldgæfar trúarskoðanir og aðild að fámennum félagasamtökum. Eftir því sem fleiri breytur innihalda upplýsingar af þessu tagi því meiri hætta er á persónurekjanleika og nauðsynlegt að bregðast við því með einhverjum hætti, t.d. eyða breytum, eða afmá eða dulkóða vissar upplýsingar.
 

Hafa ber í huga að ef margar breytur eða mikilvægar upplýsingar eru fjarlægðar úr gagnaskrá getur það dregið verulega úr notagildi gagnanna. Þá getur komið til álita að setja gagnaskrá í stýrðan aðgang þar sem gerðar eru strangari kröfur til notenda. 

 

Mat á persónurekjanleika

Mat á persónurekjanleika felur jafnan í sér kerfisbundna athugun á öllum breytum í gagnaskrá, t.d. með tíðnigreiningu. Algengt viðmið er að ef færri en 20 einstaklingar nota tiltekinn svarmöguleika sé ástæða til að skoða gögnin nánar, sérstaklega ef um viðkvæmar upplýsingar er að ræða, t.d. um heilsufar, ólöglegt athæfi eða aðrar upplýsingar sem geta komið sér illa fyrir einstaklinga.      
 
Dæmi: Rannsókn á viðhorfum starfsfólks og aðeins ein kona eða karlmaður er á vinnustaðnum. 
 

Dæmi: Aldur og hjúskaparstaða eru ekki augljós persónuauðkenni, en hvað ef einn þátttakandi er 18 ára og fráskilinn?   

Nota má sérhæfð forrit eða skipanir (scripts) til að greina mynstur í gögnum sem ekki endilega eru augljós en geta valdið því að svör eru rekjanleg til einstaklinga. Þá er mikilvægt að treysta ekki um of á slík forrit og taka einnig mið af sérfræðiþekkingu á því fræðasviði sem gögnin taka til. 

Svör í textabreytum

Einnig þarf að athuga vel svör í textabreytum (string variables), sem innihalda frjáls svör þátttakenda. Þar geta ýmsar upplýsingar leynst sem eru rekjanlegar með beinum eða óbeinum hætti. 

Dæmi: Einstaklingur kveðst hafa setið í bæjarstjórn undanfarin ár. 

Dæmi: Óvenju hár fermetrafjöldi einbýlishúss í fámennu bæjarfélagi.

Aðgerðir sem stuðla að því að draga úr persónurekjanleika

Eins og áður hefur komið fram er nauðsynlegt að fjarlægja öll bein persónuauðkenni úr gagnaskrá hvort sem gögnin fara í opinn eða stýrðan aðgang. Að auki er mikilvægt að bregðast við óbeinum auðkennum sem geta valdið því að gögnin eru rekjanleg til einstaklinga. Í töflunni hér að neðan er að finna yfirlit yfir helstu aðferðir til að draga úr rekjanleika vegna beinna og óbeinna persónuauðkenna. 

 
Bein persónuauðkenni   Dæmi
Eyða breytum sem innihalda bein persónuauðkenni Breyta sem inniheldur t.d. kennitölur, nöfn, netföng, símanúmer, póstnúmer, auðkenni frá þriðja aðila, upplýsingar um vinnustað/starf, ökutækjaskráningu, bankareikningsnúmer, IP tölur, nemendaauðkenni. 
Svör við opnum spurningum Dæmi
Greina ítarlega svör við opnum spurningum sem eru að finna í textabreytum (string variables) --> breyta (dulkóða) eða eyða svörum sem innihalda rekjanlegar upplýsingar --> Ef mörg opin svör eru af svipuðum toga má útbúa breiða flokkabreytu sem nær utan um þau svör. 

Svar þátttakanda: "Móðir mín kemur frá Líbíu og hefur búið á Íslandi í sex ár" --> Eyða svari eða dulkóða. 

Ef fleiri svara á þennan máta kemur til álita að útbúa flokkabreytu sem nær yfir þau svör (t.d. "Náinn ættingi flutti til Íslands fyrir nokkrum árum").   

Bakgrunnsbreytur (demographic variables) Dæmi
Aldur --> flokka (categorise) í aldurshópa. Ef færri en 20 einstaklingar eru á tilteknum aldri kemur til álita að skilgreina víðara aldursbil sem nær yfir þann aldur, t.d. flokka alla sem eru eldri en 75 ára í sama flokk (þ.e. "75 ára og eldri"). 

15-19 ára
20-25 ára
26-30 ára
o.s.frv.

Staða á vinnumarkaði --> flokka þannig að eru að lágmarki 20 einstaklingar í hverjum hópi  

Í fullu starfi
Í hlutastarfi
Á eftirlaunum
Annað (t.d. atvinnulaus, sjálfboðaliði, öryrki)

Menntunarsvið --> flokka þannig að eru að lágmarki 20 einstaklingar í hverjum hópi (nota t.d. ISCED-F flokkun). 

Verkfræði
Matvælaiðnaður
Heilbrigðisþjónusta

Menntunargráða (ISCED flokkun) --> nota aðeins breiða flokka (að hámarki tveggja stafa tölur) en ekki ítarlegri flokkun í undirhópa. 

Barnaskólapróf
Grunnskólapróf 
Stúdentspróf
Iðn-, tækni eða starfstengt nám 
o.s.frv.

Fjöldi ára í námi --> flokka þannig að eru að lágmarki 20 einstaklingar í hverjum hópi

0-4 ár
5-8 ár,
o.s.frv.

Tekjur --> flokka í breiða flokka Undir 400.000 kr. á mánuði
Á bilinu 400.000-600.000 kr. á mánuði
o.s.frv.
Fjöldi einstaklinga á heimili --> flokka þannig að eru að lágmarki 20 einstaklingar í hverjum hópi 1 einstaklingur
2 einstaklingar
3 einstaklingar
4 einstaklingar
> 5 einstaklingar
Móðurmál --> flokka þannig að eru að lágmarki 20 einstaklingar í hverjum hópi

Íslenska
Pólska 
Víetnamska 
o.s.frv.

 
Heilsufarsupplýsingar --> flokka þannig að eru að lágmarki 20 einstaklingar í hverjum hópi
 

Þjáist af þunglyndi: 
Já 
Nei

Fæðingarland --> nota landa- og svæðaflokkun Sameinuðu þjóðanna (UN M49); nota breiðari flokka ef færri en 20 einstaklingar eru frá tilteknu landi/svæði. 

Austur-Afríka
Mið-Afríka
Suður-Afríka 
o.s.frv.

Starf --> nota alþjóðlega starfaflokkun ISCO; nota breiðari flokka ef færri en 20 einstaklingar og/eða sérhæfður starfsvettvangur. (Sjá einnig ÍSTARF21, Hagstofa Íslands). Afgreiðslustörf á kassa í verslunum og stórmörkuðum
Kennsla á framhaldsskólastigi
Sérhæfð störf við fiskiðnað
o.s.frv.