Keskustelu:Apps4Finland
Huomioita ehdotetuista ongelmista -- Smxb 31. elokuuta 2013 kello 12.20 (EEST)
Pääsivulla esitetyt aiheet sopivat hyvin Apps4Finland-kisaan. Esimerkiksi ensimmäisen aiheen (anonymisointi) tuottamia ratkaisuja voidaan tietenkin hyödyntää laajalti THLn ulkopuolellakin. Synergiaa saattaisi löytyä esimerkiksi Tilastokeskukselta, jossa on tietämystä ja kiinnostusta Public Use-datan tuottamiseen. Apps4Finland-kilpailuun voi osallistua useammalla haasteella, jos sovitaan esimerkiksi niin, että yksi pääsivulla esitetyistä ratkaistavista ongelmista korvamerkitään haastepalkinnolla palkittavaksi, ja muiden ratkaisut osallistuvat kilpailun yleissarjoihin, missä niitä ratkovat voivat voittaa palkinnon.
Ehdotus korvamerkityn haasteen muotoilusta. Työnimi: Anonymisoitu terveysdata
Taustaa
Viranomaisrekistereissä on runsaasti aineistoa, josta henkilö voidaan tunnistaa välillisesti tai suoraan. Suora tunnistus tapahtuu identifioimalla rekisteriaineistosta henkilöön liitettävä tietoalkio, joka on ainutlaatuinen kuten sosiaaliturvatunnus. Välillinen tunnistus on mahdollista, jos rekisteristä saadaan kaivettua riittävä määrä tietoalkioita, jotka eivät ole uniikkeja, mutta joiden yhdistelmä mahdollistaa henkilön tunnistamisen. Tällainen yhdistelmä voi olla esimerkiksi henkilön asuinpaikan osoite, sukupuoli ja ikä.
Tilastolokia muutettiin 2.5.2013. Uusi laki mahdollistaa sen, että tilastoviranomaiset, kuten Tilastokeskus, voivat jatkossa luovuttaa tutkimustarkoituksiin aineistoja, joista henkilöt saattavat olla välillisesti tunnistettavissa. Suora tunnistus pyritään edelleenkin estämään poistamalla aineistoista nimien ja sosiaaliturvatunnusten kaltaiset attribuutit sekä heikentämällä aineistojen resoluutiota niin, ettei esimerkiksi asuinpaikkaa voida niistä kovin tarkasti määrittää.
Uudessa laissa annetaan tilastoviranomaisille myös mahdollisuus tuottaa julkiseen käyttään tarkoitettuja public use -aineistoja. Public use -aineistot on anonymisoitava ja sumeutettava niin, että niistä ei voi yksittäisiä henkilöitä tai yrityksiä tunnistaa.
Käytännössä anonymisointi ei aina onnistu helposti poistamalla aineistosta suoran tunnistuksen mahdollistavat ainutlaatuiset henkilökohtaiset tietoalkiot. Välillinen tunnistaminen on edelleen mahdollista, koska anonymisoitua rekisteriaineistoa voidaan verrata jo valmiiksi internetissä tai ulkomaailmassa oleviin tietoaineistoihin ja hakea niistä ristiinriippuvuuksia. Völillinen tunnistaminen ei välttämättä identifioi kohdettaan sataprosenttisen varmasti mutta pienemmätkin tunnistettavuusasteet ovat epätoivottavia erityisesti terveystietojen kaltaisissa tapauksessa.
Public use -aineistojen sumeuttamisen ongelma taas on se, että jos aineistojen resoluutiota heikennetään liian paljon, ei niistä ole hyötyä päätöksenteolle. Jos taas resoluutio pidetään korkeana, on välillinen tunnistaminen todennäköisempää. Public use -aineistojen tuottaminen on siis tasapainottelua vaativa taiteenlaji, jossa tarvitaan ymmärrystä itse aineistojen sisällöstä sekä ymmärrystä olemassa olevista ulkopuolisista aineistoista, joiden kanssa public use -aineistoa voidaan korreloida.
Haasteen kuvaus
THL:ssa on suuria tutkimusaineistoja, jotka sisältävät yksilöllistä tietoa ihmisten terveydestä ja sairauksista ja joita ei siksi voi avata monen muun tietoaineiston tapaan. Kuitenkin aineistoista voisi tehdä paljon enemmän tutkimusta ja tilastoanalyyseja kuin mitä aineiston keränneet tutkijat ehtivät tehdä. Haasteena on kehittää sellaisia käytäntöjä ja niitä tukevia työkaluja, jotka mahdollistavat ulkopuoliselle taholle tilastoanalyysien kehittämisen ja ajojen tilaamisen THL:ltä ilman, että taho itse näkee alkuperäistä dataa. Kehityskohteena ovat mm. rajapinnat, metatietokuvaukset, generoidut data-aineistot, eettiset käytännöt ja tulosten visualisointi.
Inspiraatioksi haasteen ratkaisuun
1. Voit lähestyä haastetta raja-pintojen kautta. Tällöin haastekysymys voidaan muotoilla seuraavasti:
Miten rakennetaan sovellus ja rajapinta johonkin salaiseen potilasdataan (esim. AvoHilmoon) siten, että käyttäjä (esimerkiksi THL:n ulkopuolinen lääkäri tai tutkija) voi kehittää tilastoanalyysin, joka ajetaan suoraan AvoHilmossa ja tulokset (kun on ensin tarkastettu, ettei salaisia tietoja vuoda tulosten mukana) annetaan käyttäjälle ja/tai julkaistaan netissä? Ideana on siis, ettei data liiku missään vaiheessa THL:n ulkopuolelle, mutta metadata julkaistaan niin yksityiskohtaisessa muodossa, että sen perusteella on mahdollista kirjoittaa tilastoanalyysikoodia. Kehitystarpeita on sekä teknisessä rajapinnassa että tietokäytännöissä.
2. Voit lähestyä haastetta metatietokuvausten ja generoitujen data-aineistojen kautta. Tällöin haastekysymys voidaan muotoilla seuraavasti
Miten arkaluontoista henkilödataa sisältäviä rekisteri- ja tietoaineistoja voitaisiin avata ja muuntaa public use -tiedostoiksi niin että yksilöiden tunnistaminen aineistoista on mahdollisimman hankalaa ja aineistot mahdollisimman käyttökelpoisia tutkimuksen, päätöksenteon tai palvelutuotannon näkökulmista?
Täydellista vastausta yllä esitettyn kysymykseen ei ole sen sisältämien vaatimusten sisäisen ristiriitaisuuden vuoksi. Kilpailutyössäsi voit halutessasi rajoittua pohtimaan asiaa valitsemastasi tarkemmin rajatusta näkökulmasta. Alla on esitty esimerkkejä rajoitetummista kysymyksistä, joihin voit kilpailutyössäsi hakea vastausta:
- mikä erilaisista anonymisointitavoista tai niiden yhdistelmistä sopii parhaiten esimerkkiaineiston A sumeuttamiseen public use -tiedostoksi? Katso kohdasta Viitteet tausta-aineistoja.
- millaisia erilaisia tapoja ja tietolähteitä käyttäen voidaan henkilö välillisesti tunnistaa esimerkkiaineistosta A kun käytettävissäsi on koko internetin tietovarasto?
- osoita, että jokin tai jotkin standardinanonymisointitekniikoista (joita kuvattu mm. lähteessä [2]) soveltuu erityisen huonosti esimerkkiaineiston A kaltaisille aineistoille.
Rajoitetumpiin kysymyksiin vastatessasi voit myös hyödyntää tietoa esimerkkiaineiston lukuarvojen, tekstikenttien, ontologisten ym. piirteiden tilastollisia, suuruusluokka- ym. ominaisuuksista.
Palkitsemisperusteet
Yleisten sarjakohtaisten palkitsemisperusteiden lisäksi käytetään haastekohtaisena palkitsemisperusteena sitä, kuinka hyödyllisenä valitsemaasi/keksimääsi lähestymistapaa ja ratkaisua tuomaristo pitää haastekysymykseen nähden. Korkeatasoissa haasteen ratkaisuehdotuksessa on myös ratkottava eettisiin kysymyksiin ja tietosuojaan liittyviä ongelmia, joten kyse on laajemmasta kokonaisuudesta kuin pelkästä softakehityksestä. Voit esittää ratkaisuehdotuksia myös pelkästään ideatasolla tuottamatta mitään koodia, laskelmia tms. Ideatason ratkaisuehdotukset osallistuvat Innosta-sarjaan.
Palkinnoista
Tämän haasteen ratkaisut osallistuvat johonkin neljästä pääsarjasta (Innosta, Hahmota, Vaikuta, Mahdollista). Täten ratkaisulla on mahdollisuus voittaa jokin sarjakohtaisista palkinnoista. Tätä haastetta ratkovalla kilpailutyöllä on LISÄKSI mahdollisuus voittaa erillinen haastepalkinto (1000 EUR).
Viitteitä
Yleisinformaatiota: [1] K. El Emam: "Data Anonymization Practices in Clinical Research, A Descriptive Study". University of Ottawa report (2006) (http://www.ehealthinformation.ca/documents/HealthCanadaAnonymizationReport.pdf)
[2] Fung, B. C. M., Wang, K., Chen, R., and Yu, P. S., "Privacy-Preserving data publishing: A survey of recent developments". ACM Comput. Surv. 42, 4, Article 14 (June 2010) (www.cs.sfu.ca/~wangk/pub/FWCY10csur.pdf )
Case Netflix: [3] Narayanan A. and Shmatikov V.,"Robust De-anonymization of Large Datasets (How to Break Anonymity of the Netflix Prize Dataset)". arXiv:cs/0610105v2 (2007) (www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf)
Esimerkkejä anonymisointitekniikoita: [4] Ohrn, A. and Ohno-Machado L., "Using Boolean reasoning to anonymize databases". Artificial Intelligence in Medicine 15 (1999) 235 – 254 (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.53.5861&rep=rep1&type=pdf)
[5] Eder J., "Privacy in Biobanks, k-Anonymity and l-Diversity etc". (http://www.tmf-ev.de/DesktopModules/Bring2mind/DMX/Download.aspx?EntryId=16747&PortalId=0)
Ehdotus ei-korvamerkityn haasteen muotoilusta. Työnimi: Avoimen datan linkityspalvelu
Taustaa
Netti on pullollan erilaisia kytkentä-, välitys- ja markkinapaikkapalveluja. Sosiaaliset kirjanmerkkipalvelut kuten Delicious ja StumbleUpon mahdollistavat toisilleen tuntemattomien käyttäjien löytävän verkosta itseään kiinnostavaa sisältöä julkaistujen suositusten, avainsanojen ja tunnettujen mieltymysten perusteella. Internet-markkinapaikoilla voidaan kytkeä toisiinsa jonkin palvelun tarjoajat ja tarvitsijat. Dataakin voidaan välittää kohdennetusti maksullisten Data broker -palveluntarjoajien toimesta, jotka kokoavat informaatiota useasta lähteestä ja jalostavat sitä edelleen asiakkaidensa tarpeisiin. Kun informaatiotarve on tunnistettu, voidaan datan julkaisijat ja käyttäjät kytkeä esimerkiksi palveluväylää hyväksi käyttäen kuten Virossa. Mutta miten menetellään silloin, kun suora linkittäminen datan julkaisijan ja käyttäjien (tilaajien) välillä ei onnistu esimerkiksi siitä syystä, että potentiaalinen tilaaja ei (vielä) tiedä tarvitsevansa jotain tietoaineistoa, tai silloin, kun julkaisija ei tiedä kenelle julkaisu pitäisi suunnata. Voidaanko linkityksessä hyödyntää jotain kolmatta osapuolta, joka kytkee tiedon omistajan ja tarvitsijan toisiinsa, vaikka nämä eivät tietoisesti kytköksen syntymistä pysty edistämään?
Esimerkki: Tiedon tuottaja on esimerkiksi tutkimuslaitos kuten THL. Data voisi olla esimerkiksi Sotkanetin indikaattori viheralueiden merkityksestä. Tiedon tarvitsijoita olisivat kuntalaiset ja päätöksentekijät. Voitaisiinko Sotkanetin sisältämä tieto jotenkin linkittää kunnan sivuilla olevaan uutiseen kaavoitusprosessin käynnistymisestä. Tai kenties yhdistää sama informaatio kunnan asianhallintajärjestelmän pöytäkirjaliitteeseen, jossa käsitellään ympäristävaikutuksia viheralueiden osalta hyödyntämättä Sotkanettiä?
Voiko jokin ulkopuolinen toimija, kuten tarkkasilmäinen kuntalainen jotenkin saattaa THL:n datalähteen kaavoittajan, päätöksentekijän ilman jälkimmiäisten aktiivista osallistumista linkitykseen?
Haasteen kuvaus
Sovellus, jolla voi linkata tiedonlähteitä ja tiedon mahdollisia soveltajia. Kuka tahansa käyttäjä voisi lisätä linkit tiettyyn dataan ja toisaalta sellaiseen osoitteeseen, jossa arvelee kyseisestä datasta olevan hyötyä, ja kuvauksen siitä, millaista hyötyä datan käytöstä olisi. Palvelun käyttäjäksi voisi ilmoittautua kuka tahansa avoimen datan tuottaja, ja aina kuin tuottajan dataa linkataan johonkin, tästä lähtisi tieto tuottajalle, jotta hän voi ottaa yhteyttä tarvitsijaan ja tarjota palvelujaan. Vastaavasti tiedon tarvitsijat voivat liittyä käyttäjiksi, jolloin heille tulisi ilmoitus silloin, kun joku on löytänyt heille hyödyllistä dataa.
Inspiraatioksi haasteen ratkaisuun
Ongelmaa voi lähestyä usealla eri tavalla. Ratkaisu voi perustua esimerkiksi olemassa oleville palveluille (vrt. automaattiset sisällönsuosittelijat selaimen sivupalkissa, RSS-feedit, Googlen +1 -palvelu). Ratkaisuna voisi olla myös täysin uudenlaisen avoimen datan välityspalvelun speksaaminen. Perustuipa ratkaisu jo olemassa oleviin asioihin tai täysin uusiin, olisi kilpailutyössä hyvä miettiä sitä, kuinka datan tuottajat ja tarvitsijat voitaisiin käytännössä saada palvelun asiakkaiksi tai sen piiriin.
Palkitsemisperusteet
Tähän haasteeseen ei liity korvamerkittyä haastepalkintoa, joten tämän haasteen ratkaisut voivat voittaa palkintoja ainoastaan jossain Apps4Finland-kilpailun pääsarjoista (Innosta, Hahmota, Vaikuta, Mahdollista). Palkitsemisperusteena käytetään pääsarjojen yleisiä palkitsemiskriteerejä. Pelkkä idea ratkaisusta voi osallistua Innosta-sarjaan.
Palkinnoista
Tämän haasteen ratkaisut osallistuvat johonkin neljästä pääsarjasta (Innosta, Hahmota, Vaikuta, Mahdollista). Täten ratkaisulla on mahdollisuus voittaa jokin sarjakohtaisista palkinnoista. Tähän haasteeseen EI ole kiinnitetty erillistä haastepalkintoa. Voit kuitenkin hyödyntää tästä kansiosta löytyvää materiaalia haasteen ratkaisemisessa ja saada tarkempaa tietoa haasteeseen liittyvistä asioista haastekumppaneiltamme.
Viitteet
[1] http://en.wikipedia.org/wiki/Social_bookmarking
[2] Sotkanet (http://uusi.sotkanet.fi/portal/page/portal/etusivu)
Muokattu koodi ReplicaX:lle -- Jouni Tuomisto 24. marraskuuta 2013 kello 20.51 (EET)
Koodi siirretty sivulle op_en:ReplicaX.