Avoin tilastoanalyysi

Opasnet Suomista
Versio hetkellä 3. huhtikuuta 2012 kello 06.53 – tehnyt Jouni (keskustelu | muokkaukset) (ensimmäinen luonnos oman ajattelun pohjalta ja Antti Kataisen kanssa käydyn keskustelun)
(ero) ← Vanhempi versio | Nykyinen versio (ero) | Uudempi versio → (ero)
Siirry navigaatioon Siirry hakuun




Kysymys

Miten voidaan tehdä tilastoanalyysejä salassapidettävästä aineistosta siten, että

  • tietojen salaisuus ei vaarannu,
  • tietoja voidaan käyttää tutkimuksessa mahdollisimman vapaasti,
  • toimintatapa on kustannustehokas ja karttaa turhaa byrokratiaa?

Vastaus

Vastauksessa tarkastellaan Tilastokeskusta esimerkkinä salaisen tiedon omistajasta ja "minä" on jonkin tutkimuslaitoksen tutkija. Vastauksessa kuvattu menettely ei vastaa Tilastokeskuksen nykykäytäntöä (joka on kuvattu Perusteluissa).

Minä en halua itselleni mitään Tilastokeskuksen dataa, vaan haluan ajaa tilastoanalyysin, jossa minun datani ja Tilastokeskuksen datat yhdistetään tunnistetiedon avulla, tästä aineistosta tehdään haluamani tilastotestit, ja tilastotestien tulokset palautetaan minulle. Jos voin kirjoittaa analyysini R:llä siten, että se voidaan Tilastokeskuksessa ajaa, missään vaiheessa data ei siirry Tilastokeskuksen ulkopuolelle eikä myöskään minun nähtäväkseni.

Toimiakseen tämä käytäntö vaatisi, että

  • Tilastokeskuksen datasta on käytettävissä niin tarkat metatiedot (ja mielellään jotain oikeassa muodossa olevaa mutta keksittyä harjoitusdataa), että voin sen perusteella kirjoittaa analyysikoodini,
  • Tilastokeskuksella on käyttöliittymä, jonka kautta voin uploadata oman datani ja analyysikoodin,
  • Tilastokeskus ajaa koodini ja tarkistaa, ettei analyysissä paljastu mitään salassapidettävää,
  • Tilastokeskuksella on käyttöliittymä, jonka kautta saan analyysini tulokset.

Tällä toimintatavalla säästettäisiin käsittääkseni paljon aikaa ja vaivaa, koska

  • yksittäisen tutkijan ei tarvitse sitoutua salassapitoon, koska hänen tietoonsa ei tule mitään salaista,
  • tutkimustyöhön ja analyysin suunnitteluun pääsee käsiksi heti, eikä tarvitse odottaa organisaatioiden välisiä sopimuksia,
  • tarvittavat sopimukset tilastoanalyyseista ovat muutenkin kevyempiä, koska salassapito ja henkilökohtaiset vastuut ovat pienempiä kysymyksiä,
  • analyysien suunnittelu, kehittäminen ja testaaminen tehdään Tilastokeskuksen ulkopuolella, jolloin ne eivät kuormita järjestelmää,
  • analyysien arviointi sen suhteen, paljastavatko ne jotain salassapidettävää, voidaan ulkoistaa, koska arviointi voidaan tehdä julkisen metatiedon avulla; näin ei synny pullonkaulaa tähän tarkistusvaiheeseen,
  • metatietojen avoimuus helpottaisi tutkimus- ja tilastointityötä kaiken kaikkiaan.


Perustelut

Tilastokeskuksen etäkäyttöjärjestelmä

Tiedot Tilastokeskuksen järjestelmästä ovat esityksestä Antti Katainen: Tilastokeskuksen etäkäyttöjärjestelmä. (sähköposti 3.4.2012 tutkijapalvelut[at]tilastokeskus.fi)

Lähtökohdat

Laajat ja monipuoliset mikroaineistot ovat arvokkaita yhteiskunta- ja taloustieteellisessä tutkimuksessa Tilastoja varten kerättyjä aineistoja voidaan luovuttaa yhteiskuntaoloja koskeviin tieteellisiin tutkimuksiin ja tilastollisiin selvityksiin

Henkilöaineistoihin liittyviä otoksia voidaan luovuttaa Tilastokeskuksen ulkopuolelle vain tunnistamattomassa muodossa. Laajoja henkilöaineistoja käytetään etäkäyttöjärjestelmässä. Henkilöiden suora ja välillinen tunnistaminen on lain mukaan estettävä Yritysaineistoja käytetään valvotusti tutkimuslaboratoriossa tai etäkäyttöpalvelussa. Yritysten suora tunnistaminen on estetty


Etäkäyttöjärjestelmä

  • Tilastokeskuksen etäkäyttöjärjestelmä rakennettiin 2008-2009 ja otettiin tuotantokäyttöön 2010
  • Järjestelmän käyttäjinä on tällä hetkellä yhdeksän organisaatiota (tutkimuslaitoksia ja yliopistoja)

Työvälineinä ovat SAS, STATA, SPSS, R ja Acrobat reader sekä Open Office ja koodieditoreista Notepad++ ja RStudio Käyttäjät eivät pysty siirtämään tiedostoja järjestelmään tai sieltä ulos ja tulokset saa käyttöönsä Tilastokeskuksen henkilökunnan tekemän tarkastusmenettelyn jälkeen

Tietoturva

  • Vahva tunnistautuminen. Käyttäjatunnus, salasana ja GSM-tunnistautuminen
  • Palvelimet eristetty TK:n verkosta ja suojatut yhteydet rajatuista IP-osoitteista
  • Lokitietojen keräys
  • Järjestelmän tehokas käyttö sallii maksimissaan 16-32 yhtäaikaista käyttäjää


Rakentamisen lähtökohdat:

  • tutkijoiden tasapuolinen kohtelu, mikroaineistojen käytön tehostuminen sekä turvallinen ja valvottu ympäristö
  • Tutkijat ottavat yhteyden työasemaltaan etäkäyttöpalvelimelle, jossa tutkijalla on käytössä Windows-työpöytä (4 virtuaalipalvelinta) ja kansiot tutkimushankkeelle (tilaa 20 GB), aineistolle, ohjeille ja tulosten siirrolle
  • Järjestelmässä on käytössä tutkijapalveluihin hyväksytyt valmisaineistot+muita aineistoja (myös tutkijoiden omia)


Etäkäytön ehdot

  • Etäkäyttöyhteyden avaus asiakkaalle
  • Asiakasorganisaation selvitys tietoturva- ja tietosuojakäytännöistä
  • Sopimus tutkimusaineistojen etäkäytöstä organisaation kanssa
  • Organisaatiot vastaavat käyttäjistään ja nimetyt yhteyshenkilöt vastaavat tiedotuksesta ja käyttökoulutuksesta (tekninen ja hallinnollinen yhteyshenkilö)

Tutkimushankesopimus

  • Edellytetään hankekohtaista käyttölupaa
  • Nimetään etäkäyttöön osallistuvat tutkijat (tutkijat sitoutuvat noudattamaan etäkäytön sääntöjä ja ohjeita)
  • Etäyhteyden saa ottaa vain työpaikalta
  • Sovitaan toimitusajasta ja hinnasta


Etäkäytössä olevat valmisaineistot, nykytilanne

YRITYSAINEISTOT

  • Yritysrekisterin konserni-, yritys- ja toimipaikkatason aineistot: perustiedot yrityksistä (mm. liikevaihto, henkilöstö, toimiala, konsernisuhteet)
  • Tilinpäätösaineistopaneeli: yritysten tuloslaskelma- ja tasetiedot, tilinpäätöstunnusluvut
  • Teollisuustilaston toimipaikkapaneeli: teollisuuden tuotantotiedot
  • Hyödyketilastot: arvo- ja määrätiedot toimipaikoittain tuotteille ja raaka-aineille
  • T&K-paneeli: yritysten tutkimus- ja tuotekehitystoiminta
  • Innovaatioaineistot: yritysten innovaatiotoiminta
  • Patenttiaineistot: yritysten patentit
  • ICT-paneelit: tietotekniikan ja internetin käyttö yrityksissä
  • Yritystukitietokanta: yritystuet

HENKILÖAINEISTOT

  • Yhdistetty työnantaja-työntekijä-aineisto, ns. FLEED-aineisto
  • Sisältää työikäisen väestön tietoja ja linkit työnantajiin
  • Totaali-FLEED käytössä ainoastaan TK:n henkilökunnan kautta
  • Aineistosta muodostettu tutkijakäyttöön soveltuva 1/3-osan otos ja Tilastokeskuksen ulkopuolelle luovutettava demo
  • FLEED-aineiston pohjalta aggregoidut tiedot yritys- ja toimipaikkatason henkilökunnan ominaisuuksista ja palkoista (mm. toimipaikan henkilöstön palkat, työkokemus, koulutus, ikä) sekä työpaikka- ja työntekijävirrat
  • Palkkarakenneaineiston tiedot Fleed-otoksen henkilöille
  • Työsuhteisiin perustuva aineisto, joka sisältää yksityiskohtaisia tietoja palkansaajien tunti- ja kuukausiansioista sekä taustatietoja työnantajasta. Aineistosta ollaan muodostamassa myös harmonisoitu aikasarja-aineisto


Mahdollisia uusia aineistoja

  • Palvelujen ulkomaankaupan aineistot
  • Tullin aineistot tavaroiden ulkomaankaupasta
  • Maa- ja metsätalousyritysten tilinpäätöstilastot
  • Teollisuuden energiankäyttö
  • Tulonjakotilaston palveluaineisto
  • Henkilöveroaineiston otos
  • Työolo-, kulutus-, varallisuus- ja ajankäyttötutkimusten aineistot
  • Eurostatille toimitettavat yksikköaineistot mm. seuraavista otostutkimuksista:
  • Euroopan yhteisön kotitaloustiedustelu (ECHP)
  • Euroopan unionin tulo- ja elinolotilastot (EU-SILC)
  • Työvoimatutkimus (LFS)
  • Kotitalouksien tietotekniikan käyttö (ICT)
  • Yhteisön innovaatiotutkimus (CIS)
  • Palkkarakennetutkimus (SES)


Etäkäytön hinnasto

  • Etäkäyttöyhteyden avaaminen organisaatioon 1000 eur / kerta
  • Etäkäyttöyhteyden ylläpito organisaatioon 1000 eur / vuosi
  • Tutkimushankkeen perustamiskustannukset 1000 eur / tutkimushanke (valmisaineistot)
  • Etäkäyttöyhteys tutkijalle 50 eur / tutkija / kuukausi
  • Tutkimushanke etäkäytössä 50 eur / kuukausi
  • Tutkimuspalvelut (esim. aineistomuokkaus, totaaliaineistoajot) 110 eur / tunti

Katso myös

Viitteet


Aiheeseen liittyviä tiedostoja

<mfanonymousfilelist></mfanonymousfilelist>