Avoin tilastoanalyysi

Opasnet Suomista
Versio hetkellä 28. kesäkuuta 2012 kello 10.12 – tehnyt Tiinu (keskustelu | muokkaukset) (→‎Katso myös)
(ero) ← Vanhempi versio | Nykyinen versio (ero) | Uudempi versio → (ero)
Siirry navigaatioon Siirry hakuun




Kysymys

Miten voidaan tehdä tilastoanalyysejä salassapidettävästä aineistosta siten, että

  • tietojen salaisuus ei vaarannu,
  • tietoja voidaan käyttää tutkimuksessa mahdollisimman vapaasti,
  • toimintatapa on kustannustehokas ja karttaa turhaa byrokratiaa?

Vastaus

Vastauksessa tarkastellaan Tilastokeskusta esimerkkinä salaisen tiedon omistajasta ja "minä" on jonkin tutkimuslaitoksen tutkija. Vastauksessa kuvattu menettely ei vastaa Tilastokeskuksen nykykäytäntöä (joka on kuvattu Perusteluissa).

Minä en halua itselleni mitään Tilastokeskuksen dataa, vaan haluan ajaa tilastoanalyysin, jossa minun datani ja Tilastokeskuksen datat yhdistetään tunnistetiedon avulla, tästä aineistosta tehdään haluamani tilastotestit, ja tilastotestien tulokset palautetaan minulle. Jos voin kirjoittaa analyysini R:llä siten, että se voidaan Tilastokeskuksessa ajaa, missään vaiheessa data ei siirry Tilastokeskuksen ulkopuolelle eikä myöskään minun nähtäväkseni.

Toimiakseen tämä käytäntö vaatisi, että

  • Tilastokeskuksen datasta on käytettävissä niin tarkat metatiedot (ja mielellään jotain oikeassa muodossa olevaa mutta keksittyä harjoitusdataa), että voin sen perusteella kirjoittaa analyysikoodini,
  • Tilastokeskuksella on käyttöliittymä, jonka kautta voin uploadata oman datani ja analyysikoodin,
  • Tilastokeskus ajaa koodini ja tarkistaa, ettei analyysissä paljastu mitään salassapidettävää,
  • Tilastokeskuksella on käyttöliittymä, jonka kautta saan analyysini tulokset.

Tällä toimintatavalla säästettäisiin käsittääkseni paljon aikaa ja vaivaa, koska

  • yksittäisen tutkijan ei tarvitse sitoutua salassapitoon, koska hänen tietoonsa ei tule mitään salaista,
  • tutkimustyöhön ja analyysin suunnitteluun pääsee käsiksi heti, eikä tarvitse odottaa organisaatioiden välisiä sopimuksia,
  • tarvittavat sopimukset tilastoanalyyseista ovat muutenkin kevyempiä, koska salassapito ja henkilökohtaiset vastuut ovat pienempiä kysymyksiä,
  • analyysien suunnittelu, kehittäminen ja testaaminen tehdään Tilastokeskuksen ulkopuolella, jolloin ne eivät kuormita järjestelmää,
  • analyysien arviointi sen suhteen, paljastavatko ne jotain salassapidettävää, voidaan ulkoistaa, koska arviointi voidaan tehdä julkisen metatiedon avulla; näin ei synny pullonkaulaa tähän tarkistusvaiheeseen,
  • metatietojen avoimuus helpottaisi tutkimus- ja tilastointityötä kaiken kaikkiaan.


Perustelut

Tilastokeskuksen etäkäyttöjärjestelmä

Tiedot Tilastokeskuksen järjestelmästä ovat esityksestä Antti Katainen: Tilastokeskuksen etäkäyttöjärjestelmä. (sähköposti 3.4.2012 tutkijapalvelut[at]tilastokeskus.fi)

Lähtökohdat

Laajat ja monipuoliset mikroaineistot ovat arvokkaita yhteiskunta- ja taloustieteellisessä tutkimuksessa Tilastoja varten kerättyjä aineistoja voidaan luovuttaa yhteiskuntaoloja koskeviin tieteellisiin tutkimuksiin ja tilastollisiin selvityksiin

Henkilöaineistoihin liittyviä otoksia voidaan luovuttaa Tilastokeskuksen ulkopuolelle vain tunnistamattomassa muodossa. Laajoja henkilöaineistoja käytetään etäkäyttöjärjestelmässä. Henkilöiden suora ja välillinen tunnistaminen on lain mukaan estettävä Yritysaineistoja käytetään valvotusti tutkimuslaboratoriossa tai etäkäyttöpalvelussa. Yritysten suora tunnistaminen on estetty


Etäkäyttöjärjestelmä

  • Tilastokeskuksen etäkäyttöjärjestelmä rakennettiin 2008-2009 ja otettiin tuotantokäyttöön 2010
  • Järjestelmän käyttäjinä on tällä hetkellä yhdeksän organisaatiota (tutkimuslaitoksia ja yliopistoja)

Työvälineinä ovat SAS, STATA, SPSS, R ja Acrobat reader sekä Open Office ja koodieditoreista Notepad++ ja RStudio Käyttäjät eivät pysty siirtämään tiedostoja järjestelmään tai sieltä ulos ja tulokset saa käyttöönsä Tilastokeskuksen henkilökunnan tekemän tarkastusmenettelyn jälkeen

Tietoturva

  • Vahva tunnistautuminen. Käyttäjatunnus, salasana ja GSM-tunnistautuminen
  • Palvelimet eristetty TK:n verkosta ja suojatut yhteydet rajatuista IP-osoitteista
  • Lokitietojen keräys
  • Järjestelmän tehokas käyttö sallii maksimissaan 16-32 yhtäaikaista käyttäjää


Rakentamisen lähtökohdat:

  • tutkijoiden tasapuolinen kohtelu, mikroaineistojen käytön tehostuminen sekä turvallinen ja valvottu ympäristö
  • Tutkijat ottavat yhteyden työasemaltaan etäkäyttöpalvelimelle, jossa tutkijalla on käytössä Windows-työpöytä (4 virtuaalipalvelinta) ja kansiot tutkimushankkeelle (tilaa 20 GB), aineistolle, ohjeille ja tulosten siirrolle
  • Järjestelmässä on käytössä tutkijapalveluihin hyväksytyt valmisaineistot+muita aineistoja (myös tutkijoiden omia)


Etäkäytön ehdot

  • Etäkäyttöyhteyden avaus asiakkaalle
  • Asiakasorganisaation selvitys tietoturva- ja tietosuojakäytännöistä
  • Sopimus tutkimusaineistojen etäkäytöstä organisaation kanssa
  • Organisaatiot vastaavat käyttäjistään ja nimetyt yhteyshenkilöt vastaavat tiedotuksesta ja käyttökoulutuksesta (tekninen ja hallinnollinen yhteyshenkilö)

Tutkimushankesopimus

  • Edellytetään hankekohtaista käyttölupaa
  • Nimetään etäkäyttöön osallistuvat tutkijat (tutkijat sitoutuvat noudattamaan etäkäytön sääntöjä ja ohjeita)
  • Etäyhteyden saa ottaa vain työpaikalta
  • Sovitaan toimitusajasta ja hinnasta


Etäkäytössä olevat valmisaineistot, nykytilanne

YRITYSAINEISTOT

  • Yritysrekisterin konserni-, yritys- ja toimipaikkatason aineistot: perustiedot yrityksistä (mm. liikevaihto, henkilöstö, toimiala, konsernisuhteet)
  • Tilinpäätösaineistopaneeli: yritysten tuloslaskelma- ja tasetiedot, tilinpäätöstunnusluvut
  • Teollisuustilaston toimipaikkapaneeli: teollisuuden tuotantotiedot
  • Hyödyketilastot: arvo- ja määrätiedot toimipaikoittain tuotteille ja raaka-aineille
  • T&K-paneeli: yritysten tutkimus- ja tuotekehitystoiminta
  • Innovaatioaineistot: yritysten innovaatiotoiminta
  • Patenttiaineistot: yritysten patentit
  • ICT-paneelit: tietotekniikan ja internetin käyttö yrityksissä
  • Yritystukitietokanta: yritystuet

HENKILÖAINEISTOT

  • Yhdistetty työnantaja-työntekijä-aineisto, ns. FLEED-aineisto
  • Sisältää työikäisen väestön tietoja ja linkit työnantajiin
  • Totaali-FLEED käytössä ainoastaan TK:n henkilökunnan kautta
  • Aineistosta muodostettu tutkijakäyttöön soveltuva 1/3-osan otos ja Tilastokeskuksen ulkopuolelle luovutettava demo
  • FLEED-aineiston pohjalta aggregoidut tiedot yritys- ja toimipaikkatason henkilökunnan ominaisuuksista ja palkoista (mm. toimipaikan henkilöstön palkat, työkokemus, koulutus, ikä) sekä työpaikka- ja työntekijävirrat
  • Palkkarakenneaineiston tiedot Fleed-otoksen henkilöille
  • Työsuhteisiin perustuva aineisto, joka sisältää yksityiskohtaisia tietoja palkansaajien tunti- ja kuukausiansioista sekä taustatietoja työnantajasta. Aineistosta ollaan muodostamassa myös harmonisoitu aikasarja-aineisto


Mahdollisia uusia aineistoja

  • Palvelujen ulkomaankaupan aineistot
  • Tullin aineistot tavaroiden ulkomaankaupasta
  • Maa- ja metsätalousyritysten tilinpäätöstilastot
  • Teollisuuden energiankäyttö
  • Tulonjakotilaston palveluaineisto
  • Henkilöveroaineiston otos
  • Työolo-, kulutus-, varallisuus- ja ajankäyttötutkimusten aineistot
  • Eurostatille toimitettavat yksikköaineistot mm. seuraavista otostutkimuksista:
  • Euroopan yhteisön kotitaloustiedustelu (ECHP)
  • Euroopan unionin tulo- ja elinolotilastot (EU-SILC)
  • Työvoimatutkimus (LFS)
  • Kotitalouksien tietotekniikan käyttö (ICT)
  • Yhteisön innovaatiotutkimus (CIS)
  • Palkkarakennetutkimus (SES)


Etäkäytön hinnasto

  • Etäkäyttöyhteyden avaaminen organisaatioon 1000 eur / kerta
  • Etäkäyttöyhteyden ylläpito organisaatioon 1000 eur / vuosi
  • Tutkimushankkeen perustamiskustannukset 1000 eur / tutkimushanke (valmisaineistot)
  • Etäkäyttöyhteys tutkijalle 50 eur / tutkija / kuukausi
  • Tutkimushanke etäkäytössä 50 eur / kuukausi
  • Tutkimuspalvelut (esim. aineistomuokkaus, totaaliaineistoajot) 110 eur / tunti

Tilastolain uudistusehdotus

Tilastolain[1] uudistusehdotuksesta on olemassa työryhmän muistio.[2]

13 § D↷

Salassa pidettävien tietojen luovuttaminen Riippumatta siitä, mitä viranomaisten vel- vollisuudesta luovuttaa salassa pidettäviä tie- toja muulla lailla säädetään, tilastoviran- omaisen tilastotarkoituksiin saamia tietoja voidaan luovuttaa ulkopuolisille vain tässä laissa tai muussa erityisesti valtion tilasto- tointa koskevassa laissa säädetyin perustein taikka sen nimenomaisella suostumuksella, jota ne koskevat. Näitä tietoja ei saa luovut- taa käytettäväksi tutkinnassa, valvonnassa, oikeudenkäynnissä, hallinnollisessa päätök- senteossa tai muussa vastaavassa henkilöä, yritystä, yhteisöä tai säätiötä koskevan asian käsittelyssä.

Tilastoviranomainen voi luovuttaa tilasto- tarkoituksiin keräämiään salassa pidettäviä tietoja:

1) tieteellistä tutkimusta ja yhteiskuntaoloja koskevaa tilastollista selvitystä varten;

2) toiselle tilastoviranomaiselle sen toimi- alaan kuuluvan tilaston kehittämistä, tuotta- mista ja laadunparannusta varten;

3) muulle Euroopan tilastojärjestelmään kuuluvalle viranomaiselle (ESS- viranomainen) sen vastuulla olevan Euroo- pan tilaston kehittämistä, tuottamista ja laa- dunparannusta varten;

4) Suomen Pankille sen vastuulla olevan Euroopan tilaston kehittämistä, tuottamista ja laadunparannusta varten.

Tilastoviranomainen ei saa luovuttaa 2 momentin 1 kohdassa tarkoitetuissa tilanteis- sa sellaisia tilastoyksikön tunnistetietoja, joi- den perusteella tilastoyksikkö voidaan tun- nistaa suoraan. Tilastoviranomainen voi kui- tenkin edellä tarkoitetuissa tilanteissa antaa käyttöoikeuden sellaisiin salassa pidettäviin tietoihin, joiden perusteella tilastoyksikkö voidaan tunnistaa välillisesti. Välttämättömät tunnistetiedot voidaan luovuttaa 2 momentin 2-4 kohdassa tarkoitetuissa tilanteissa. Tilastoviranomainen päättää tietojen luo- vuttamisesta ja käyttöoikeuden antamisesta. Luovutettuja tai käyttöoikeuden kautta saatu- ja tietoja ei saa luovuttaa edelleen, jollei ti- lastoviranomainen anna tähän lupaa. Tietojen luovuttamista tai käyttöoikeuden antamista koskevan luvan myöntämiseen sovelletaan muutoin, mitä viranomaisten toiminnan jul- kisuudesta annetun lain 28 §:ssä säädetään. Mitä 1-4 momentissa säädetään, ei estä tie- tojen antamista takaisin sille viranomaiselle, joka on toimittanut tietoaineiston tilastovi- ranomaiselle.

Tilastoja laativan muun viranomaisen tilas- toja varten erikseen keräämien tietojen luo- vuttamiseen sovelletaan, mitä viranomaisten toiminnan julkisuudesta annetun lain 28 §:ssä säädetään. Tilastoja laativa muu viranomai- nen päättää kuitenkin aina luvan antamisesta.

13 a §

Julkiseen käyttöön tarkoitetut tiedostot Tämän lain 12 §:ssä tarkoitetun salassapi- don estämättä tilastoviranomainen voi tuottaa ja antaa julkiseen käyttöön sellaisia tilasto- tarkoituksiin kerätyistä tiedoista muodostet- tuja tiedostoja, joista on poistettu tunnistetie- dot ja jotka on käsitelty siten, ettei tilastoyk- sikköä voida tunnistaa suoraan tai välillisesti.

13 b §

Tietojen luovuttamisen tavat ja keinot

Tilastotarkoituksiin kerättyjä tietoja voi- daan luovuttaa teknisen käyttöyhteyden avul- la, muussa teknisesti tai sähköisesti käsiteltä- vässä muodossa, kirjallisesti tai muulla tar- koitukseen soveltuvalla turvallisella ja luotet- tavalla tavalla.

Katso myös

Viitteet

  1. Tilastolaki 23.4.2004/280 [1]
  2. Tilastolain uudistamista valmisteleva työryhmä: Tilastolain uudistamistyöryhmän ehdotus. Valtiovarainministeriön julkaisuja 7/2012, Hallinnon kehittäminen. Juvenes Print, Tampereen Yliopistopaino Oy, 2012. [2] ISBN 978-952-251-312-0 (nid.), ISSN 1459-3394 (nid.), ISBN 978-952-251-313-7 (PDF), ISSN 1797-9714 (PDF).

Aiheeseen liittyviä tiedostoja

<mfanonymousfilelist></mfanonymousfilelist>