Ero sivun ”Avoin tilastoanalyysi” versioiden välillä

Opasnet Suomista
Siirry navigaatioon Siirry hakuun
(ensimmäinen luonnos oman ajattelun pohjalta ja Antti Kataisen kanssa käydyn keskustelun)
 
 
(4 välissä olevaa versiota 2 käyttäjän tekeminä ei näytetä)
Rivi 132: Rivi 132:
*Tutkimushanke etäkäytössä 50 eur / kuukausi
*Tutkimushanke etäkäytössä 50 eur / kuukausi
*Tutkimuspalvelut (esim. aineistomuokkaus, totaaliaineistoajot) 110 eur / tunti
*Tutkimuspalvelut (esim. aineistomuokkaus, totaaliaineistoajot) 110 eur / tunti
===Tilastolain uudistusehdotus===
:''Tilastolain<ref>Tilastolaki 23.4.2004/280 [http://www.finlex.fi/fi/laki/ajantasa/2004/20040280]</ref> uudistusehdotuksesta on olemassa työryhmän muistio.<ref>Tilastolain uudistamista valmisteleva työryhmä: Tilastolain
uudistamistyöryhmän ehdotus. Valtiovarainministeriön julkaisuja 7/2012, Hallinnon kehittäminen. Juvenes Print, Tampereen Yliopistopaino Oy, 2012. [http://www.vm.fi/vm/fi/04_julkaisut_ja_asiakirjat/01_julkaisut/04_hallinnon_kehittaminen/20120222Tilast/name.jsp] ISBN 978-952-251-312-0 (nid.), ISSN 1459-3394 (nid.), ISBN 978-952-251-313-7 (PDF), ISSN 1797-9714 (PDF).</ref>
13 § {{keskustelulinkki|Yksilöitävien tietojen käyttö}}
Salassa pidettävien tietojen luovuttaminen
Riippumatta  siitä, mitä  viranomaisten  vel-
vollisuudesta luovuttaa salassa pidettäviä tie-
toja  muulla  lailla  säädetään,  tilastoviran-
omaisen  tilastotarkoituksiin  saamia  tietoja
voidaan  luovuttaa  ulkopuolisille  vain  tässä
laissa  tai  muussa  erityisesti  valtion  tilasto-
tointa  koskevassa  laissa  säädetyin  perustein
taikka  sen  nimenomaisella  suostumuksella,
jota ne koskevat. Näitä  tietoja ei  saa  luovut-
taa  käytettäväksi  tutkinnassa,  valvonnassa,
oikeudenkäynnissä,  hallinnollisessa  päätök-
senteossa  tai  muussa  vastaavassa  henkilöä,
yritystä, yhteisöä  tai  säätiötä koskevan  asian
käsittelyssä.
Tilastoviranomainen  voi  luovuttaa  tilasto-
tarkoituksiin  keräämiään  salassa  pidettäviä
tietoja:
1) tieteellistä tutkimusta ja yhteiskuntaoloja
koskevaa tilastollista selvitystä varten;
2)  toiselle  tilastoviranomaiselle  sen  toimi-
alaan  kuuluvan  tilaston  kehittämistä,  tuotta-
mista ja laadunparannusta varten;
3)  muulle  Euroopan  tilastojärjestelmään
kuuluvalle  viranomaiselle  (ESS-
viranomainen)  sen  vastuulla  olevan  Euroo-
pan  tilaston  kehittämistä,  tuottamista  ja  laa-
dunparannusta varten;
4)  Suomen  Pankille  sen  vastuulla  olevan
Euroopan tilaston kehittämistä, tuottamista ja
laadunparannusta varten.
Tilastoviranomainen  ei  saa  luovuttaa  2
momentin 1 kohdassa tarkoitetuissa tilanteis-
sa sellaisia  tilastoyksikön  tunnistetietoja,  joi-
den  perusteella  tilastoyksikkö  voidaan  tun-
nistaa  suoraan. Tilastoviranomainen voi kui-
tenkin  edellä  tarkoitetuissa  tilanteissa  antaa
käyttöoikeuden  sellaisiin  salassa  pidettäviin
tietoihin,  joiden  perusteella  tilastoyksikkö
voidaan tunnistaa välillisesti. Välttämättömät
tunnistetiedot voidaan  luovuttaa 2 momentin
2-4 kohdassa tarkoitetuissa tilanteissa.
Tilastoviranomainen  päättää  tietojen  luo-
vuttamisesta  ja  käyttöoikeuden  antamisesta.
Luovutettuja tai käyttöoikeuden kautta saatu-
ja  tietoja  ei  saa  luovuttaa  edelleen,  jollei  ti-
lastoviranomainen anna tähän lupaa. Tietojen
luovuttamista  tai  käyttöoikeuden  antamista
koskevan  luvan  myöntämiseen  sovelletaan
muutoin,  mitä  viranomaisten  toiminnan  jul-
kisuudesta annetun lain 28 §:ssä säädetään.
Mitä 1-4 momentissa säädetään, ei estä tie-
tojen  antamista  takaisin  sille  viranomaiselle,
joka  on  toimittanut  tietoaineiston  tilastovi-
ranomaiselle.
Tilastoja laativan muun viranomaisen tilas-
toja  varten  erikseen  keräämien  tietojen  luo-
vuttamiseen  sovelletaan, mitä  viranomaisten
toiminnan julkisuudesta annetun lain 28 §:ssä
säädetään.  Tilastoja  laativa  muu  viranomai-
nen päättää kuitenkin aina luvan antamisesta.
13 a §
Julkiseen käyttöön tarkoitetut tiedostot
Tämän  lain  12  §:ssä  tarkoitetun  salassapi-
don estämättä tilastoviranomainen voi tuottaa
ja  antaa  julkiseen  käyttöön  sellaisia  tilasto-
tarkoituksiin  kerätyistä  tiedoista  muodostet-
tuja tiedostoja, joista on poistettu tunnistetie-
dot  ja  jotka on käsitelty siten, ettei  tilastoyk-
sikköä voida tunnistaa suoraan tai välillisesti.
13 b §
Tietojen luovuttamisen tavat ja keinot
Tilastotarkoituksiin  kerättyjä  tietoja  voi-
daan luovuttaa teknisen käyttöyhteyden avul-
la, muussa teknisesti tai sähköisesti käsiteltä-
vässä  muodossa,  kirjallisesti  tai  muulla  tar-
koitukseen soveltuvalla turvallisella ja luotet-
tavalla tavalla.


==Katso myös==
==Katso myös==
Rivi 139: Rivi 237:
* [[Tiehyt]]
* [[Tiehyt]]
* [[Terveydenhuollon sähköinen tietojärjestelmä]]
* [[Terveydenhuollon sähköinen tietojärjestelmä]]
* [[Avoin ministeriö]]
* [[Avoin interventiotutkimus]]
* [[Asialähtöisyys]]


==Viitteet==
==Viitteet==

Nykyinen versio 28. kesäkuuta 2012 kello 10.12




Kysymys

Miten voidaan tehdä tilastoanalyysejä salassapidettävästä aineistosta siten, että

  • tietojen salaisuus ei vaarannu,
  • tietoja voidaan käyttää tutkimuksessa mahdollisimman vapaasti,
  • toimintatapa on kustannustehokas ja karttaa turhaa byrokratiaa?

Vastaus

Vastauksessa tarkastellaan Tilastokeskusta esimerkkinä salaisen tiedon omistajasta ja "minä" on jonkin tutkimuslaitoksen tutkija. Vastauksessa kuvattu menettely ei vastaa Tilastokeskuksen nykykäytäntöä (joka on kuvattu Perusteluissa).

Minä en halua itselleni mitään Tilastokeskuksen dataa, vaan haluan ajaa tilastoanalyysin, jossa minun datani ja Tilastokeskuksen datat yhdistetään tunnistetiedon avulla, tästä aineistosta tehdään haluamani tilastotestit, ja tilastotestien tulokset palautetaan minulle. Jos voin kirjoittaa analyysini R:llä siten, että se voidaan Tilastokeskuksessa ajaa, missään vaiheessa data ei siirry Tilastokeskuksen ulkopuolelle eikä myöskään minun nähtäväkseni.

Toimiakseen tämä käytäntö vaatisi, että

  • Tilastokeskuksen datasta on käytettävissä niin tarkat metatiedot (ja mielellään jotain oikeassa muodossa olevaa mutta keksittyä harjoitusdataa), että voin sen perusteella kirjoittaa analyysikoodini,
  • Tilastokeskuksella on käyttöliittymä, jonka kautta voin uploadata oman datani ja analyysikoodin,
  • Tilastokeskus ajaa koodini ja tarkistaa, ettei analyysissä paljastu mitään salassapidettävää,
  • Tilastokeskuksella on käyttöliittymä, jonka kautta saan analyysini tulokset.

Tällä toimintatavalla säästettäisiin käsittääkseni paljon aikaa ja vaivaa, koska

  • yksittäisen tutkijan ei tarvitse sitoutua salassapitoon, koska hänen tietoonsa ei tule mitään salaista,
  • tutkimustyöhön ja analyysin suunnitteluun pääsee käsiksi heti, eikä tarvitse odottaa organisaatioiden välisiä sopimuksia,
  • tarvittavat sopimukset tilastoanalyyseista ovat muutenkin kevyempiä, koska salassapito ja henkilökohtaiset vastuut ovat pienempiä kysymyksiä,
  • analyysien suunnittelu, kehittäminen ja testaaminen tehdään Tilastokeskuksen ulkopuolella, jolloin ne eivät kuormita järjestelmää,
  • analyysien arviointi sen suhteen, paljastavatko ne jotain salassapidettävää, voidaan ulkoistaa, koska arviointi voidaan tehdä julkisen metatiedon avulla; näin ei synny pullonkaulaa tähän tarkistusvaiheeseen,
  • metatietojen avoimuus helpottaisi tutkimus- ja tilastointityötä kaiken kaikkiaan.


Perustelut

Tilastokeskuksen etäkäyttöjärjestelmä

Tiedot Tilastokeskuksen järjestelmästä ovat esityksestä Antti Katainen: Tilastokeskuksen etäkäyttöjärjestelmä. (sähköposti 3.4.2012 tutkijapalvelut[at]tilastokeskus.fi)

Lähtökohdat

Laajat ja monipuoliset mikroaineistot ovat arvokkaita yhteiskunta- ja taloustieteellisessä tutkimuksessa Tilastoja varten kerättyjä aineistoja voidaan luovuttaa yhteiskuntaoloja koskeviin tieteellisiin tutkimuksiin ja tilastollisiin selvityksiin

Henkilöaineistoihin liittyviä otoksia voidaan luovuttaa Tilastokeskuksen ulkopuolelle vain tunnistamattomassa muodossa. Laajoja henkilöaineistoja käytetään etäkäyttöjärjestelmässä. Henkilöiden suora ja välillinen tunnistaminen on lain mukaan estettävä Yritysaineistoja käytetään valvotusti tutkimuslaboratoriossa tai etäkäyttöpalvelussa. Yritysten suora tunnistaminen on estetty


Etäkäyttöjärjestelmä

  • Tilastokeskuksen etäkäyttöjärjestelmä rakennettiin 2008-2009 ja otettiin tuotantokäyttöön 2010
  • Järjestelmän käyttäjinä on tällä hetkellä yhdeksän organisaatiota (tutkimuslaitoksia ja yliopistoja)

Työvälineinä ovat SAS, STATA, SPSS, R ja Acrobat reader sekä Open Office ja koodieditoreista Notepad++ ja RStudio Käyttäjät eivät pysty siirtämään tiedostoja järjestelmään tai sieltä ulos ja tulokset saa käyttöönsä Tilastokeskuksen henkilökunnan tekemän tarkastusmenettelyn jälkeen

Tietoturva

  • Vahva tunnistautuminen. Käyttäjatunnus, salasana ja GSM-tunnistautuminen
  • Palvelimet eristetty TK:n verkosta ja suojatut yhteydet rajatuista IP-osoitteista
  • Lokitietojen keräys
  • Järjestelmän tehokas käyttö sallii maksimissaan 16-32 yhtäaikaista käyttäjää


Rakentamisen lähtökohdat:

  • tutkijoiden tasapuolinen kohtelu, mikroaineistojen käytön tehostuminen sekä turvallinen ja valvottu ympäristö
  • Tutkijat ottavat yhteyden työasemaltaan etäkäyttöpalvelimelle, jossa tutkijalla on käytössä Windows-työpöytä (4 virtuaalipalvelinta) ja kansiot tutkimushankkeelle (tilaa 20 GB), aineistolle, ohjeille ja tulosten siirrolle
  • Järjestelmässä on käytössä tutkijapalveluihin hyväksytyt valmisaineistot+muita aineistoja (myös tutkijoiden omia)


Etäkäytön ehdot

  • Etäkäyttöyhteyden avaus asiakkaalle
  • Asiakasorganisaation selvitys tietoturva- ja tietosuojakäytännöistä
  • Sopimus tutkimusaineistojen etäkäytöstä organisaation kanssa
  • Organisaatiot vastaavat käyttäjistään ja nimetyt yhteyshenkilöt vastaavat tiedotuksesta ja käyttökoulutuksesta (tekninen ja hallinnollinen yhteyshenkilö)

Tutkimushankesopimus

  • Edellytetään hankekohtaista käyttölupaa
  • Nimetään etäkäyttöön osallistuvat tutkijat (tutkijat sitoutuvat noudattamaan etäkäytön sääntöjä ja ohjeita)
  • Etäyhteyden saa ottaa vain työpaikalta
  • Sovitaan toimitusajasta ja hinnasta


Etäkäytössä olevat valmisaineistot, nykytilanne

YRITYSAINEISTOT

  • Yritysrekisterin konserni-, yritys- ja toimipaikkatason aineistot: perustiedot yrityksistä (mm. liikevaihto, henkilöstö, toimiala, konsernisuhteet)
  • Tilinpäätösaineistopaneeli: yritysten tuloslaskelma- ja tasetiedot, tilinpäätöstunnusluvut
  • Teollisuustilaston toimipaikkapaneeli: teollisuuden tuotantotiedot
  • Hyödyketilastot: arvo- ja määrätiedot toimipaikoittain tuotteille ja raaka-aineille
  • T&K-paneeli: yritysten tutkimus- ja tuotekehitystoiminta
  • Innovaatioaineistot: yritysten innovaatiotoiminta
  • Patenttiaineistot: yritysten patentit
  • ICT-paneelit: tietotekniikan ja internetin käyttö yrityksissä
  • Yritystukitietokanta: yritystuet

HENKILÖAINEISTOT

  • Yhdistetty työnantaja-työntekijä-aineisto, ns. FLEED-aineisto
  • Sisältää työikäisen väestön tietoja ja linkit työnantajiin
  • Totaali-FLEED käytössä ainoastaan TK:n henkilökunnan kautta
  • Aineistosta muodostettu tutkijakäyttöön soveltuva 1/3-osan otos ja Tilastokeskuksen ulkopuolelle luovutettava demo
  • FLEED-aineiston pohjalta aggregoidut tiedot yritys- ja toimipaikkatason henkilökunnan ominaisuuksista ja palkoista (mm. toimipaikan henkilöstön palkat, työkokemus, koulutus, ikä) sekä työpaikka- ja työntekijävirrat
  • Palkkarakenneaineiston tiedot Fleed-otoksen henkilöille
  • Työsuhteisiin perustuva aineisto, joka sisältää yksityiskohtaisia tietoja palkansaajien tunti- ja kuukausiansioista sekä taustatietoja työnantajasta. Aineistosta ollaan muodostamassa myös harmonisoitu aikasarja-aineisto


Mahdollisia uusia aineistoja

  • Palvelujen ulkomaankaupan aineistot
  • Tullin aineistot tavaroiden ulkomaankaupasta
  • Maa- ja metsätalousyritysten tilinpäätöstilastot
  • Teollisuuden energiankäyttö
  • Tulonjakotilaston palveluaineisto
  • Henkilöveroaineiston otos
  • Työolo-, kulutus-, varallisuus- ja ajankäyttötutkimusten aineistot
  • Eurostatille toimitettavat yksikköaineistot mm. seuraavista otostutkimuksista:
  • Euroopan yhteisön kotitaloustiedustelu (ECHP)
  • Euroopan unionin tulo- ja elinolotilastot (EU-SILC)
  • Työvoimatutkimus (LFS)
  • Kotitalouksien tietotekniikan käyttö (ICT)
  • Yhteisön innovaatiotutkimus (CIS)
  • Palkkarakennetutkimus (SES)


Etäkäytön hinnasto

  • Etäkäyttöyhteyden avaaminen organisaatioon 1000 eur / kerta
  • Etäkäyttöyhteyden ylläpito organisaatioon 1000 eur / vuosi
  • Tutkimushankkeen perustamiskustannukset 1000 eur / tutkimushanke (valmisaineistot)
  • Etäkäyttöyhteys tutkijalle 50 eur / tutkija / kuukausi
  • Tutkimushanke etäkäytössä 50 eur / kuukausi
  • Tutkimuspalvelut (esim. aineistomuokkaus, totaaliaineistoajot) 110 eur / tunti

Tilastolain uudistusehdotus

Tilastolain[1] uudistusehdotuksesta on olemassa työryhmän muistio.[2]

13 § D↷

Salassa pidettävien tietojen luovuttaminen Riippumatta siitä, mitä viranomaisten vel- vollisuudesta luovuttaa salassa pidettäviä tie- toja muulla lailla säädetään, tilastoviran- omaisen tilastotarkoituksiin saamia tietoja voidaan luovuttaa ulkopuolisille vain tässä laissa tai muussa erityisesti valtion tilasto- tointa koskevassa laissa säädetyin perustein taikka sen nimenomaisella suostumuksella, jota ne koskevat. Näitä tietoja ei saa luovut- taa käytettäväksi tutkinnassa, valvonnassa, oikeudenkäynnissä, hallinnollisessa päätök- senteossa tai muussa vastaavassa henkilöä, yritystä, yhteisöä tai säätiötä koskevan asian käsittelyssä.

Tilastoviranomainen voi luovuttaa tilasto- tarkoituksiin keräämiään salassa pidettäviä tietoja:

1) tieteellistä tutkimusta ja yhteiskuntaoloja koskevaa tilastollista selvitystä varten;

2) toiselle tilastoviranomaiselle sen toimi- alaan kuuluvan tilaston kehittämistä, tuotta- mista ja laadunparannusta varten;

3) muulle Euroopan tilastojärjestelmään kuuluvalle viranomaiselle (ESS- viranomainen) sen vastuulla olevan Euroo- pan tilaston kehittämistä, tuottamista ja laa- dunparannusta varten;

4) Suomen Pankille sen vastuulla olevan Euroopan tilaston kehittämistä, tuottamista ja laadunparannusta varten.

Tilastoviranomainen ei saa luovuttaa 2 momentin 1 kohdassa tarkoitetuissa tilanteis- sa sellaisia tilastoyksikön tunnistetietoja, joi- den perusteella tilastoyksikkö voidaan tun- nistaa suoraan. Tilastoviranomainen voi kui- tenkin edellä tarkoitetuissa tilanteissa antaa käyttöoikeuden sellaisiin salassa pidettäviin tietoihin, joiden perusteella tilastoyksikkö voidaan tunnistaa välillisesti. Välttämättömät tunnistetiedot voidaan luovuttaa 2 momentin 2-4 kohdassa tarkoitetuissa tilanteissa. Tilastoviranomainen päättää tietojen luo- vuttamisesta ja käyttöoikeuden antamisesta. Luovutettuja tai käyttöoikeuden kautta saatu- ja tietoja ei saa luovuttaa edelleen, jollei ti- lastoviranomainen anna tähän lupaa. Tietojen luovuttamista tai käyttöoikeuden antamista koskevan luvan myöntämiseen sovelletaan muutoin, mitä viranomaisten toiminnan jul- kisuudesta annetun lain 28 §:ssä säädetään. Mitä 1-4 momentissa säädetään, ei estä tie- tojen antamista takaisin sille viranomaiselle, joka on toimittanut tietoaineiston tilastovi- ranomaiselle.

Tilastoja laativan muun viranomaisen tilas- toja varten erikseen keräämien tietojen luo- vuttamiseen sovelletaan, mitä viranomaisten toiminnan julkisuudesta annetun lain 28 §:ssä säädetään. Tilastoja laativa muu viranomai- nen päättää kuitenkin aina luvan antamisesta.

13 a §

Julkiseen käyttöön tarkoitetut tiedostot Tämän lain 12 §:ssä tarkoitetun salassapi- don estämättä tilastoviranomainen voi tuottaa ja antaa julkiseen käyttöön sellaisia tilasto- tarkoituksiin kerätyistä tiedoista muodostet- tuja tiedostoja, joista on poistettu tunnistetie- dot ja jotka on käsitelty siten, ettei tilastoyk- sikköä voida tunnistaa suoraan tai välillisesti.

13 b §

Tietojen luovuttamisen tavat ja keinot

Tilastotarkoituksiin kerättyjä tietoja voi- daan luovuttaa teknisen käyttöyhteyden avul- la, muussa teknisesti tai sähköisesti käsiteltä- vässä muodossa, kirjallisesti tai muulla tar- koitukseen soveltuvalla turvallisella ja luotet- tavalla tavalla.

Katso myös

Viitteet

  1. Tilastolaki 23.4.2004/280 [1]
  2. Tilastolain uudistamista valmisteleva työryhmä: Tilastolain uudistamistyöryhmän ehdotus. Valtiovarainministeriön julkaisuja 7/2012, Hallinnon kehittäminen. Juvenes Print, Tampereen Yliopistopaino Oy, 2012. [2] ISBN 978-952-251-312-0 (nid.), ISSN 1459-3394 (nid.), ISBN 978-952-251-313-7 (PDF), ISSN 1797-9714 (PDF).

Aiheeseen liittyviä tiedostoja

<mfanonymousfilelist></mfanonymousfilelist>