Keskustelu:Big Data 6: Toimenpiteet

Opasnet Suomista
Siirry navigaatioon Siirry hakuun

Tähän tulevat kommentit, ideat ja ehdotukset:

"Yhteistyö..." - Miksi ja miten juuri pilvipalvelut mahdollistavat datan yhdeistelyn?

"Kokeilut ja..." - Jälleen mainittu disruptio, mihin tällä viitataan?

"Datan saatavuus..." - Hallinnon datan saatavuutta tuskin parannetaan koodareilla, erityisesti jos esteet johtuvat lainsäädännöstä. Koodari ei myöskään ratkaise tietohallinnon rakenteisiin liittyviä ongelmia, koodari koodaa.

"Datatietoisuus..." - "Sanotaan, että big datan teknologiakehitys on evoluutiota, mutta samalla liiketoimintaprosessien kehitys käy läpi nyt revoluutiota. " Ok. Mutta mitä ihmettä tällä lauseella tarkoitetaan? Täysin turha ja sisällöltään tyhjä onelineri. - Julkisessa hallinnossa on jo "datavastaavia", mm. lainsäädäntö määrittelee näitä tehtäviä eri viranomaisille.

"Teknologiat ja ..." - "Datan käsittelyn ja hallinnoinnin harmonisointi edistäisi datan yhteen toimivuutta ja siten käyttöä" Miten? - Standardeja on jo (esim. tiedon säilytys). Näitä voisi vaikka kaivaa ja tunnistaa selvitystä, kuten tätä dokumenttia, tehdessä.

"Sääntely..." - Tulisi välttää tiettyyn teknologiaan/ilmiöön (esim. big data) liittyvää erityissääntelyä erityisesti jos kyseessä ei ole todellisuudessa ole täysin uudenlainen oikeudellinen ilmiö. Big datan käsittely on toimintana täysin verrattavissa muuhunkin tietojen käsittelyyn, joten sen erityissääntelyyn tulee suhtautua varsin pidättyvästi. Toisaalta sen hyödyntämisestä voi tulevaisuudessa kehittyä sääntelytarpeita. Sääntelyssä tärkeää olisi korostaa erityisesti tietojen käsittelyn läpinäkyvyyttä data subjekteille. Läpinäkyvyytta tarvitaan erityisesti tilanteissa, joissa big dataa hyödyntämällä voidaan vaikuttaa tietyn yksittäisen henkilön etuihin/oikeuksiin/velvollisuuksiin.


Koulutuksessa kuvattu osaaminen kattaa vain puolet tarpeesta. Toki datan hallinta ja käsittely on tärkeää, että mitään voidaan tehdä ja tuloksia saada aikaiseksi. Mutta yhtä tärkeä on tulosten yleistyvyyden varmistaminen. Voisi sanoa, että on parempi olla löytämättä datasta yllättäviä riippuvuuksia, jos ei osaa kunnolla arvioida, ovatko ne sattumaa vai todellinen säännönmukaisuus. Tilastotieteessä on tilastollinen merkitsevyys, mallin sovituksen yhteydessä puhutaan ylisovittamisen välttämämisestä, mutta asia on sama: on löydetty datasta jotain ja tulee selvittää, onko se sattumaa vai yleistyykö se taustalla olevaan populaatioon.

Datalähtöinen päätöksenteko on kasvanut viime vuosikymmeninä nopeasti: nykyään tilastoja käytetään kaikkialla perusteena. Tilastollisen päättelyn osaaminen ei toki ole yleistynyt yhtä nopeasti. Pienet aineistokoot ovat ehkä jossain määrin suojelleet osalta virhepäätelmistä, mutta kun n-luku alkaa olla miljoonia, niin enää ei pärjää, jos ei osaa erottaa sattumaa säännönmukaisuudesta.

Tilastotieteen rooli big data -koulutuksessa

Tilastotiede, jota voi opiskella pääaineena Helsingin, Jyväskylän, Oulun, Tampereen ja Turun yliopistoissa, on keskeinen analyysimenetelmien osaajien kouluttaja. Esimerkiksi moni nimikkeellä (Senior) Data Scientist työskentelevä asiantuntija on opiskellut pääaineenaan tilastotiedettä. Terveysdatan parissa työskentelevistä asiantuntijoista valtaosalla on tilastotieteilijän koulutus. Tilastotieteen pääaineopintoihin kuuluu paljon myös matematiikan ja tietotekniikan opintoja.

Tilastotieteen koulutusta voidaan helposti kehittää vielä nykyistä fokusoidummin big datan suuntaan lisäämällä opintoihin sopivia erikoiskursseja ja soveltuvia kauppatieteellisiä opintoja. Olemassaolevan koulutuksen kehittämien voisi monessa tapauksessa olla nopein tapa vastata big data -koulutustarpeisiin.

Tilastotieteen yhteistyötä yritysten kanssa olisi myös mahdollista lisätä. Esimerkkinä onnistuneesta yhteistyöstä voisi mainita Jyväskylän yliopiston kesäkoulussa 2013 toteutetun tilastotieteen kurssin "Industrial data science", jonka luennoitsijat edustivat suomalaisen big data -osaamisen huippua yritysmaailmassa.

Big data -strategiassa tilastotieteen tärkeä rooli asiantuntijoiden kouluttajana tulisi tuoda selvästi esiin.


Juha Karvanen

Tilastotieteen professori

Jyväskylän yliopisto


Osassa 3 kuvatun tutkimus- ja osaamisperustan vuoksi Big data koulutus syytä keskittää yliopistoihin. Jyväskylän yliopistolla on valmiudet johtaa ja koordinoida kansallista monitieteistä big data tohtori- ja MBA-ohjelmaa.

Jyväskylän yliopiston omien kehitysohjelmien ja Innovatiiviset kaupungit 2014–2020 (INKA) kyberturvallisuusteeman myötä Jyväskylässä on toteutettu monia strategialuonnoksessa esitettyjä teemoja ja tavoitteita.

Jyväskylän yliopistolla on valmius ottaa INKA-ohjelman laajennuksena vastuu monitieteisestä Big Data osaamiskeskuksesta (Center of Excellence, CoE). Osaamiskeskuksessa tulee olla edustettuina eri tieteenalat ja yhteiskunnalliset sovellusalat:

- tietojärjestelmätiede, tietojenkäsittelytiede, tietotekniikka - tilastotiede - matematiikka, sovellettu matematiikka - kyberturvallisuus - kauppatieteet: johtaminen, Advanced MBA, markkinointi jne. - yhteiskuntatieteet ja sosiaalitieteet - koulutustutkimus - aivotutkimus - liikunta ja terveystieteet - ympäristötieteet - humanistiset alat: kielitieteet, etnologia, historia. musiikkitieteet - yhteiskunnallisina sovellusalueina SOTE-palvelut, julkiset TORI- ja SADE-palvelut, palveluväylä

Big datan koulutuksessa ensimmäinen vaihe on lisätä tilastotieteen ja tilastollisten menetelmien ja tilastotoimen pää- ja sivuaine koulutusta Suomessa. Koulutuksen tulisi sisältää työryhmän esityksen mukaisesti myös matematiikan ja IT alan opintoja.

Data-analyysin ja big datan ammattilaisten täytyy hallita paitsi data-analyysin eri menetelmien lisäksi myös laajat matemaattiset ja tietotekniset taidot sekä oppia, millainen on big data -työympäristö tulevaisuudessa. Tämän kokonaisuuden hallinta on vaativa, joka edellyttää yliopistotason opetuksen tehostamista ja kansallisen osaamiskeskuksen perustamista.

Tutkija Martti Lehto Tietotekniikanlaitos Jyväskylän yliopisto


Big Data -koulutus ja tutkimus Tampereen yliopistossa

Kuten kuvaan tarkemmin Edellytykset -osan kommenteissa, Tampereen yliopisto panostaa suurten tietoaineistojen analysoinnin tutkimukseen ja opetukseen erityisesti kahdella käynnissä olevalla uudella aloitteella: 1) uusi kansainvälinen maisteriohjelma International Master's Programme in Computational Big Data Analysis, jonka ensimmäinen hakudeadline on tammikuussa 2015 ja jonka ensimmäiset opiskelijat aloittavat syksyllä 2015, ja 2) Tampereen yliopistoon perustettava Tilastotieteen keskus, joka koordinoi tilastotieteen opetusta ja tutkimusta. Koulutus vastaa big data -analyytikkojen tarpeisiin antamalla sekä vahvan tilastotieteen ja tietojenkäsittelytieteen pohjan että kosketuksen big data -sovellusalueisiin.

Tilastotieteen apulaisprofessori Jaakko Peltonen, Informaatiotieteiden yksikkö, Tampereen yliopisto