Keskustelu:Big Data 6: Toimenpiteet
Tähän tulevat kommentit, ideat ja ehdotukset:
"Yhteistyö..." - Miksi ja miten juuri pilvipalvelut mahdollistavat datan yhdeistelyn?
"Kokeilut ja..." - Jälleen mainittu disruptio, mihin tällä viitataan?
"Datan saatavuus..." - Hallinnon datan saatavuutta tuskin parannetaan koodareilla, erityisesti jos esteet johtuvat lainsäädännöstä. Koodari ei myöskään ratkaise tietohallinnon rakenteisiin liittyviä ongelmia, koodari koodaa.
"Datatietoisuus..." - "Sanotaan, että big datan teknologiakehitys on evoluutiota, mutta samalla liiketoimintaprosessien kehitys käy läpi nyt revoluutiota. " Ok. Mutta mitä ihmettä tällä lauseella tarkoitetaan? Täysin turha ja sisällöltään tyhjä onelineri. - Julkisessa hallinnossa on jo "datavastaavia", mm. lainsäädäntö määrittelee näitä tehtäviä eri viranomaisille.
"Teknologiat ja ..." - "Datan käsittelyn ja hallinnoinnin harmonisointi edistäisi datan yhteen toimivuutta ja siten käyttöä" Miten? - Standardeja on jo (esim. tiedon säilytys). Näitä voisi vaikka kaivaa ja tunnistaa selvitystä, kuten tätä dokumenttia, tehdessä.
"Sääntely..." - Tulisi välttää tiettyyn teknologiaan/ilmiöön (esim. big data) liittyvää erityissääntelyä erityisesti jos kyseessä ei ole todellisuudessa ole täysin uudenlainen oikeudellinen ilmiö. Big datan käsittely on toimintana täysin verrattavissa muuhunkin tietojen käsittelyyn, joten sen erityissääntelyyn tulee suhtautua varsin pidättyvästi. Toisaalta sen hyödyntämisestä voi tulevaisuudessa kehittyä sääntelytarpeita. Sääntelyssä tärkeää olisi korostaa erityisesti tietojen käsittelyn läpinäkyvyyttä data subjekteille. Läpinäkyvyytta tarvitaan erityisesti tilanteissa, joissa big dataa hyödyntämällä voidaan vaikuttaa tietyn yksittäisen henkilön etuihin/oikeuksiin/velvollisuuksiin.
Koulutuksessa kuvattu osaaminen kattaa vain puolet tarpeesta. Toki datan hallinta ja käsittely on tärkeää, että mitään voidaan tehdä ja tuloksia saada aikaiseksi. Mutta yhtä tärkeä on tulosten yleistyvyyden varmistaminen. Voisi sanoa, että on parempi olla löytämättä datasta yllättäviä riippuvuuksia, jos ei osaa kunnolla arvioida, ovatko ne sattumaa vai todellinen säännönmukaisuus. Tilastotieteessä on tilastollinen merkitsevyys, mallin sovituksen yhteydessä puhutaan ylisovittamisen välttämämisestä, mutta asia on sama: on löydetty datasta jotain ja tulee selvittää, onko se sattumaa vai yleistyykö se taustalla olevaan populaatioon.
Datalähtöinen päätöksenteko on kasvanut viime vuosikymmeninä nopeasti: nykyään tilastoja käytetään kaikkialla perusteena. Tilastollisen päättelyn osaaminen ei toki ole yleistynyt yhtä nopeasti. Pienet aineistokoot ovat ehkä jossain määrin suojelleet osalta virhepäätelmistä, mutta kun n-luku alkaa olla miljoonia, niin enää ei pärjää, jos ei osaa erottaa sattumaa säännönmukaisuudesta.