Keskustelu:Big data 2: Johdanto

Tähän tulevat kommentit, ideat ja ehdotukset:

Yleiskommenttina: - Tämä dokumentti ei ole strategia vaan läihinnä markkinointimuistio. Nykytilan analyysi, politiikan luonnehdinta ja toimenpiteet ovat varsin puutteellisia. Strategiassa tulisi määritellä päämäärä, johon pyritään, kytkökset kokonaisuuteen ja tarvittavat toimenpiteet sekä suunnitelma ml. resursointi(toimeenpano), jolla ko. päämäärät saavutetaan. Olisi suositeltavaa eritellä myös pitkän tähtäimen ja lyhyen tähtäimen tavoitteet. Lisäksi strategia tulisi kytkeä läheisesti muihin kansallisiin ylätason strategioihin ja toimenpideohjelmiin osna taustan ja nykytilan selvitystä. Nyt dokumentti näyttäytyy varsin irrallisena. Tulisi selvittää, onko kansallisella tasolla tarvetta erilliseen BigData -strategiaan (vrt. onko tarvetta esim. "pilvipalvelustrategiaan") vai voiko asia sisältyä jo olemassa oleviin tai tuleviin strategioihin yhtenä osa-alueena. Strategiaan tulisi sisältyä myös näkemys toimeenpanon arvioinnista.

Kansallisessa strategiassa tulisi ehdottomasti olla viittaukset tekstissä käytettyihin selvityksiin, tutkimuksiin ja tausta-aineistoihin.

Mitä ovat "Big dataan liittyvät distruptioilmiöt"? - pitäisi selittää

" Suomessa on esimerkiksi korkeatasoiset digitaaliset perusrekisterit ja myös runsaasti osaamista, jonka päälle voidaan suhteellisen nopeasti rakentaa kilpailukykyista big data -osaamista" - Osamisen päälle osaamista? - ovatko perusrekisterit relevantteja BigData -näkökulmasta? Toistaiseksi niihin tuskin on kerätty aineistoa niin paljon, että käsittely olisi ongelmallista.

BigData -määritelmä mielellään jostain muualta, kuin Wikipediasta.

"Lähtökohtana big datasta saatavien yhteiskunnallisten ja taloudellisten hyötyjen..." - Mitä nämä hyödyt ovat?

"Strategiat maailmalla" - Viitteet strategioihin, kiitos

"Suomen rooli..." - Mitä nämä hyödyt ovat? Nyt puhutaan jostain "suuresta potentiaalista" mutta mitä se on? Mitä saadaan?

"...äskettäin julkaisema Big Data and Future of Privacy- julkaisu" - Johdannossa voisi olla hyvä tuoda esille että privacy eli yksityisyyden suoja käsitetään Atlantin eri rannoilla hieman eri tavalla. Euroopassa kyse on ensisijaisesti kaupallisten yritysten asiakkaistaan keräämästä henkilötiedosta ja sen käytöstä. Yhdysvalloissa kyse on lähtökohtaisesti kansalaisen ja hallinnon välisestä suhteesta, jonka suojaksi on perustuslain 4. lisäyksessä kirjattu: “right of the people to be secure in their persons, houses, papers, and effects, against unreasonable searches and seizures.” NSA:n tiedustelutoiminnasta käynnistynyt keskustelu on tuonut tämän kansalaisen digitaalisen kotirauhan käsitteen myös Eurooppaan. Olisi hyödyllistä pohtia myös Big Datan osalta miten rajata sen avulla koottavaa tietoa digitaalisen kotirauhan piirin säilyttämiseksi, oli tietojen kokoajana ja analysoijana sitten yritys tai viranomainen.

Kommentoin koulutusosioon siitä, että kuinka tärkeä on varmistaa tulosten oikeellisuus. Kun isoa dataa möyhii, niin aina sieltä jotain löytää. Skeptikko voisikin siis ennustaa, että tulevaisuudessa hyvin merkittäväksi päätöksenteon perustaksi nousee sattumanvaraisuus, joka datasta kaivetaan ja virheellisesti totuudeksi luokitellaan.

Yksi tapa edistää Big datan hedelmällisyyttä yhteiskunnalle olisi huolehtia sekä kasvuolosuhteista, että kriittisyydestä. Tietovarantojen avaamisen myötä noita kasvuolosuhteita on jo synnytetty varsin mukavasti. Kun toimintaa alkaa versoamaan, niin tarvitaan kriittisyyttä ja kilpailua. Koska kaikilla on mahdollisuus analysoida ja yhdistellä erilaisia tietokantoja, niin analyysin laatu tulee (entisestään) laskemaan. Tarvitaan siis tietoisuutta ja ymmärrystä, jotta sekunda-analyytikot eivät pääse vallalle. Olisi esimerkiksi erittäin hyvä, jos media olisi Big datasta kaivettuja havaintoja uutisoidessaan erityisesti kriittinen ja varovainen. Yhteiskunnallisessa päätöksenteossa vastaava olisi aivan pakollista.

Kun datan hyödyntämiseen on sekä hyvät lähtökohdat, että seuraavaksi kovat vaatimukset, niin syntyy yhteiskunta, joka tuottaa toivottavasti kovatasoisia Big datan hyötykäyttäjiä.

Big data mahdollisuudet ovat aina uniikkeja liiketoiminnan ja organisaation sekä teknolgian osalta 1.General Electric started an analytical software business unit that uses sensors and contextual information to help with fuel efficiency, more efficient operations and predictive maintenance. 2. John West (a manufacturer of tinned fish products), connects sensors to every batch of fish that it catches, so that consumers can track where the fish came from. 3.The Climate Corp (recently acquired by Monsanto), collects granular weather and soil data from around the world to create crop insurance products for small farmers in developing countries. 4.In the public sector, governments allow businesses and researchers to use public data to gain more insight into local markets.

"Siirrytään yrityksissä ja hallinnossa tekemään päätöksiä suoraan ”mitattuun” tietoon perustuen." Tiedon pitäisi olla ensinnäkin luotettavaa ja päätöksien oltava hyvin pragmaattisia, muuten tehdään tuontemattoman (non-quality) tiedon pohjalta virheellisiä päätöksiä.

Aikaisemmin mainittu kommentti strategialuonnoksen rakenteesta on relevantti. Strategian rakenne tulisi olla: - tausta ja perusteet - visio ja päämäärä - tavoiteet eri osa-alueille, kuten tutkimus, koulutus, liiketoiminta - toimepiteet tavoitteiden saavuttamiseksi

Perusteissa tulisi määritellä dataa liittyvä termistö: - data - high dimensional data - open data - big data - data mining

Lisäksi Big dataan liittyy merkittäviä kyberturvallisuuskysymyksiä, kuten information security, trusted computing, reliable computing, privacy, data network security, joita johdannossa tulisi kuvata ja määritellä.

Tutkija Martti Lehto Tietotekniikanlaitos Jyväskylän yliopisto

Kommentoin kohtaa "Tutkimuksessa ei välttämättä tarvitse samalla tavalla muodostaa teoriaa, kun voidaan käydä valtavia tietomassoja läpi ilman ennakko-oletuksia ja ns. "löytää" malleja, yhteyksiä". Suuria tietoaineistoja käsitellessä tarvitaan edelleen hyviä lähtöoletuksia ja johdonmukaista todennäköisyyksiin ja malleihin perustuvaa päättelyä; olemassaoleva asiantuntemus kuten teoriat ja ennakko-oletukset kannattaa ottaa mukaan tähän päättelyyn, ei rajoitteina löydöksille vaan kuvauksena alkuperäisistä uskomuksista, joita päivitetään aineiston avulla.

Johdonmukaista todennäköisyyspohjaista ennakko-oletuksien ja uuden aineiston yhdistämistä tarvitaan, jottei tehdä harhaan meneviä päätelmiä, joissa yksittäisten näytteiden ominaisuuksia erehdytään luulemaan osaksi yleistä trendiä. Päättely säilyy haastavana kahdesta syystä: 1) Vaikka aineistot sisältävät suuria määriä näytteitä, samalla mitattujen piirteiden määrä on kasvanut, esimerkiksi bioinformatiikassa mittausaineiston kudosnäytteiden määrä saattaa edelleen olla huomattavasti pienempi kuin geenien määrä, joiden aktiivisuus mitataan kullekin näytteelle. 2) Suurilla aineistoilla halutaan usein päätellä aiempaa monimutkaisempia ("yksityiskohtaisempia") malleja kuin pienillä aineistoilla, ja näillä monimutkaisilla malleilla on enemmän parametrejä, jotka tulee päätellä aineistosta. Nämä kaksi syytä yhdessä aiheuttavat sen, että parhaimpien selityksien (mallien) löytäminen aineistoille on edelleen haastava päättelytehtävä, jonka ratkaisemiseksi tulee tuntea mm. tilastotieteen menetelmiä. Yksinkertaisemmat lähestymistavat saattavat toimia kelvollisesti, mutteivät välttämättä havaitse niitä hienovaraisia yllättäviä löydöksiä, jotka "big data" mahdollistaa.

Tilastotieteen apulaisprofessori Jaakko Peltonen, Informaatiotieteiden yksikkö, Tampereen yliopisto

Keskustelu:Big data 2: Johdanto

Navigointivalikko

Henkilökohtaiset työkalut

Nimiavaruudet

Kirjoitusjärjestelmät

Näkymät

Muut

Haku

Valikko

Muokkaustyökalut

Työkalut