Keskustelu:Big data 3: Edellytykset

Opasnet Suomista
Versio hetkellä 23. toukokuuta 2014 kello 13.53 – tehnyt Akallio (keskustelu | muokkaukset)
Siirry navigaatioon Siirry hakuun

Tähän tulevat kommentit, ideat ja ehdotukset:

Yleistä: Tekstin muotoilu ja rakenne tarkistettava ja korjattava. Viitteet esim. tutkimuksiin, väittämiin, lakeihin jne. tarvitaan. BigData -termin tarkempi määrittely?

"Datatietoisuus" - "...saavuttaa huomattavia etuja", mitä nämä "huomattavat edut" ovat?

- "...siirtymällä data-driven päätöksentekoon", mitä on "data-driven -päätöksenteko"?

- Kaikelle datalle tuskin syntyy arvoa, kuten luonnonvaroille. Kaikki data ei ole kaikille kiinnostavaa.

- "Avoimen datan kulttuurin kehitys vetää mukanaan myös yksityisiä ja kaupallisia toimijoita...", miten, miksi, mihin väite perustuu?

- "Tietoon perustuva päätöksenteko vaatii tuekseen toimivan tiedonkeruun ja analysoinnin.", mikä tahansa järkevä tiedon käyttö edellyttää toimivaa tiedonkeruuta ja analysointia...

"...rahoitus" - "T&K-rahaa tulisi kohdentaa big dataan liittyville kokeiluille ja tutkimukselle.", miksi, tulisi perustella? Rahoitusta ei tulisi vaan "kaataa" johonkin vaan pitäisi olla näkemys siitä, mitä vaikutuksia rahoituksen käytöllä on, ts. mitä sillä saadaan. Pelkkä yhteistyö ja yhteisprojektit on hieman ontto perustelu. Liiketoimintaa kehittäessä ja startupeissa toimivat ideat yleensä jalostuvat tuotteiksi, toimimattomat eivät, ts. markkinat hoitavat asian.

- " Saksa on avainasemassa teollisen internetin tulevissa ratkaisuissa.", miksi, perustelu, viite?

- "Suomessa julkisten toimijoiden tulee osittain paikata yksityisten pääomasijoitusten puutetta." Yleensä ei ole tarkoituksenmukaista tukea kannattamatonta liiketoimintaa valtion toimesta (vrt. telakkateollisuus). Mikäli yksityinen puoli ei investoi/sijoita ideoihin, on kyseenalaista kannattaako julkisen sektorinkaan investoida niihin. Markkinoiden tulisi hoitaa asia, ja jos kiinnostusta ei ole, tulee vetää johtopäätökset, ettei yksityinen sektori halua ottaa riskiä, joten ei ole perusteltua, että julkinen sektori lähtisi kantamaan investointiriskit yksityisen sektorin puolesta.

- "...yhteiskunnan luoma luotettu dataoperaattori, joka huolehtii...", eikö tämä olisi yksityisen puolen liiketoimintaa, jos sille kerran on tarvetta ja kysyntää?

- "Koulutuspuutteisiin tulee vastata jokaisella koulutustasolla peruskoulusta lähtien...", ehkä BigData -koulutus ei ole kuitenkaan ihan peruskoulutason asiaa?

- "Tiettyjen tärkeiden tietotyökalujen opetusta tulee esimerkiksi keskiasteella lisätä." Mitä nämä "tietyt työkalut" ovat?

- "EU:ssa valmisteilla oleva lainsäädäntö saattaa tuoda yrityksille merkittäviä sanktioita (mahdollisesti 5% liikevaihdosta) henkilötietojen virheellisestä käytöstä." Viite lainsäädäntöön?

- "Tutkimusrahoitusta on ohjattava tavalla, joka suosii teknologiaosaajien ja yhteiskuntatieteilijöiden yhteistyötä big dataan liittyvissä asioissa." Miksi juuri yhteiskuntatieteilijöitä?

- "Erilaisten, mielellään monialaisten big data-tutkimuskeskusten luonti voisi vauhdittaa alan kehitystä." Miten?

- "Ciscon ennusteiden mukaan vuoteen 2017 mennessä..." Viite?

- "Pienilläkin viiveillä voi olla ratkaisevan suuri merkitys erilaisten big dataan perustuvien ratkaisujen kannalta." Miksi?

"Datan käytettävyys ja..." - "Erilaisten tietoaineistojen avaaminen ja niiden yhdistely mahdollistaa uusia palveluinnovaatioita." Miten?

"Oman tiedon hallinta" - "ml. QS-tiedot" mitä nämä ovat?

- "Samalla yksittäisen kansalaisen (asiakkaan) kannalta omien tietojen hallinta ja hyödyntäminen mahdollistaa mm. säästöjä" Miten?

- "Demokraattista osallitumisen mahdollisuuksia sekä kansalaisten äänen kuulumista esimerkiksi päätöksentekoon voidaan lisätä big datan avulla..." Miten, esimerkkejä, mihin perustuu?

"Tekniset käytännöt ja standardit" - "Tämän lisäksi useissa muissa standardoimisorganisaatioissa pohditaan..." Missä? Esimerkkejä, viitteitä?


Tekniset käytännöt ja standardit

Standardointia en pitäisi nyt suurena huolenaiheena. Tuntuu, että kaikkeen pitää mennä standardi edellä. Standardi on kuitenkin väline, jolla yhtenäistetään hajanaisia käytäntöjä. Eli niitä käytäntöjä pitää aluksi synnyttää ja asiaan kuuluu, että ne ovat päällekkäisiä ja epäyhteensopivia. Sitten vasta aika on kypsä standardoinnille. Minusta Suomen ei pitäisi jumittua standardien kehittelyyn, vaan tässä vaiheessa vaan tehdä töitä ja rakentaa niitä varsinaisia ratkaisuja.

Teknologiat ja tekniset käytännöt ovat ilmeisesti vasta tulossa tekstiin. Niissä lienee syytä mainita ainakin Hadoop ja NoSQL-tietokannat. Pilvilaskenta yleisemmin liittyy aiheeseen toki myös. Rautapuolella tärkeitä asioita ovat suurimuistiset järjestelmät ja SSD:t, ainakin. Tärkeä nouseva teknologia on Spark, eräänlainen Hadoopin korvaaja.

Ehkä yleisenä kehityskulkuna voisi nähdä abstraktiotason nousemisen Hadoopin ja map-reducen yli. Toisaalta on tietokannat kuten Hive, toisaalta käsittelymoottorit/skriptikielet kuten Spark ja Pig. Usein nämä toimivat Hadoopin päällä. On vaikea sanoa, millä tasolla ja työkaluilla tulevaisuudessa data-analyytikot tulevat suurimman osan Big data -kuormastaan käsittelemään. Melkoisella varmuudella se on jotain korkeammalla abstraktiotasolla olevaan kuin Hadoop map-reduce.

Sitten on kaupallisten ratkaisujen maailma. Siellä toki on paljon vanhan tavaran uudelleenbrändäämistä Big data -merkillä, mutta myös merkittäviä uusia tuotteita, kuten SAP Hana.