Ero sivun ”Keskustelu:Big data 3: Edellytykset” versioiden välillä

Opasnet Suomista
Siirry navigaatioon Siirry hakuun
Ei muokkausyhteenvetoa
 
(6 välissä olevaa versiota 5 käyttäjän tekeminä ei näytetä)
Rivi 20: Rivi 20:


- "Suomessa julkisten toimijoiden tulee osittain paikata yksityisten pääomasijoitusten puutetta." Yleensä ei ole tarkoituksenmukaista tukea kannattamatonta liiketoimintaa valtion toimesta (vrt. telakkateollisuus). Mikäli yksityinen puoli ei investoi/sijoita ideoihin, on kyseenalaista kannattaako julkisen sektorinkaan investoida niihin. Markkinoiden tulisi hoitaa asia, ja jos kiinnostusta ei ole, tulee vetää johtopäätökset, ettei yksityinen sektori halua ottaa riskiä, joten ei ole perusteltua, että julkinen sektori lähtisi kantamaan investointiriskit yksityisen sektorin puolesta.
- "Suomessa julkisten toimijoiden tulee osittain paikata yksityisten pääomasijoitusten puutetta." Yleensä ei ole tarkoituksenmukaista tukea kannattamatonta liiketoimintaa valtion toimesta (vrt. telakkateollisuus). Mikäli yksityinen puoli ei investoi/sijoita ideoihin, on kyseenalaista kannattaako julkisen sektorinkaan investoida niihin. Markkinoiden tulisi hoitaa asia, ja jos kiinnostusta ei ole, tulee vetää johtopäätökset, ettei yksityinen sektori halua ottaa riskiä, joten ei ole perusteltua, että julkinen sektori lähtisi kantamaan investointiriskit yksityisen sektorin puolesta.


- "...yhteiskunnan luoma luotettu dataoperaattori, joka huolehtii...", eikö tämä olisi yksityisen puolen liiketoimintaa, jos sille kerran on tarvetta ja kysyntää?
- "...yhteiskunnan luoma luotettu dataoperaattori, joka huolehtii...", eikö tämä olisi yksityisen puolen liiketoimintaa, jos sille kerran on tarvetta ja kysyntää?
Rivi 49: Rivi 50:
"Tekniset käytännöt ja standardit"
"Tekniset käytännöt ja standardit"
- "Tämän lisäksi useissa muissa standardoimisorganisaatioissa pohditaan..." Missä? Esimerkkejä, viitteitä?
- "Tämän lisäksi useissa muissa standardoimisorganisaatioissa pohditaan..." Missä? Esimerkkejä, viitteitä?
----
Tekniset käytännöt ja standardit
Standardointia en pitäisi nyt suurena huolenaiheena. Tuntuu, että kaikkeen pitää mennä standardi edellä. Standardi on kuitenkin väline, jolla yhtenäistetään hajanaisia käytäntöjä. Eli niitä käytäntöjä pitää aluksi synnyttää ja asiaan kuuluu, että ne ovat päällekkäisiä ja epäyhteensopivia. Sitten vasta aika on kypsä standardoinnille. Minusta Suomen ei pitäisi jumittua standardien kehittelyyn, vaan tässä vaiheessa vaan tehdä töitä ja rakentaa niitä varsinaisia ratkaisuja.
Teknologiat ja tekniset käytännöt ovat ilmeisesti vasta tulossa tekstiin. Niissä lienee syytä mainita ainakin Hadoop ja NoSQL-tietokannat. Pilvilaskenta yleisemmin liittyy aiheeseen toki myös. Rautapuolella tärkeitä asioita ovat suurimuistiset järjestelmät ja SSD:t, ainakin. Tärkeä nouseva teknologia on Spark, eräänlainen Hadoopin korvaaja.
Ehkä yleisenä kehityskulkuna voisi nähdä abstraktiotason nousemisen Hadoopin ja map-reducen yli. Toisaalta on tietokannat kuten Hive, toisaalta käsittelymoottorit/skriptikielet kuten Spark ja Pig. Usein nämä toimivat Hadoopin päällä. On vaikea sanoa, millä tasolla ja työkaluilla tulevaisuudessa data-analyytikot tulevat suurimman osan Big data -kuormastaan käsittelemään. Melkoisella varmuudella se on jotain korkeammalla abstraktiotasolla olevaan kuin Hadoop map-reduce.
Sitten on kaupallisten ratkaisujen maailma. Siellä toki on paljon vanhan tavaran uudelleenbrändäämistä Big data -merkillä, mutta myös merkittäviä uusia tuotteita, kuten SAP Hana.
----------
Edellytyksissä tulisi huomioda eri tietovarantojen tiedojen laatu ja luotettvuus vrt
Väestörekisteri vs Some. Tiedon osalta pitäisi olla malli , joka edellyttää "oikeasta tiedosta luottettavaan tietoon".
Koulutuksessa tulisi lisätä informmation hallinta - koulutusta, sillä informaatio on kuitenkin Big Datassa se tärkein
tekijä. "By 2017, 33% of the largest global companies will experience an information crisis due to their inability to adequately value, govern and trust their enterprise information"
:Gartner
== Tilastotieteen rooli big data -koulutuksessa ==
Tilastotiede, jota voi opiskella pääaineena Helsingin, Jyväskylän, Oulun, Tampereen ja Turun yliopistoissa, on keskeinen analyysimenetelmien osaajien kouluttaja. Esimerkiksi moni nimikkeellä (Senior) Data Scientist työskentelevä asiantuntija on opiskellut pääaineenaan tilastotiedettä. Terveysdatan parissa työskentelevistä asiantuntijoista valtaosalla on tilastotieteilijän koulutus. Tilastotieteen pääaineopintoihin kuuluu paljon myös matematiikan ja tietotekniikan opintoja.
Tilastotieteen koulutusta voidaan helposti kehittää vielä nykyistä fokusoidummin big datan suuntaan lisäämällä opintoihin sopivia erikoiskursseja ja soveltuvia kauppatieteellisiä opintoja. Olemassaolevan koulutuksen kehittämien voisi monessa tapauksessa olla nopein tapa vastata big data -koulutustarpeisiin.
Tilastotieteen koulutuksessa yhteistyötä yritysten kanssa olisi myös mahdollista lisätä. Esimerkkinä onnistuneesta yhteistyöstä voisi mainita Jyväskylän yliopiston kesäkoulussa 2013 toteutetun tilastotieteen kurssin "Industrial data science", jonka luennoitsijat edustivat suomalaisen big data -osaamisen huippua yritysmaailmassa.
Big data -strategiassa tilastotieteen tärkeä rooli asiantuntijoiden kouluttajana tulisi tuoda selvästi esiin.
Juha Karvanen
Tilastotieteen professori
Jyväskylän yliopisto
----------------------------------------------------------------------------------------
Strategissa tulisi kuvata ensin Big Datan tutkimuksellinen perusta.
Perinteisesti tutkimusmetodit on jaettu kahteen luokkaan: teoreettiseen ja kokeelliseen tutkimukseen. Nykyinen informaatioteknologian tutkimus kattaa neljä tieteen perusparadigmaa: teoreettinen, kokeellinen, mallipohjainen laskennallinen ja datapohjainen laskennallinen lähestymistapa.
Laskennallinen tiede edustaa kolmatta tieteen paradigmaa. Siinä tietokoneen avulla simuloidaan reaalimaailman ilmiöitä tai tilanteita, joita reaalimaailmassa ei välttämättä vielä ole. Suomen osalta on tapahtunut nopea murros tutkimusparadigmojen asettelussa. Lähes kaikilla tieteen aloilla tehdään tutkimusta laskennallisilla menetelmillä kokeellisten ja teoreettisten menetelmien lisäksi. Suomen kilpailukyvyn kannalta laskennallisten tieteiden kehittäminen on strategisesti tärkeää.
Nopea kehitys tietotekniikassa ja menetelmäosaamisessa mahdollistavat entistä monimutkaisempien ja realistisempien laskentamallien käyttöönoton eri alojen tutkimusongelmien ratkaisemiseksi. Näin vähennetään tuntuvasti tarvetta suorittaa erilaisia kalliita kokeita. Laskennallisten tieteiden menetelmillä voidaan hakea ratkaisuja ongelmiin myös tilanteissa, joissa riittävän tarkan ratkaisun saaminen perinteisillä keinoilla ei onnistu. Laskennalliset tieteet mahdollistavat tutkimus- ja innovaatiotoiminnassa sekä yritysmaailmassa tuloksia, joita ei tähän asti ole ollut mahdollista saavuttaa.
Laskennallisissa tieteissä keskitytään matemaattisten mallinnusmenetelmien, todellisuutta jäljittelevien simulointimenetelmien, toimintaa parantavien optimointimenetelmien sekä laajojen tietoaineistojen hallinnan mahdollistavien tiedonlouhintamenetelmien teoriaan ja käytännön hyödyntämiseen, erityisesti tietokoneanimaatioissa.
Laskennalliset tieteet koostuvat neljästä osa-alueesta:
• mallintamisesta, simuloinnista, optimoinnista ja säätöteoriasta
• datan käsittelystä, analyysista ja päätöksenteosta
• visualisoinnista
• laskentaympäristöstä
Laskennallisten menetelmien eli analyysin, mallinnuksen, simuloinnin, optimoinnin, data-analyysin ja tiedonhallinnan avulla voidaan hankkia syvempää tietoa eri asioiden riippuvuussuhteista ja hallita tehokkaammin kokonaisuuksia, riskejä ja epävarmuutta.
Big Data tieteen neljäs paradigma
Historically, the two dominant paradigms for scientific discovery have been theory and experiments, with large-scale computer simulations emerging as the third paradigm in the 20th century. In many cases, large-scale simulations are accompanied by the challenges of data-intensive computing. Overcoming the challenges of data-intensive computing has required optimization of data movement across multiple levels of memory hierarchies, and these considerations have become even more important as we prepare for exascale computing. The approaches taken to address these challenges include (a) fast data output from a large simulation for future processing/archiving; (b) minimization of data movement across caches and other levels of the memory hierarchy; (c) optimization of communication across nodes using fast and low-latency networks, and communication optimization; and (d) effective co-design, usage and optimization of system components from architectures to software.
Over the past decade, a new paradigm for scientific discovery is emerging due to the availability of exponentially increasing volumes of data from large instruments such as telescopes, colliders, and light sources, as well as the proliferation of sensors and high-throughput analysis devices. Further, data sources, analysis devices, and simulations are connected with current-generation networks that are faster and capable of moving significantly larger volumes of data than in previous generations. These trends are popularly referred to as big data. However, generation of data by itself is of not much value unless the data can also lead to knowledge and actionable insights. Thus, the fourth paradigm, which seeks to exploit information buried in massive datasets to drive scientific discovery, has emerged as an essential complement to the three existing paradigms. The complexity and challenge of the fourth paradigm arises from the increasing velocity, heterogeneity, and volume of data generation.” (Synergistic Challenges in Data-Intensive Science and Exascale Computing, Summary Report of the Advanced Scienti Computing Advisory Committee (ASCAC) Subcommittee, March 2013, http://science.energy.gov/~/media/40749FD92B58438594256267425C4AD1.ashx)
Jyväskylän yliopistossa suurien datamassojen tutkimusta toteutetaan tilastotieteessä, laskennallisten tieteiden, sovelletun matematiikan ja kyberturvallisuuden alueilla.
Tilastotieteen tutkimusaloja ovat mm:
• Spatiaalinen tilastotiede tarkastelee paikkatietoaineistojen tilastollista analysointia ja mallinnusta sekä tilastollista kuva-analyysia
• Aikasarja-analyysin tutkimus kohdistuu tila-avaruusmallien ja monimuuttujaisten aikasarjamallien teoriaan ja metodikehitykseen.
• Rakenneyhtälömallien tutkimus on kompleksisten monimuuttujaisten aineistojen ja pitkittäisaineistojen mallinnusta
• Parametrittomien ja robustien monimuuttujamenetelmien tutkimus on merkki- ja järjestyslukuvektoreihin perustuvien monimuuttujamenetelmien teoreettista kehitystyötä
• Biometrian ja ympäristötilastotiede on tutkimusalue, joka sisältää populaation mallinnusta ja vesistöjen ekologisen tilan arviointia
Erityisen kiinnostava tutkimusalue ovat spatiaaliset mallit. Paikkatietoon perustuvia ennustemalleja voidaan tuottaa päätöksentekijöitä varten muodostamalla datasta jakaumia, kasautumia, riippuvuuksia ja poikkeamia. Havainnoista voidaan tehdä päätelmiä luoda hypoteeseja jatkoanalyysiin. Mobiiliteknologian alueella paikkatiedolla on yhä suurempia sovellusalueita. Spatiaalisten mallien rakentamisen tavoitteena on tutkittavan ilmiön ymmärtäminen, jotta voidaan rakentaa malli ilmiön käyttäytymisen ennustamista varten.
Laskennallisten tieteiden tutkimusaloja ovat matemaattinen mallintaminen, luotettava malli- ja datapohjainen simulointi, optimointi, adaptiiviset ja tehokkaat numeeriset laskentamenetelmät, epävarmuuden huomioiminen numeerisessa simuloinnissa, hajautettujen systeemien säätö, spline ja spline wavelet tekniikat signaalin ja kuvankäsittelyssä, dynaamiset systeemit ja nanoelektroniikan mallinnus.
Sovelletun matematiikan tutkimusaloja ovat mm. diskreetti matematiikka, matemaattinen mallintaminen, funktionaalianalyysi, mitta- ja integraaliteoria ja kompleksianalyysi.
Jyväskylän yliopistossa erityisiä data-analyysin tutkimusaloja ovat analysointimenetelmien kehittäminen, erityisesti numeriikka ja massiivisen datan luokittelutekniikat, hyperspektrikameran datan analysointitekniikoiden kehittäminen ja tekniikan soveltaminen sen osa-alueilla, kuten solubiologia, lääketiede, ympäristötiede, maa- ja metsätalous, kemialliset aseet, rikospaikkatutkimustekniikka. Lisäksi tutkimukseen liittyviä yhteistyöhankkeita on mm. fysiikan ja aivotutkimuksen alueilla.
Suurien datamassojen käsittelyyn liittyy laaja-alaisia ja moniulotteisia kyber- ja tietoturvallisuuskysymyksiä. Kyberturvallisuutta voidaan tutkia osana tietojärjestelmätiedettä, tietojenkäsittelytiedettä ja tietotekniikkaa. Kyberturvallisuuden tutkimusorientaatio määrittyy kunkin tieteenalan omien tutkimuskohteiden ja metodien perusteella. Kyberturvallisuus on kaikkia em. tieteenaloja läpileikkaava ja se ulottuu laajaan skaalaan teknologioita ja prosesseja suojattaessa verkkoja, tietokoneita, ohjelmia, dataa kyberhyökkäyksiltä ja vahingoittumisilta. Osaamistarpeen perusta ulottuu tietojärjestelmätieteeseen, informaatioteknologiaan ja tietojenkäsittelytekniikkaan.
Jyväskylän yliopiston kyberturvallisuuden tutkimuksessa tarkastellaan tietojärjestelmiä ja tietojenkäsittelyä yhdistäen innovatiivisesti ja monitieteisesti neljä keskeistä näkökulmaa: teknologinen, ihmislähtöinen, liiketoiminnallinen ja informaatiolähtöinen. Teknis-matemaattiseen näkökulmaan liittyvät poikkeamien havaitsemiseen, tietojenkäsittelysovellusten ja ohjelmistojen, tietoverkkojen tiedonsiirtojärjestelmien turvallisuuteen sekä turvalliseen tietojen käsittelyyn. Ihmislähtöisestä, liiketoiminnallisesta ja informaatiolähtöisestä näkökulmasta tutkitaan mm. tieto- ja kyberturvallisuusstrategian kehitysmenetelmiä, tietoturvallisuuden johtamista ja hallintaa, turvallisten tietojärjestelmien kehitysmenetelmiä, tietoturvakäyttäytymisen ja tietoturvakulttuurin parantamista, tietoturvainvestointeja sekä social engineering ja phishing teemoja.
KOULUTUS
Tutkimuksellisen kuvauksen jälkeen tulisi esittää koulutuksen periaatteet.
Jyväskylän yliopiston IT-tiedekunta on kehittänyt data-analyysin koulutusta ja tutkimusta systemaattisesti yhteistyössä matematiikan ja tilastotieteen laitoksen sekä kansainvälisten huippuyliopistojen kanssa. Suurien tietomassojen analyysin opiskelu toteutetaan kolmen maisteriohjelman sisällä, joissa opiskelija voi profiloitua data-analyysiin. Tietotekniikan laitoksella toteutetaan laskennallisten tieteiden ja sovelletun matematiikan maisteriohjelmat ja Matematiikan ja tilastotieteen laitoksella toteutetaan tilastotieteen maisteriohjelma.
Tilastotieteen opinnot sisältävät sekä teoreettisia opintoja että tilastotieteen sovelluksia ja tähtäävät ammattitilastotieteilijän taitoon. Tilastotiede kehittää malleja ja menetelmiä numeerisen havaintoaineiston keräämiseen, kuvaamiseen ja analysointiin ja tähän liittyvään laskennalliseen toteuttamiseen. Tilastotieteessä on kysymys reaalimaailman ilmiöiden mallintamisesta ja sen osaamista tarvitaan yhä enemmän yhteiskunnassa ja elinkeinoelämässä, missä tutkimusaineistojen ja tietovarantojenanalyyseilla ja mallinnuksella halutaan tuottaa jalostettua tietoa päätöksenteon tueksi. Tilastotieteen opetuksen tavoitteena on antaa valmiudet edustavien havaintoaineistojen keräämiseen, aineistojen kuvaamiseen ja analysointiin sekä yleensä numeerisesti mitattavissa olevienilmiöiden pätevään tilastolliseen mallintamiseen. Tilastotieteellä on käytettävissä erilaisia analysointityökaluja data-analyysin toteuttamiseen.
Sovelletun matematiikan avulla pyritään ratkaisemaan tosielämän ongelmia. Sovelletun matematiikan tavoitteena on mallintaa erilaisia ilmiöitä, kuvailla niitä ja yrittää ymmärtää niitä. Sovelletun matematiikan opiskelussa yhdistyy tieteellisen laskennan käsitteet ja menetelmät, joita käytetään kysymyksiin, jotka ilmentyvät matematiikan ja muiden tieteenalojen rajapinnoissa. Jyväskylän yliopistossa opinnoissa keskitytään sellaisiin osa-alueisiin, kuten funktionaalianalyysi, mitta- ja integraaliteoria, kompleksianalyysi, numeerinen analyysi, optimointi ja simulointi. Sovellettu matematiikka tuottaa matemaattisia työkaluja data-analyysin toteuttamiseen.
Laskennallisten tieteiden maisterikoulutuksessa käsitellään laaja-alaisesti tilastotieteen, numeerisen laskennan ja ohjelmoinnin käsitteitä ja menetelmiä. Laskennalliset tieteet antavat erilaisia numeerisia työkaluja data-analyysin toteuttamiseen. Laskennallisten tieteiden koulutuksessa opetetaan jatkuvan ja diskreetin simuloinnin periaatteet ja sovelluskohteet, jatkuvien simulointimallien tavallisimmat diskretisointimenetelmät ja niiden tehokkaan toteuttamisen perusperiaatteet moderneissa tietokonearkkitehtuureissa sekä yksi- ja monitavoitteisen epälineaarisen optimoinnin periaatteet ja ratkaisumenetelmät.
Edellä kuvatut kolme maisterikoulutusta antavat opiskelijalle mahdollisuuden profiloitua suurten datamassojen analyysiin kunkin tieteenalan näkökulmasta ja tutkimustyökaluja hyväksikäyttäen. Data-analyysissä opetetaan ja tutkitaan menetelmiä ja lähestymistapoja, joilla eritavoin kerätystä tiedosta (data) pyritään muodostamaan malleja ja korkeampaa tai tarkempaa informaatiota. Opetuksessa korostuu keskeisinä tekijöinä datan kerääminen, käsittely ja visualisointi.
Data-analyysin koulutus vastaa muuttuvan maailman tilanteeseen, jossa suurien data-aineistojen automaattisesta analysoinnista on tullut keskeinen työkalu useilla aloilla. Koulutuksen tavoitteena on antaa opiskelijoille data-analyysiin liittyvää erikoisosaamista sekä tilastollisista menetelmistä että niiden soveltamisesta tietokoneympäristöön.
Jyväskylän yliopiston laaja-alainen ja monitieteellinen toimintaympäristö antaa mahdollisuuden data-analyysin opiskelijoille käyttää hyväkseen erilaisia datamassoja, kuten:
• oppimiseen liittyvä data (Learning Analytics)
• hiukkaskiihdyttimen tuottama havaintoaineisto
• aivotutkimusyksikön tuottama havaintoaineisto
• erilaiset prosessien tuottamat data-aineistot (Process mining)
• muu empiirinen tutkimusaineisto
Tutkija Martti Lehto
Tietotekniikan laitos
Jyväskylän yliopisto
-------------------------------------------------------------------------------------------------
== Big Data -koulutus ja tutkimus Tampereen yliopistossa ==
Allaoleva teksti kuvaa Big Data -koulutusta ja tutkimusta Tampereen yliopistossa. Tässä koulutuksessa ja tutkimuksessa mm. tilastotieteen rooli suurten tietoaineistojen käsittelyssä on vahvasti esillä.
Tilastotieteen apulaisprofessori Jaakko Peltonen,
Informaatiotieteiden yksikkö,
Tampereen yliopisto
Tampereen yliopisto panostaa suurten tietoaineistojen analysoinnin tutkimukseen ja opetukseen erityisesti kahdella käynnissä olevalla uudella aloitteella.
Tampereen yliopiston Informaatieteiden yksikköön perustetaan uusi kansainvälinen maisteriohjelma International Master's Programme in Computational Big Data Analysis. Ohjelman toteutetaan yhteisvoimin erityisesti tilastotieteen ja tietojenkäsittelytieteen asiantuntijoiden vetämänä ja yhteistyössä tilastotieteen sovellusalojen kuten bioinformatiikan, biometrian ja biostatistiikan, yhteiskuntatieteiden ja datajournalismin kanssa. Ohjelma kouluttaa opiskelijoita asiantuntijoiksi, joilla on sekä tilastotieteellinen valmius tehdä haastavia analyysejä laajoista ja monimuotoisista tietoaineistoista, tietojenkäsittelytieteen taidot toteuttaa analyysejä  olemassaolevia ohjelmistoja käyttäen ja/tai muokaten ohjelmistoja aineistojen ja analyysien erityistarpeita varten, sekä ymmärrys suuren datan analysoinnin käytännöstä sovellusaloilla.
Ohjelman sisällössä yhdistyy sekä metodologinen opetus joka toteutetaan Informaatiotieteiden yksikön kautta sekä tutustuttaminen opetuksen kautta suuria tietoaineistoja tuottaviin sovellutaloihin ja niiden erityispiirteisiin ja menetelmiin, mikä toteutetaan yhteistyössä muiden yksiköiden opetuksen kanssa. Suuret tietoainestot ovat ohjelman erityinen fokusalue, joka otetaan huomioon opetuksen sisällössä käsittelemällä suurten aineistojen tilastollisia ominaisuuksia, tehokkaita käsittelymenetelmiä, ja sovellusalojen tiedonkeräystapoja jotka tuottavat suuria aineistoja. Ohjelman ensimmäinen hakudeadline on tammikuussa 2015 ja jonka ensimmäiset opiskelijat aloittavat syksyllä 2015. Ohjelmaa mainostetaan jo aktiivisesti kansainvälisillä foorumeilla.
Tampereen yliopistoon perustetaan myös uusi Tilastotieteen keskus,
joka koordinoi tilastotieteen opetusta ja tutkimusta. Keskuksen
toiminnan aloittamisen tavoiteaikataulu on syyslukukauden
2014 alussa. Tällä hetkellä Tampereen yliopiston tilastotieteen opetusta annetaan Informaatiotieteiden yksikössä matematiikan ja ilastotieteen kandidaattiohjelman, tilastotieteen maisteriohjelman, ja informaation ja järjestelmien tohtoriohjelman yhteydessä, sekä Terveystieteiden yksikössä erityisesti biometrian ja biostatistiikan alalla, Johtamiskorkeakoulussa, ja Yhteiskunta- ja kulttuuritieteiden yksikössä; tilastotieteen tutkimusta ja tilastotiedettä soveltavaa tutkimusta tehdään näissä yksiköissä. Perusteilla oleva Tilastotieteen keskus tulee järjestämään tätä opetusta ja osallistumaan tilastotieteellisten opetustavoitteiden laadintaan kaikissa yliopiston tutkinto-ohjelmissa. Keskus koordinoi opetuksen ja ajankohtaisen korkeatasoisen tutkimuksen vuorovaikutusta. Keskus myös koordinoi tilastotieteen asiantuntijoiden käyttöä tutkimusprojekteissa ja korkeatasoisen tilastotieteellisen näkökulman ja tavoitteiden huomioonottamista tutkimusrahoituksen hakemuksissa. Keskus erityisesti toimii yhteistyöelimenä suurten tietoaineistojen hyödyntämiseksi:
keskuksen kautta kootaan ja välitetään tietoa suurten tietoaineistojen saatavuudesta, niiden käytön haasteista ja järjestetään medologisten ja sovellusalojen voimavarojen yhdistämistä suurten aineistojen tehokkaaksi hyödyntämiseksi tutkimuksessa ja opetuksessa. Yksikön johtoon palkataan uusi soveltavan tilastotieteen professori (tenure track), ja yksikön johtoryhmään kuuluu edustaja kustakin yllämainituista tieteenalayksiköistä; tämän lisäksi tutkimuksen vahvistamiseksi voidaan koota keskuselle erityinen scientific advisory board.
Yhteystiedot:
International Master's Programme in Computational Big Data Analysis
-ohjelman vastuuhenkilöitä  ovat prof. Jaakko Peltonen
(jaakko.peltonen@uta.fi), prof. Jyrki Nummenmaa
(jyrki.nummenmaa@uta.fi) ja prof. Martti Juhola (martti.juhola@uta.fi).
Tilastotieteen keskuksen valmistelun vastuuhenkilöt ovat Informaatiotieteiden yksikön johtaja Mika Grundström (mika.grundstrom@uta.fi), Yhteiskunta- ja kulttuuritieteiden yksikön johtaja prof. Risto Kunelius (risto.kunelius@uta.fi), ja prof. Pekka Rissanen (pekka.rissanen@uta.fi).
== Big data + analytiikka + oivallus + hyötykäyttö = arvo ==
Big data on tämän ajan öljy, josta ei niinkuin raakaöjystäkään ole jalostamattomana juuri hyötyä.  Hyödylliseksi sen tekee analytiikka, jonka avulla tiedosta on mahdollista löytää merkityksiä ja oivalluksia.  Vasta kun oivallukset ovat hyötykäytössä, hyödyt alkavat näkyvät parempana päätöksentekona ja realisoituvat aikanaan vaikkapa julkisen organisaation tehokkaampana toimintana - enemmän vähemmällä tai parempana terveydenhoitona - terveempinä kansalaisina.  Liiketoiminnan oivallukset realisoituvat uusina liiketoimintakonsepteina ja hyödyllisinä tuotteina ja palveluina, jotka tuovat lisää työpaikkoja, vero- ja tuontituloja. Big datan ja analytiikan keinoin voidaan parhaimmillaan kääntää terveydenhoidossa huomio reaktiivisesta sairaanhoidosta hyvinvointiin - ja samalla pelastaa suomalainen kestävyysvaje. Big datan ja analytiikan keinoin voidaan kääntää suomalainen konepajateollisuus nousuun kehittämällä tietointensiivisiä palveluja hyödyntämällä laitteita älykkäinä palvelualustoina. Big data ja analytiikka yhdistävät parhaimmillaan tietolähteitä eri systeemeistä ja siiloista tavalla, joka synnyttää vallankumouksellisia oivalluksia ja läpimurtoja.
Big data ja analytiikka ovat tietoteolliselle aikakaudelle sama peruskyvykkyys kuin konetekniikka teolliselle aikakaudelle. Tämän päivän 'tietämysteollisuudessa' tarvitsemme holistista osaamista pystyäksemme hyödyntämään tietoa osana organisaation toimintaa tai kehittääkseemme uusia tuotteita ja palveluja maailmanmarkkinoille. Tietämysteollisuus tarvitsee luonnontieteiden ja insinööritieteiden lisäksi ihmistieteitä, liiketoiminnan ymmärrystä ja eri toimialojan osaamista. Teoreettisen kehikon muodostaa palveluajattelu, jota auttaa ymmärtämään arvonluontia kaikilla toimialoilla, ei vain palvelusektorilla. Palveluajattelu, on arvonluonnin 'kokonaisteoria', joka kokoaa eri tieteenhaarat selittämään arvonmuodostusta (service dominant logic, http://www.sdlogic.net/). Palveluajattelun keskiössä on arvonluonti yhdessä prosessiin osallistuvan ekosysteemin kanssa.  Arvon mittaa asiakas sen perusteella miten hyvin tuote tai palvelu tyydyttää asiakkaan tarpeen.
Palveluajattelu antavaa tukevan kehikon big datan hyödyntämiselle ja se tulisi sisällyttää osaksi tietämysteollisuuden yleiskoulutusta.

Nykyinen versio 2. kesäkuuta 2014 kello 12.18

Tähän tulevat kommentit, ideat ja ehdotukset:

Yleistä: Tekstin muotoilu ja rakenne tarkistettava ja korjattava. Viitteet esim. tutkimuksiin, väittämiin, lakeihin jne. tarvitaan. BigData -termin tarkempi määrittely?

"Datatietoisuus" - "...saavuttaa huomattavia etuja", mitä nämä "huomattavat edut" ovat?

- "...siirtymällä data-driven päätöksentekoon", mitä on "data-driven -päätöksenteko"?

- Kaikelle datalle tuskin syntyy arvoa, kuten luonnonvaroille. Kaikki data ei ole kaikille kiinnostavaa.

- "Avoimen datan kulttuurin kehitys vetää mukanaan myös yksityisiä ja kaupallisia toimijoita...", miten, miksi, mihin väite perustuu?

- "Tietoon perustuva päätöksenteko vaatii tuekseen toimivan tiedonkeruun ja analysoinnin.", mikä tahansa järkevä tiedon käyttö edellyttää toimivaa tiedonkeruuta ja analysointia...

"...rahoitus" - "T&K-rahaa tulisi kohdentaa big dataan liittyville kokeiluille ja tutkimukselle.", miksi, tulisi perustella? Rahoitusta ei tulisi vaan "kaataa" johonkin vaan pitäisi olla näkemys siitä, mitä vaikutuksia rahoituksen käytöllä on, ts. mitä sillä saadaan. Pelkkä yhteistyö ja yhteisprojektit on hieman ontto perustelu. Liiketoimintaa kehittäessä ja startupeissa toimivat ideat yleensä jalostuvat tuotteiksi, toimimattomat eivät, ts. markkinat hoitavat asian.

- " Saksa on avainasemassa teollisen internetin tulevissa ratkaisuissa.", miksi, perustelu, viite?

- "Suomessa julkisten toimijoiden tulee osittain paikata yksityisten pääomasijoitusten puutetta." Yleensä ei ole tarkoituksenmukaista tukea kannattamatonta liiketoimintaa valtion toimesta (vrt. telakkateollisuus). Mikäli yksityinen puoli ei investoi/sijoita ideoihin, on kyseenalaista kannattaako julkisen sektorinkaan investoida niihin. Markkinoiden tulisi hoitaa asia, ja jos kiinnostusta ei ole, tulee vetää johtopäätökset, ettei yksityinen sektori halua ottaa riskiä, joten ei ole perusteltua, että julkinen sektori lähtisi kantamaan investointiriskit yksityisen sektorin puolesta.


- "...yhteiskunnan luoma luotettu dataoperaattori, joka huolehtii...", eikö tämä olisi yksityisen puolen liiketoimintaa, jos sille kerran on tarvetta ja kysyntää?

- "Koulutuspuutteisiin tulee vastata jokaisella koulutustasolla peruskoulusta lähtien...", ehkä BigData -koulutus ei ole kuitenkaan ihan peruskoulutason asiaa?

- "Tiettyjen tärkeiden tietotyökalujen opetusta tulee esimerkiksi keskiasteella lisätä." Mitä nämä "tietyt työkalut" ovat?

- "EU:ssa valmisteilla oleva lainsäädäntö saattaa tuoda yrityksille merkittäviä sanktioita (mahdollisesti 5% liikevaihdosta) henkilötietojen virheellisestä käytöstä." Viite lainsäädäntöön?

- "Tutkimusrahoitusta on ohjattava tavalla, joka suosii teknologiaosaajien ja yhteiskuntatieteilijöiden yhteistyötä big dataan liittyvissä asioissa." Miksi juuri yhteiskuntatieteilijöitä?

- "Erilaisten, mielellään monialaisten big data-tutkimuskeskusten luonti voisi vauhdittaa alan kehitystä." Miten?

- "Ciscon ennusteiden mukaan vuoteen 2017 mennessä..." Viite?

- "Pienilläkin viiveillä voi olla ratkaisevan suuri merkitys erilaisten big dataan perustuvien ratkaisujen kannalta." Miksi?

"Datan käytettävyys ja..." - "Erilaisten tietoaineistojen avaaminen ja niiden yhdistely mahdollistaa uusia palveluinnovaatioita." Miten?

"Oman tiedon hallinta" - "ml. QS-tiedot" mitä nämä ovat?

- "Samalla yksittäisen kansalaisen (asiakkaan) kannalta omien tietojen hallinta ja hyödyntäminen mahdollistaa mm. säästöjä" Miten?

- "Demokraattista osallitumisen mahdollisuuksia sekä kansalaisten äänen kuulumista esimerkiksi päätöksentekoon voidaan lisätä big datan avulla..." Miten, esimerkkejä, mihin perustuu?

"Tekniset käytännöt ja standardit" - "Tämän lisäksi useissa muissa standardoimisorganisaatioissa pohditaan..." Missä? Esimerkkejä, viitteitä?


Tekniset käytännöt ja standardit

Standardointia en pitäisi nyt suurena huolenaiheena. Tuntuu, että kaikkeen pitää mennä standardi edellä. Standardi on kuitenkin väline, jolla yhtenäistetään hajanaisia käytäntöjä. Eli niitä käytäntöjä pitää aluksi synnyttää ja asiaan kuuluu, että ne ovat päällekkäisiä ja epäyhteensopivia. Sitten vasta aika on kypsä standardoinnille. Minusta Suomen ei pitäisi jumittua standardien kehittelyyn, vaan tässä vaiheessa vaan tehdä töitä ja rakentaa niitä varsinaisia ratkaisuja.

Teknologiat ja tekniset käytännöt ovat ilmeisesti vasta tulossa tekstiin. Niissä lienee syytä mainita ainakin Hadoop ja NoSQL-tietokannat. Pilvilaskenta yleisemmin liittyy aiheeseen toki myös. Rautapuolella tärkeitä asioita ovat suurimuistiset järjestelmät ja SSD:t, ainakin. Tärkeä nouseva teknologia on Spark, eräänlainen Hadoopin korvaaja.

Ehkä yleisenä kehityskulkuna voisi nähdä abstraktiotason nousemisen Hadoopin ja map-reducen yli. Toisaalta on tietokannat kuten Hive, toisaalta käsittelymoottorit/skriptikielet kuten Spark ja Pig. Usein nämä toimivat Hadoopin päällä. On vaikea sanoa, millä tasolla ja työkaluilla tulevaisuudessa data-analyytikot tulevat suurimman osan Big data -kuormastaan käsittelemään. Melkoisella varmuudella se on jotain korkeammalla abstraktiotasolla olevaan kuin Hadoop map-reduce.

Sitten on kaupallisten ratkaisujen maailma. Siellä toki on paljon vanhan tavaran uudelleenbrändäämistä Big data -merkillä, mutta myös merkittäviä uusia tuotteita, kuten SAP Hana.


Edellytyksissä tulisi huomioda eri tietovarantojen tiedojen laatu ja luotettvuus vrt Väestörekisteri vs Some. Tiedon osalta pitäisi olla malli , joka edellyttää "oikeasta tiedosta luottettavaan tietoon". Koulutuksessa tulisi lisätä informmation hallinta - koulutusta, sillä informaatio on kuitenkin Big Datassa se tärkein tekijä. "By 2017, 33% of the largest global companies will experience an information crisis due to their inability to adequately value, govern and trust their enterprise information"

Gartner

Tilastotieteen rooli big data -koulutuksessa

Tilastotiede, jota voi opiskella pääaineena Helsingin, Jyväskylän, Oulun, Tampereen ja Turun yliopistoissa, on keskeinen analyysimenetelmien osaajien kouluttaja. Esimerkiksi moni nimikkeellä (Senior) Data Scientist työskentelevä asiantuntija on opiskellut pääaineenaan tilastotiedettä. Terveysdatan parissa työskentelevistä asiantuntijoista valtaosalla on tilastotieteilijän koulutus. Tilastotieteen pääaineopintoihin kuuluu paljon myös matematiikan ja tietotekniikan opintoja.

Tilastotieteen koulutusta voidaan helposti kehittää vielä nykyistä fokusoidummin big datan suuntaan lisäämällä opintoihin sopivia erikoiskursseja ja soveltuvia kauppatieteellisiä opintoja. Olemassaolevan koulutuksen kehittämien voisi monessa tapauksessa olla nopein tapa vastata big data -koulutustarpeisiin.

Tilastotieteen koulutuksessa yhteistyötä yritysten kanssa olisi myös mahdollista lisätä. Esimerkkinä onnistuneesta yhteistyöstä voisi mainita Jyväskylän yliopiston kesäkoulussa 2013 toteutetun tilastotieteen kurssin "Industrial data science", jonka luennoitsijat edustivat suomalaisen big data -osaamisen huippua yritysmaailmassa.

Big data -strategiassa tilastotieteen tärkeä rooli asiantuntijoiden kouluttajana tulisi tuoda selvästi esiin.


Juha Karvanen

Tilastotieteen professori

Jyväskylän yliopisto


Strategissa tulisi kuvata ensin Big Datan tutkimuksellinen perusta.

Perinteisesti tutkimusmetodit on jaettu kahteen luokkaan: teoreettiseen ja kokeelliseen tutkimukseen. Nykyinen informaatioteknologian tutkimus kattaa neljä tieteen perusparadigmaa: teoreettinen, kokeellinen, mallipohjainen laskennallinen ja datapohjainen laskennallinen lähestymistapa.

Laskennallinen tiede edustaa kolmatta tieteen paradigmaa. Siinä tietokoneen avulla simuloidaan reaalimaailman ilmiöitä tai tilanteita, joita reaalimaailmassa ei välttämättä vielä ole. Suomen osalta on tapahtunut nopea murros tutkimusparadigmojen asettelussa. Lähes kaikilla tieteen aloilla tehdään tutkimusta laskennallisilla menetelmillä kokeellisten ja teoreettisten menetelmien lisäksi. Suomen kilpailukyvyn kannalta laskennallisten tieteiden kehittäminen on strategisesti tärkeää.

Nopea kehitys tietotekniikassa ja menetelmäosaamisessa mahdollistavat entistä monimutkaisempien ja realistisempien laskentamallien käyttöönoton eri alojen tutkimusongelmien ratkaisemiseksi. Näin vähennetään tuntuvasti tarvetta suorittaa erilaisia kalliita kokeita. Laskennallisten tieteiden menetelmillä voidaan hakea ratkaisuja ongelmiin myös tilanteissa, joissa riittävän tarkan ratkaisun saaminen perinteisillä keinoilla ei onnistu. Laskennalliset tieteet mahdollistavat tutkimus- ja innovaatiotoiminnassa sekä yritysmaailmassa tuloksia, joita ei tähän asti ole ollut mahdollista saavuttaa.

Laskennallisissa tieteissä keskitytään matemaattisten mallinnusmenetelmien, todellisuutta jäljittelevien simulointimenetelmien, toimintaa parantavien optimointimenetelmien sekä laajojen tietoaineistojen hallinnan mahdollistavien tiedonlouhintamenetelmien teoriaan ja käytännön hyödyntämiseen, erityisesti tietokoneanimaatioissa.

Laskennalliset tieteet koostuvat neljästä osa-alueesta: • mallintamisesta, simuloinnista, optimoinnista ja säätöteoriasta • datan käsittelystä, analyysista ja päätöksenteosta • visualisoinnista • laskentaympäristöstä

Laskennallisten menetelmien eli analyysin, mallinnuksen, simuloinnin, optimoinnin, data-analyysin ja tiedonhallinnan avulla voidaan hankkia syvempää tietoa eri asioiden riippuvuussuhteista ja hallita tehokkaammin kokonaisuuksia, riskejä ja epävarmuutta.

Big Data tieteen neljäs paradigma Historically, the two dominant paradigms for scientific discovery have been theory and experiments, with large-scale computer simulations emerging as the third paradigm in the 20th century. In many cases, large-scale simulations are accompanied by the challenges of data-intensive computing. Overcoming the challenges of data-intensive computing has required optimization of data movement across multiple levels of memory hierarchies, and these considerations have become even more important as we prepare for exascale computing. The approaches taken to address these challenges include (a) fast data output from a large simulation for future processing/archiving; (b) minimization of data movement across caches and other levels of the memory hierarchy; (c) optimization of communication across nodes using fast and low-latency networks, and communication optimization; and (d) effective co-design, usage and optimization of system components from architectures to software.

Over the past decade, a new paradigm for scientific discovery is emerging due to the availability of exponentially increasing volumes of data from large instruments such as telescopes, colliders, and light sources, as well as the proliferation of sensors and high-throughput analysis devices. Further, data sources, analysis devices, and simulations are connected with current-generation networks that are faster and capable of moving significantly larger volumes of data than in previous generations. These trends are popularly referred to as big data. However, generation of data by itself is of not much value unless the data can also lead to knowledge and actionable insights. Thus, the fourth paradigm, which seeks to exploit information buried in massive datasets to drive scientific discovery, has emerged as an essential complement to the three existing paradigms. The complexity and challenge of the fourth paradigm arises from the increasing velocity, heterogeneity, and volume of data generation.” (Synergistic Challenges in Data-Intensive Science and Exascale Computing, Summary Report of the Advanced Scienti Computing Advisory Committee (ASCAC) Subcommittee, March 2013, http://science.energy.gov/~/media/40749FD92B58438594256267425C4AD1.ashx)

Jyväskylän yliopistossa suurien datamassojen tutkimusta toteutetaan tilastotieteessä, laskennallisten tieteiden, sovelletun matematiikan ja kyberturvallisuuden alueilla.

Tilastotieteen tutkimusaloja ovat mm: • Spatiaalinen tilastotiede tarkastelee paikkatietoaineistojen tilastollista analysointia ja mallinnusta sekä tilastollista kuva-analyysia • Aikasarja-analyysin tutkimus kohdistuu tila-avaruusmallien ja monimuuttujaisten aikasarjamallien teoriaan ja metodikehitykseen. • Rakenneyhtälömallien tutkimus on kompleksisten monimuuttujaisten aineistojen ja pitkittäisaineistojen mallinnusta • Parametrittomien ja robustien monimuuttujamenetelmien tutkimus on merkki- ja järjestyslukuvektoreihin perustuvien monimuuttujamenetelmien teoreettista kehitystyötä • Biometrian ja ympäristötilastotiede on tutkimusalue, joka sisältää populaation mallinnusta ja vesistöjen ekologisen tilan arviointia

Erityisen kiinnostava tutkimusalue ovat spatiaaliset mallit. Paikkatietoon perustuvia ennustemalleja voidaan tuottaa päätöksentekijöitä varten muodostamalla datasta jakaumia, kasautumia, riippuvuuksia ja poikkeamia. Havainnoista voidaan tehdä päätelmiä luoda hypoteeseja jatkoanalyysiin. Mobiiliteknologian alueella paikkatiedolla on yhä suurempia sovellusalueita. Spatiaalisten mallien rakentamisen tavoitteena on tutkittavan ilmiön ymmärtäminen, jotta voidaan rakentaa malli ilmiön käyttäytymisen ennustamista varten.

Laskennallisten tieteiden tutkimusaloja ovat matemaattinen mallintaminen, luotettava malli- ja datapohjainen simulointi, optimointi, adaptiiviset ja tehokkaat numeeriset laskentamenetelmät, epävarmuuden huomioiminen numeerisessa simuloinnissa, hajautettujen systeemien säätö, spline ja spline wavelet tekniikat signaalin ja kuvankäsittelyssä, dynaamiset systeemit ja nanoelektroniikan mallinnus.

Sovelletun matematiikan tutkimusaloja ovat mm. diskreetti matematiikka, matemaattinen mallintaminen, funktionaalianalyysi, mitta- ja integraaliteoria ja kompleksianalyysi.

Jyväskylän yliopistossa erityisiä data-analyysin tutkimusaloja ovat analysointimenetelmien kehittäminen, erityisesti numeriikka ja massiivisen datan luokittelutekniikat, hyperspektrikameran datan analysointitekniikoiden kehittäminen ja tekniikan soveltaminen sen osa-alueilla, kuten solubiologia, lääketiede, ympäristötiede, maa- ja metsätalous, kemialliset aseet, rikospaikkatutkimustekniikka. Lisäksi tutkimukseen liittyviä yhteistyöhankkeita on mm. fysiikan ja aivotutkimuksen alueilla.

Suurien datamassojen käsittelyyn liittyy laaja-alaisia ja moniulotteisia kyber- ja tietoturvallisuuskysymyksiä. Kyberturvallisuutta voidaan tutkia osana tietojärjestelmätiedettä, tietojenkäsittelytiedettä ja tietotekniikkaa. Kyberturvallisuuden tutkimusorientaatio määrittyy kunkin tieteenalan omien tutkimuskohteiden ja metodien perusteella. Kyberturvallisuus on kaikkia em. tieteenaloja läpileikkaava ja se ulottuu laajaan skaalaan teknologioita ja prosesseja suojattaessa verkkoja, tietokoneita, ohjelmia, dataa kyberhyökkäyksiltä ja vahingoittumisilta. Osaamistarpeen perusta ulottuu tietojärjestelmätieteeseen, informaatioteknologiaan ja tietojenkäsittelytekniikkaan.

Jyväskylän yliopiston kyberturvallisuuden tutkimuksessa tarkastellaan tietojärjestelmiä ja tietojenkäsittelyä yhdistäen innovatiivisesti ja monitieteisesti neljä keskeistä näkökulmaa: teknologinen, ihmislähtöinen, liiketoiminnallinen ja informaatiolähtöinen. Teknis-matemaattiseen näkökulmaan liittyvät poikkeamien havaitsemiseen, tietojenkäsittelysovellusten ja ohjelmistojen, tietoverkkojen tiedonsiirtojärjestelmien turvallisuuteen sekä turvalliseen tietojen käsittelyyn. Ihmislähtöisestä, liiketoiminnallisesta ja informaatiolähtöisestä näkökulmasta tutkitaan mm. tieto- ja kyberturvallisuusstrategian kehitysmenetelmiä, tietoturvallisuuden johtamista ja hallintaa, turvallisten tietojärjestelmien kehitysmenetelmiä, tietoturvakäyttäytymisen ja tietoturvakulttuurin parantamista, tietoturvainvestointeja sekä social engineering ja phishing teemoja.

KOULUTUS

Tutkimuksellisen kuvauksen jälkeen tulisi esittää koulutuksen periaatteet.

Jyväskylän yliopiston IT-tiedekunta on kehittänyt data-analyysin koulutusta ja tutkimusta systemaattisesti yhteistyössä matematiikan ja tilastotieteen laitoksen sekä kansainvälisten huippuyliopistojen kanssa. Suurien tietomassojen analyysin opiskelu toteutetaan kolmen maisteriohjelman sisällä, joissa opiskelija voi profiloitua data-analyysiin. Tietotekniikan laitoksella toteutetaan laskennallisten tieteiden ja sovelletun matematiikan maisteriohjelmat ja Matematiikan ja tilastotieteen laitoksella toteutetaan tilastotieteen maisteriohjelma.

Tilastotieteen opinnot sisältävät sekä teoreettisia opintoja että tilastotieteen sovelluksia ja tähtäävät ammattitilastotieteilijän taitoon. Tilastotiede kehittää malleja ja menetelmiä numeerisen havaintoaineiston keräämiseen, kuvaamiseen ja analysointiin ja tähän liittyvään laskennalliseen toteuttamiseen. Tilastotieteessä on kysymys reaalimaailman ilmiöiden mallintamisesta ja sen osaamista tarvitaan yhä enemmän yhteiskunnassa ja elinkeinoelämässä, missä tutkimusaineistojen ja tietovarantojenanalyyseilla ja mallinnuksella halutaan tuottaa jalostettua tietoa päätöksenteon tueksi. Tilastotieteen opetuksen tavoitteena on antaa valmiudet edustavien havaintoaineistojen keräämiseen, aineistojen kuvaamiseen ja analysointiin sekä yleensä numeerisesti mitattavissa olevienilmiöiden pätevään tilastolliseen mallintamiseen. Tilastotieteellä on käytettävissä erilaisia analysointityökaluja data-analyysin toteuttamiseen.

Sovelletun matematiikan avulla pyritään ratkaisemaan tosielämän ongelmia. Sovelletun matematiikan tavoitteena on mallintaa erilaisia ilmiöitä, kuvailla niitä ja yrittää ymmärtää niitä. Sovelletun matematiikan opiskelussa yhdistyy tieteellisen laskennan käsitteet ja menetelmät, joita käytetään kysymyksiin, jotka ilmentyvät matematiikan ja muiden tieteenalojen rajapinnoissa. Jyväskylän yliopistossa opinnoissa keskitytään sellaisiin osa-alueisiin, kuten funktionaalianalyysi, mitta- ja integraaliteoria, kompleksianalyysi, numeerinen analyysi, optimointi ja simulointi. Sovellettu matematiikka tuottaa matemaattisia työkaluja data-analyysin toteuttamiseen.

Laskennallisten tieteiden maisterikoulutuksessa käsitellään laaja-alaisesti tilastotieteen, numeerisen laskennan ja ohjelmoinnin käsitteitä ja menetelmiä. Laskennalliset tieteet antavat erilaisia numeerisia työkaluja data-analyysin toteuttamiseen. Laskennallisten tieteiden koulutuksessa opetetaan jatkuvan ja diskreetin simuloinnin periaatteet ja sovelluskohteet, jatkuvien simulointimallien tavallisimmat diskretisointimenetelmät ja niiden tehokkaan toteuttamisen perusperiaatteet moderneissa tietokonearkkitehtuureissa sekä yksi- ja monitavoitteisen epälineaarisen optimoinnin periaatteet ja ratkaisumenetelmät.

Edellä kuvatut kolme maisterikoulutusta antavat opiskelijalle mahdollisuuden profiloitua suurten datamassojen analyysiin kunkin tieteenalan näkökulmasta ja tutkimustyökaluja hyväksikäyttäen. Data-analyysissä opetetaan ja tutkitaan menetelmiä ja lähestymistapoja, joilla eritavoin kerätystä tiedosta (data) pyritään muodostamaan malleja ja korkeampaa tai tarkempaa informaatiota. Opetuksessa korostuu keskeisinä tekijöinä datan kerääminen, käsittely ja visualisointi.

Data-analyysin koulutus vastaa muuttuvan maailman tilanteeseen, jossa suurien data-aineistojen automaattisesta analysoinnista on tullut keskeinen työkalu useilla aloilla. Koulutuksen tavoitteena on antaa opiskelijoille data-analyysiin liittyvää erikoisosaamista sekä tilastollisista menetelmistä että niiden soveltamisesta tietokoneympäristöön.

Jyväskylän yliopiston laaja-alainen ja monitieteellinen toimintaympäristö antaa mahdollisuuden data-analyysin opiskelijoille käyttää hyväkseen erilaisia datamassoja, kuten: • oppimiseen liittyvä data (Learning Analytics) • hiukkaskiihdyttimen tuottama havaintoaineisto • aivotutkimusyksikön tuottama havaintoaineisto • erilaiset prosessien tuottamat data-aineistot (Process mining) • muu empiirinen tutkimusaineisto

Tutkija Martti Lehto Tietotekniikan laitos Jyväskylän yliopisto


Big Data -koulutus ja tutkimus Tampereen yliopistossa

Allaoleva teksti kuvaa Big Data -koulutusta ja tutkimusta Tampereen yliopistossa. Tässä koulutuksessa ja tutkimuksessa mm. tilastotieteen rooli suurten tietoaineistojen käsittelyssä on vahvasti esillä.

Tilastotieteen apulaisprofessori Jaakko Peltonen, Informaatiotieteiden yksikkö, Tampereen yliopisto


Tampereen yliopisto panostaa suurten tietoaineistojen analysoinnin tutkimukseen ja opetukseen erityisesti kahdella käynnissä olevalla uudella aloitteella.

Tampereen yliopiston Informaatieteiden yksikköön perustetaan uusi kansainvälinen maisteriohjelma International Master's Programme in Computational Big Data Analysis. Ohjelman toteutetaan yhteisvoimin erityisesti tilastotieteen ja tietojenkäsittelytieteen asiantuntijoiden vetämänä ja yhteistyössä tilastotieteen sovellusalojen kuten bioinformatiikan, biometrian ja biostatistiikan, yhteiskuntatieteiden ja datajournalismin kanssa. Ohjelma kouluttaa opiskelijoita asiantuntijoiksi, joilla on sekä tilastotieteellinen valmius tehdä haastavia analyysejä laajoista ja monimuotoisista tietoaineistoista, tietojenkäsittelytieteen taidot toteuttaa analyysejä olemassaolevia ohjelmistoja käyttäen ja/tai muokaten ohjelmistoja aineistojen ja analyysien erityistarpeita varten, sekä ymmärrys suuren datan analysoinnin käytännöstä sovellusaloilla. Ohjelman sisällössä yhdistyy sekä metodologinen opetus joka toteutetaan Informaatiotieteiden yksikön kautta sekä tutustuttaminen opetuksen kautta suuria tietoaineistoja tuottaviin sovellutaloihin ja niiden erityispiirteisiin ja menetelmiin, mikä toteutetaan yhteistyössä muiden yksiköiden opetuksen kanssa. Suuret tietoainestot ovat ohjelman erityinen fokusalue, joka otetaan huomioon opetuksen sisällössä käsittelemällä suurten aineistojen tilastollisia ominaisuuksia, tehokkaita käsittelymenetelmiä, ja sovellusalojen tiedonkeräystapoja jotka tuottavat suuria aineistoja. Ohjelman ensimmäinen hakudeadline on tammikuussa 2015 ja jonka ensimmäiset opiskelijat aloittavat syksyllä 2015. Ohjelmaa mainostetaan jo aktiivisesti kansainvälisillä foorumeilla.

Tampereen yliopistoon perustetaan myös uusi Tilastotieteen keskus, joka koordinoi tilastotieteen opetusta ja tutkimusta. Keskuksen toiminnan aloittamisen tavoiteaikataulu on syyslukukauden 2014 alussa. Tällä hetkellä Tampereen yliopiston tilastotieteen opetusta annetaan Informaatiotieteiden yksikössä matematiikan ja ilastotieteen kandidaattiohjelman, tilastotieteen maisteriohjelman, ja informaation ja järjestelmien tohtoriohjelman yhteydessä, sekä Terveystieteiden yksikössä erityisesti biometrian ja biostatistiikan alalla, Johtamiskorkeakoulussa, ja Yhteiskunta- ja kulttuuritieteiden yksikössä; tilastotieteen tutkimusta ja tilastotiedettä soveltavaa tutkimusta tehdään näissä yksiköissä. Perusteilla oleva Tilastotieteen keskus tulee järjestämään tätä opetusta ja osallistumaan tilastotieteellisten opetustavoitteiden laadintaan kaikissa yliopiston tutkinto-ohjelmissa. Keskus koordinoi opetuksen ja ajankohtaisen korkeatasoisen tutkimuksen vuorovaikutusta. Keskus myös koordinoi tilastotieteen asiantuntijoiden käyttöä tutkimusprojekteissa ja korkeatasoisen tilastotieteellisen näkökulman ja tavoitteiden huomioonottamista tutkimusrahoituksen hakemuksissa. Keskus erityisesti toimii yhteistyöelimenä suurten tietoaineistojen hyödyntämiseksi: keskuksen kautta kootaan ja välitetään tietoa suurten tietoaineistojen saatavuudesta, niiden käytön haasteista ja järjestetään medologisten ja sovellusalojen voimavarojen yhdistämistä suurten aineistojen tehokkaaksi hyödyntämiseksi tutkimuksessa ja opetuksessa. Yksikön johtoon palkataan uusi soveltavan tilastotieteen professori (tenure track), ja yksikön johtoryhmään kuuluu edustaja kustakin yllämainituista tieteenalayksiköistä; tämän lisäksi tutkimuksen vahvistamiseksi voidaan koota keskuselle erityinen scientific advisory board.


Yhteystiedot: International Master's Programme in Computational Big Data Analysis -ohjelman vastuuhenkilöitä ovat prof. Jaakko Peltonen (jaakko.peltonen@uta.fi), prof. Jyrki Nummenmaa (jyrki.nummenmaa@uta.fi) ja prof. Martti Juhola (martti.juhola@uta.fi).

Tilastotieteen keskuksen valmistelun vastuuhenkilöt ovat Informaatiotieteiden yksikön johtaja Mika Grundström (mika.grundstrom@uta.fi), Yhteiskunta- ja kulttuuritieteiden yksikön johtaja prof. Risto Kunelius (risto.kunelius@uta.fi), ja prof. Pekka Rissanen (pekka.rissanen@uta.fi).

Big data + analytiikka + oivallus + hyötykäyttö = arvo

Big data on tämän ajan öljy, josta ei niinkuin raakaöjystäkään ole jalostamattomana juuri hyötyä. Hyödylliseksi sen tekee analytiikka, jonka avulla tiedosta on mahdollista löytää merkityksiä ja oivalluksia. Vasta kun oivallukset ovat hyötykäytössä, hyödyt alkavat näkyvät parempana päätöksentekona ja realisoituvat aikanaan vaikkapa julkisen organisaation tehokkaampana toimintana - enemmän vähemmällä tai parempana terveydenhoitona - terveempinä kansalaisina. Liiketoiminnan oivallukset realisoituvat uusina liiketoimintakonsepteina ja hyödyllisinä tuotteina ja palveluina, jotka tuovat lisää työpaikkoja, vero- ja tuontituloja. Big datan ja analytiikan keinoin voidaan parhaimmillaan kääntää terveydenhoidossa huomio reaktiivisesta sairaanhoidosta hyvinvointiin - ja samalla pelastaa suomalainen kestävyysvaje. Big datan ja analytiikan keinoin voidaan kääntää suomalainen konepajateollisuus nousuun kehittämällä tietointensiivisiä palveluja hyödyntämällä laitteita älykkäinä palvelualustoina. Big data ja analytiikka yhdistävät parhaimmillaan tietolähteitä eri systeemeistä ja siiloista tavalla, joka synnyttää vallankumouksellisia oivalluksia ja läpimurtoja.

Big data ja analytiikka ovat tietoteolliselle aikakaudelle sama peruskyvykkyys kuin konetekniikka teolliselle aikakaudelle. Tämän päivän 'tietämysteollisuudessa' tarvitsemme holistista osaamista pystyäksemme hyödyntämään tietoa osana organisaation toimintaa tai kehittääkseemme uusia tuotteita ja palveluja maailmanmarkkinoille. Tietämysteollisuus tarvitsee luonnontieteiden ja insinööritieteiden lisäksi ihmistieteitä, liiketoiminnan ymmärrystä ja eri toimialojan osaamista. Teoreettisen kehikon muodostaa palveluajattelu, jota auttaa ymmärtämään arvonluontia kaikilla toimialoilla, ei vain palvelusektorilla. Palveluajattelu, on arvonluonnin 'kokonaisteoria', joka kokoaa eri tieteenhaarat selittämään arvonmuodostusta (service dominant logic, http://www.sdlogic.net/). Palveluajattelun keskiössä on arvonluonti yhdessä prosessiin osallistuvan ekosysteemin kanssa. Arvon mittaa asiakas sen perusteella miten hyvin tuote tai palvelu tyydyttää asiakkaan tarpeen.

Palveluajattelu antavaa tukevan kehikon big datan hyödyntämiselle ja se tulisi sisällyttää osaksi tietämysteollisuuden yleiskoulutusta.