Ero sivun ”Massadata kansanterveyden edistämisessä” versioiden välillä

Opasnet Suomista
Siirry navigaatioon Siirry hakuun
 
(24 välissä olevaa versiota 2 käyttäjän tekeminä ei näytetä)
Rivi 1: Rivi 1:
[[Luokka:Massadata]]
[[Luokka:Massadata]]
'''Massadata kansanterveyden edistämisessä''' on katsausartikkeli Big Datasta. Se on kirjoitettu Duodecim-lehden teemanumeroon.
'''Massadata kansanterveyden edistämisessä''' on esimerkkisivu siitä, miten Opasnetissä voi kirjoittaa katsausartikkelin. Tässä esimerkkinä on käytetty käsikirjoitusta massadatasta eli Big Datasta. Se on kirjoitettu Duodecim-lehden teemanumeroon.
 
== Kysymys ==
 
Miten tehdään katsausartikkeli Opasnet-ympäristössä? Tavoitteena on tehokas tiedonkeruu ja tekstin kirjoittaminen.
 
== Vastaus ==
 
Nämä toimintatavat ja -vaiheet olen kokenut hyödyllisiksi. Mukana on myös linkkejä tämän sivun niihin versioihin, joissa kyseistä ohjetta on noudatettu.
* Mietitään aihetta kuvaava otsikko sivun nimeksi. Sen on hyvä olla sillä tavalla geneerinen, että vaikka artikkelin lopullinen otsikko muuttuisi, sivun nimeä ei tarvitse muuttaa. Perustetaan sivu Opasnettiin.
* Kopioidaan lehden kirjoitusohjeet ja omat ensimmäiset ajatukset sisällöstä ranskalaisin viivoin. [http://fi.opasnet.org/fi_wiki/index.php?title=Massadata_kansanterveyden_edist%C3%A4misess%C3%A4&oldid=28624]
* Hahmottele, mitkä keskeiset sisällöt haluat nostaa artikkelissa esille. Suunnittele näistä taulukoita tai kuvia. Listaa mieleen tulevia tietolähteitä. [http://fi.opasnet.org/fi_wiki/index.php?title=Massadata_kansanterveyden_edist%C3%A4misess%C3%A4&oldid=29083]
* Aiheen hahmotuttua tee kirjallisuushaku tärkeäksi osoittautuneilla hakutermeillä. Mieti, haluatko tehdä laajan katsauksen ja käydä läpi alkuperäisjulkaisuja vai keskitytkö tiivistämään review-artikkelien sisältöä. Listaa ylös muutamalla lauseella jokaisen relevantin artikkelin pääasiallinen pointti artikkelisi kannalta.[http://fi.opasnet.org/fi_wiki/index.php?title=Massadata_kansanterveyden_edist%C3%A4misess%C3%A4&oldid=29087] [http://fi.opasnet.org/fi_wiki/index.php?title=Massadata_kansanterveyden_edist%C3%A4misess%C3%A4&diff=29095&oldid=29094]
* Muista, että voit delegoida osan työstä muille, esimerkiksi kuvien teknisen piirtämisen tai muokkaamisen [http://fi.opasnet.org/fi/Tiedosto:Workflow_of_network_analysis.png], tai viitteiden muokkaamisen sopivaan muotoon [http://fi.opasnet.org/fi_wiki/index.php?title=Massadata_kansanterveyden_edist%C3%A4misess%C3%A4&diff=29093&oldid=29091]. Verkkotyötilassa se on helppoa.
* Voit myös kopioida tilapäisesti raakatekstiä muualta. Jos ajatukselle löytyy artikkelista sopiva kohta, tiivistä, muokkaa ja käännä teksti asiayhteyteen sopivaksi. Jos tekstiä ei tarvita, poista se sotkemasta luettavuutta. [http://fi.opasnet.org/fi_wiki/index.php?title=Massadata_kansanterveyden_edist%C3%A4misess%C3%A4&diff=29120&oldid=29109]
* On syytä luetuttaa käsikirjoitusta niillä, jotka tuntevat aihepiiriä. Luultavasti he eivät kuitenkaan käytä verkkotyötilaa, joten kommentointi tapahtunee helpoimmin sähköpostilla, vaikka käsikirjoituksen jakaminen tietysti on kätevintä yksinkertaisesti antamalla linkki käsikirjoitukseen.[http://fi.opasnet.org/fi_wiki/index.php?title=Massadata_kansanterveyden_edist%C3%A4misess%C3%A4&diff=29178&oldid=29177]
* Raakatekstiä pitää usein tiivistää ja muokata rankastikin, jotta artikkeliin tulee oma sanoma eikä se vain toistele ajatuksia, jotka ovat olleet viitteissä.[http://fi.opasnet.org/fi_wiki/index.php?title=Massadata_kansanterveyden_edist%C3%A4misess%C3%A4&diff=29144&oldid=29131]
* Tarpeettomat viitteet kannattaa siirtää käsikirjoituksen ulkopuolelle mutta niin, että tarvittaessa vielä pystyt palaamaan niihin. Ne toimivat tausta-aineistona siitä, miten kirjoitusprosessi on edennyt. [http://fi.opasnet.org/fi_wiki/index.php?title=Massadata_kansanterveyden_edist%C3%A4misess%C3%A4&diff=29180&oldid=29178]
* Korjaa käsikirjoitus refereiden ehdotusten mukaisesti. [http://fi.opasnet.org/fi_wiki/index.php?title=Massadata_kansanterveyden_edist%C3%A4misess%C3%A4&oldid=30237] Kommentit ja vastauksesi niihin on hyvä sijoittaa keskustelusivulle.[http://fi.opasnet.org/fi/Keskustelu:Massadata_kansanterveyden_edist%C3%A4misess%C3%A4]
* Tarkista, että lehden tekijänoikeuskäytäntö sallii sinun pitää käsikirjoituksesi jaettuna verkkotyötilassa. Yleensä tämä on sallittua esimerkiksi opetustarkoituksessa.
 
== Perustelut ==
 
:''Ohjeiden perustana on käytetty niitä havaintoja, kokemuksia ja oppeja, joita syntyi kirjoitettaessa artikkelia Massadata kansanterveyden edistämisessä Duodecim-lehden juhlanumeroon 2015.


Kirjoitusohjeita (ks. myös N:\YMAL\Publications\In_progress\Tuomisto_Duodecim):
Kirjoitusohjeita (ks. myös N:\YMAL\Publications\In_progress\Tuomisto_Duodecim):
Rivi 13: Rivi 36:
=== Tiivistelmä ===
=== Tiivistelmä ===


* ''Tiivistelmä artikkelin sisällöstä suomeksi ja englanniksi. Maksimipituus 100 sanaa.
Massadata eli suuraineistot tai erittäin suuret tietoaineistot yleistyvät kiihtyvää tahtia. Niitä tulee myös entistä enemmän vapaasti käytettäviksi. Artikkelissa esitellään yleispiirteisesti massadatan käyttöä molekyylibiologiassa ja toisaalta kansanterveydessä sekä näihin aihepiireihin liittyviä tietoaineistoja erityisesti suomalaisesta näkökulmasta. Suomessa on olemassa useita tärkeitä tietoaineistoja, joita ei vielä hyödynnetä tehokkaasti. Massadata on jo tähän mennessä tuottanut merkittäviä hyötyjä erityisesti solutason ilmiöiden ymmärtämisessä, mutta kansanterveydellinen ja yksilön valintoihin liittyvät hyödyt alkavat vasta tulla esiin. Tutkimuksen toimintamallit saattavat massadatan ja avoimen datan myötä muuttua radikaalisti, jos artikkelien sijasta aletaan keskittyä tietokiteiden eli joukkokirjoitettujen tutkimusvastausten tuottamiseen. Myös kliinikon rooli on on muuttumassa valmentajamaisemmaksi.
 
Big data (very large data sets) are increasing in an accelerating speed. More and more data is also becoming freely available. This article is an overview of this progress and data sources related to molecular biology and public health especially from the Finnish perspective. Finland has several excellent data sources that are currently not used effectively. Big data has already produced major benefits especially in molecular biology, but benefits in public health and individual choice are only now being materialised. The paradigm in research may change dramatically, if the effort switches from article production to the production of knowledge crystals, i.e. collaborative data-based answers to research questions. Also the role of a clinician is becoming more like that of a coach.


=== Johdanto ===
=== Johdanto ===


Massadata eli suuraineistot tai erittäin isot aineistot (big data) ovat yleistyneet viime vuosina nopeasti, ja tahti näyttää kiihtyvän teknologian myötä esimerkiksi molekyylibiologiassa. Kuitenkin massadatan hyödyntäminen on edennyt kliinisen lääketieteen alueella hitaammin kuin monilla muilla alueilla
<ref name="dilsizian">Dilsizian SE, Siegel EL. Artificial Intelligence in Medicine and Cardiac Imaging: Harnessing Big Data and Advanced Computing to Provide Personalized Medical Diagnosis and Treatment. Curr Cardiol Rep 2014 (16)441 DOI 10.1007/s11886-013-0441-8</ref>
<ref name="choudhury"/>.
Siksi onkin tarpeen luoda katsaus siihen, mitä massadata on, mihin sitä nykyään käytetään ja mitä haasteita ja mahdollisuuksia siihen liittyy. Artikkelissa tarkastellaan joitakin kiinnostavia ja ajankohtaisia piirteitä erityisesti kansanterveyden, lääketieteen ja yhteiskunnallisen päätöksenteon kannalta eikä niinkään pyritä koko aihepiirin kattamiseen.


 
Aluksi esitellään joitakin keskeisiä termejä (taulukko 1) ja nykyään käytössä olevia tietokantoja ja aineistoja erityisesti Suomen näkökulmasta. Sen jälkeen tarkastellaan menetelmiä ja käytäntöjä. Lopuksi pohditaan hyötyjä, haasteita ja mahdollisuuksia.
<ref name="chute">Christopher G. Chute, MD, DrPH, Mollie Ullman-Cullere, MS, MSE, Grant M. Wood, BS, Simon M. Lin, MD, Min He, PhD, and Jyotishman Pathak, PhD; Some experiences and opportunities for big data in translational research. doi:10.1038/gim.2013.121.</ref>
 
<ref name="cunningham">John P Cunningham & Byron M Yu; Dimensionality reduction for large-scale neural recordings. [http://www.nature.com/neuro/journal/v17/n11/full/nn.3776.html doi:10.1038/nn.3776]</ref>
 
<ref name="dai">Lin Dai, Xin Gao, Yan Guo, Jingfa Xiao and Zhang Zhang; [http://www.biologydirect.com/content/7/1/43 Bioinformatics clouds for big data manipulation]</ref>
 
<ref name="editorial">Focus on big data. Nature Neuroscience editorial, Volume 17, number 11, November 2014</ref>
 
 
<ref name="greene">Casey S. Greene, Jie Tan, Matthew Ung, Jason H. Moore and Chao Cheng; Big Data Bioinformatics. J. Cell. Physiol. 229: 1896–1900, 2014. DOI: 10.1002/jcp.24662</ref>
 
 
 
<ref name="maze">Ian Maze, Li Shen, Bin Zhang, Benjamin A Garcia, Ningyi Shao, Amanda Mitchell, HaoSheng Sun, Schahram Akbarian, C David Allis & Eric J Nestler; Analytical tools and current challenges in the modern era of neuroepigenomics. Nature Neuroscience, Volume 17, number 11, November 2014, doi:10.1038/nn.3829</ref>
 
<ref name="merelli">Ivan Merelli, Horacio Pérez-Sánchez, Sandra Gesing, and Daniele D’Agostino; [http://www.hindawi.com/journals/bmri/2014/134023/ Managing, Analysing, and Integrating Big Data in Medical Bioinformatics: Open Problems and Future Perspectives], BioMed Research International. Volume 2014, Article ID 134023</ref>
 
 
<ref name="sejnowskib>Terrence J Sejnowski, Patricia S Churchland & J Anthony Movshon; Putting big data to good use in neuroscience. Nature Neuroscience, Volume 17, number 11, November 2014, doi:10.1038/nn.3829</ref>
 
 
 
 
 
Artikkelissa esitetään katsaus joihinkin massadatan keskeisiin ja ajankohtaisiin piirteisiin erityisesti kansanterveyden, lääketieteen ja yhteiskunnallisen päätöksenteon kannalta. Katsauksessa ei siis pyritä tämän laajan aihepiirin kattamiseen vaan kiinnostavien kysymysten esiinnostamiseen.
 
Massadatan käyttö on edennyt lääketieteen alueella hitaammin kuin monilla muilla alueilla (mm. Dilsizian)
<ref name="dilsizian">Steven E. Dilsizian & Eliot L. Siegel; Artificial Intelligence in Medicine and Cardiac Imaging: Harnessing Big Data and Advanced Computing to Provide Personalized Medical Diagnosis and Treatment. DOI 10.1007/s11886-013-0441-8</ref>
 
 
 
Neuromittausdatan avaaminen on ollut hidasta Choudbury
 
 
* Mitä on big data eli massadata?
* Muita olennaisia termejä (taulukko 1)


{| {{prettytable}}
{| {{prettytable}}
|+'''Taulukko 1. Tärkeitä massadataan liittyviä termejä.
|+'''Taulukko 1. Uusia tärkeitä datan muotoja.
! Termi !! Selite
! Termi !! Selite
|----
|----
| Massadata
| Massadata eli suuraineistot
| Englanniksi big data. Suuret data-aineistot, joiden tilastollinen analyysi ei tahdo onnistua tavanomaisin menetelmin.
| "Big data". Suuret data-aineistot, joiden tilastollinen analyysi ei tahdo onnistua tavanomaisin menetelmin.
|----
|----
| Avoin data
| Avoin data
| Englanniksi open data tai open linked data. Tietoa, joka on saatavissa koneluettavassa muodossa maksutta ja niin, että tekijänoikeudet eivät rajoita sen jatkokäyttöä.
| "Open data" tai "open linked data". Tietoa, joka on saatavissa koneluettavassa muodossa maksutta ja niin, että tekijänoikeudet eivät rajoita sen jatkokäyttöä.
|----
|----
| Omadata
| Omadata
| Englanniksi MyData. Henkilöä itseään koskeva data, jonka käytöstä hän voi itse päättää. Tällä hetkellä ollaan rakentamassa käytäntöjä, joiden avulla henkilö voi antaa tai evätä tietojensa käyttöluvan haluamilleen tahoille omadataoperaattorinsa välityksellä riippumatta siitä, missä ja kenen järjestelmissä tieto sijaitsee. Henkilö voi myös lukea ja joissain tapauksissa korjata tai täydentää omadataansa.
| "MyData". Henkilöä itseään koskeva data, jonka käytöstä hän voi itse päättää. Tällä hetkellä ollaan rakentamassa käytäntöjä, joiden avulla henkilö voi antaa tai evätä tietojensa käyttöluvan haluamilleen tahoille omadataoperaattorinsa välityksellä riippumatta siitä, missä ja kenen järjestelmissä tieto sijaitsee. Henkilö voi myös lukea ja joissain tapauksissa korjata tai täydentää omadataansa.
|----
|----
| Keinodata
| Keinodata
| Avoin data, joka ulkomuodoltaan ja tilastollisilta ominaisuuksiltaan muistuttaa jotakin arkaluontoista dataa kuten potilasaineistoa ilman, että siitä voisi kuitenkaan päätellä kenenkään todellisen henkilön tietoja. Keinodataa voi käyttää tutkimuskysymysten ja tilastoanalyysien muotoilemiseen ja alustavaan testaamiseen, ennen kuin analyysi ajetaan vastaavalla todellisella datalla.
| "Synthetic data". Avoin data, joka ulkomuodoltaan ja tilastollisilta ominaisuuksiltaan muistuttaa jotakin arkaluontoista dataa kuten potilasaineistoa ilman, että siitä voisi kuitenkaan päätellä kenenkään todellisen henkilön tietoja. Keinodataa voi käyttää tutkimuskysymysten ja tilastoanalyysien muotoilemiseen ja alustavaan testaamiseen, ennen kuin analyysi ajetaan vastaavalla todellisella datalla.<ref name="karvanen"/>
|----
|----
| Tietokide eli avoin muuttuja
| Tietokide
| Englanniksi open variable tai info crystal. Koneluettavassa muodossa oleva vastaus johonkin täsmälliseen tutkimuskysymykseen. Tietokide on joukkoistettu, netissä jatkuvasti päivittyvä ja kiteytyvä kuvaus kaikesta siitä tiedosta, joka kyseisestä kysymyksestä on ehditty kerätä. Tietokide sisältää myös ymmärrettävät ja uskottavat perustelut sille, miten havaintodata ja muu tieteellinen tieto on jalostettu vastaukseksi kysymykseen. Tyypillisesti avoimen muuttujan vastaus on ehdollinen todennäköisyysjakauma ja sisältää tietoa myös niistä kausaalisista ja muista tekijöistä, jotka voivat vaikuttaa vastaukseen.
| "Knowledge crystals". Koneluettavassa muodossa oleva vastaus johonkin täsmälliseen tutkimuskysymykseen. Tietokide on joukkoistettu, netissä jatkuvasti päivittyvä ja kiteytyvä kuvaus kaikesta siihen asti kerätystä havaintodatasta ja sen tulkinnasta. Se sisältää ymmärrettävät ja uskottavat perustelut sille, miten vastaus on johdettu datasta.<ref name="tuomistob">Tuomisto JT, Pohjola M, Rintala T, Happonen E. Shared information objects in policy support. Opasnet 2015. [http://en.opasnet.org/w/Shared_information_objects_in_policy_support]</ref>
|----
|----
| Datan pitkä häntä (taustadata)
| Taustadata (datan pitkä häntä)
| Englanniksi long-tail data. Tarkoittaa laajaa joukkoa pieniä aineistoja, jotka kokonsa tai merkityksensä puolesta jäävät myös helposti julkaisematta. Näitä ovat esimerkiksi erilliset tietokannat, nollatulokset ja eläinkoepäiväkirjat. Ferguson nn3838 LUE!
| "Long-tail data". Tarkoittaa laajaa joukkoa pieniä aineistoja, jotka kokonsa tai merkityksensä puolesta jäävät myös helposti julkaisematta. Näitä ovat esimerkiksi erilliset tietokannat, nollatulokset ja eläinkoepäiväkirjat. <ref name="editorial"/>
|----
| Bioinformatiikka
| Monitieteinen ala, jossa laskennallisin menetelmin tutkitaan biologisia tietoaineistoja...
|}
|}


=== Lääketieteeseen liittyviä massadata-aineistoja ===
=== Molekyylibiologista massadataa ===
 
* Haasteita ja mahdollisuuksia kansanterveyden tutkimuksessa.
* Suomalaisten tietoaineistojen mahdollisuudet.
* Henkilötietojen suojaamisen haasteet.
** Keinodata eli artificial data, katso [[:op_en:ReplicaX]].
* Omadata eli MyData
 
Terveysdatan kannalta tärkeitä massadatan tietokantoja.
* World map, KAMPO, JAMU, Tea Pot (Altaf-Ul-Amin et al)
<ref name="altaf-ul-amin">Md. Altaf-Ul-Amin, Farit Mochamad Afendi, Samuel Kuria Kiboi, and Shigehiko Kanaya; [http://www.hindawi.com/journals/bmri/2014/428570/ Systems Biology in the Context of Big Data and Networks]</ref>
 
Zou: Erityyppiset tietokannat. Esitellään eri tyypit ja ehkä mainitaan esimerkkejä mutta muuten viitataan artikkeliin.
DNA, RNA; proteiini, ...
<ref name="zou">Dong Zou, Lina Ma, Jun Yu, Zhang Zhang; [http://dx.doi.org/10.1016/j.gpb.2015.01.006 Biological Databases for Human Research.] Genomics Proteomics Bioinformatics 13 (2015) 55–63</ref>
 
 
Large clinical database research studies are becoming ubiquitous.
This is to be welcomed, with potential benefits
including representativeness, data from large numbers of
patients, identification of systemic problems, and precision
of estimation in statistical analyses. They are particularly
well suited to summarizing a population, and looking at
associations and variations between groups or over time.
However, the limitations of such data sources must not be
overlooked, and each research study needs to be considered
carefully in its own right and the validity of the data
used for this purpose. Large numbers should not preclude
or supersede assessment of the relevance, fitness for purpose
and reliability of the data collected, and the statistical
methodology adopted.
<ref name="cook">J. A. Cook and G. S. Collins; The rise of big clinical databases. DOI: 10.1002/bjs.9723</ref>
 
Cook:


Table 1 Types of clinical database and examples
Lääketieteen ja terveyden kannalta tärkeitä massadata-aineistoja on maailmalla lukuisia, ja tässä voidaan vain raapaista pintaa ja esittää joitakin esimerkkejä. Zou ym. on hyvä katsaus molekyylibiologisiin tietokantoihin.
<ref name="zou">Zou D, Ma L, Yu J, Zhang Z. Biological Databases for Human Research. Genomics Proteomics Bioinformatics 2015 (13): 55–63 [http://dx.doi.org/10.1016/j.gpb.2015.01.006]</ref>
DNA- ja genomitietokannat sisältävät tietoa lukuisista lajeista ja toimivat esim. genomireferenssinä, yksilövaihtelun kuvaajina tai mikrobiomikantana. RNA-tietokannat sisältävät tietoa proteiinia koodaavista ja muista RNA-molekyyleistä. Proteiinitietokannat sisältävät tietoa proteiinisekvensseistä ja myös kolmiulotteisesta rakenteesta. Ekspressiotietokannat kuvaavat eri geenien ekspressiotasoja eri kudoksissa normaalitilanteessa tai erilaisissa olosuhteissa ja saattavat perustua niin RNA- kuin proteiinimittauksiinkin. Reittitietokannat (pathway databases) sisältävät tietoa metabolia-, signaalivälitys- ja säätelyreiteistä elimistössä. Sairaustietokannat kuvaavat erilaisia sairauksia ja niiden hoitoja, erityisesti syövän osalta.


Administrative databases
Nämä tietokannat eivät ole ainoastaan datavarastoja alan tutkijoille, vaan on kehittynyt lukuisia menetelmiä ja lähestymistapoja rakentaa kokonaiskuvauksia massadatan pohjalta. Näitä voidaan kutsua nimellä systeemibiologia, jossa pyritään rakentamaan eri hierarkiatasoilla kuvauksia asioiden yhteyksistä aina molekyyli- ja solutasolle.
<ref name="altaf-ul-amin">Altaf-Ul-Amin, Afendi FM, Kiboi SK, Kanaya S. Systems Biology in the Context of Big Data and Networks. Biomed Research International 2014 [http://www.hindawi.com/journals/bmri/2014/428570/]</ref>


Routine data collected for the purpose of administering healthcare. The data can be used to monitor activity and
[[File:Workflow of network analysis.png|thumb|600px|Kuva 1. Massadataa hyödyntävä tutkimussykli, jossa tarkastellaan esimerkiksi geenien ilmenemiseroja sairailla ja terveillä. Geeniverkko tarkoittaa geenien välisten korrelaatioiden ja syysuhteiden kuvaamista verkostona, joka tuotetaan mittausdatasta. Kuva muokattu artikkelista <ref name="dong">Xiaoxi Dong, Anatoly Yambartsev, Stephen A Ramsey, Lina D Thomas, Natalia Shulzhenko, and Andrey Morgun. Reverse enGENEering of Regulatory Networks from Big Data: A Roadmap for Biologists. Bioinform Biol Insights. 2015; 9: 61–74. doi:10.4137/BBI.S12467</ref>.]]
support local service planning as well as for some form of clinical quality assessment. An important distinction is
Geenitutkimus on yksi varhaisista massadatan tuottajista biolääketieteen alueella. Siksi on hyödyllistä tarkastella esimerkkinä tutkimussykliä, jossa erilaiset lähestymistavat vuorottelevat ja tukevat toisiaan (Kuva 1.). Sykli alkaa tuottamalla suuri määrä primääridataa esimerkiksi geeneistä, niiden ilmentymisestä tai proteiinien määristä kudoksessa. Nämä "omics"-tekniikat ovat lisääntyneet ja kehittyneet valtavasti viime vuosien aikana. Tarkempaan tarkasteluun otetaan ilmiöt, jotka eroavat kiinnostavien ryhmien välillä kuten sairaiden ja terveiden tai altistuneiden ja altistumattomien.
between where the data are being collected primarily for clinical management and process monitoring purposes,
<ref name="bolouri">Bolouri H. Modeling genomic regulatory networks with big data. Cell Press 2014 (30)5: 182-191 [http://www.cell.com/trends/genetics/abstract/S0168-9525%2814%2900030-4?_returnURL=http%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0168952514000304%3Fshowall%3Dtrue]</ref>
and where they are used for health insurance reimbursement. Only limited patient characteristics (e.g. age, sex,
postcode and presentation) along with diagnosis and procedure information are typically recorded


Clinical management database example: The Hospital Episode Statistics (HES)12 database is an administrative
Tämän jälkeen löytyneitä eroja ja niihin liittyviä geenejä tutkitaan korrelaatioanalyysillä ja haetaan esimerkiksi osittaiskorrelaatioita. Näiden avulla voidaan edelleen rakentaa syy-seurausverkosto, joka kuvaa kiinnostavien ilmiöiden välisiä suhteita. Verkostoa voidaan käyttää tilanteen tarkasteluun ja hypoteesien luomiseen. Lopulta voidaan suunnitella uusia koeasetelmia hypoteesien testaamiseksi ja tuottaa uutta dataa.
database of hospital admission, outpatient appointments, and accident and emergency attendances at National
<ref name="dong"/>
Health Service hospitals in England. Data collection ends once the patient has completed the hospital episode
(e.g. discharged from hospital)


Health insurance reimbursement claims database example: The Medicare Provider Analysis and Review file
Uuden sukupolven sekvensointimenetelmät (next generation sequencing NGS, near-whole genome sequencing) ovat tehneet edellä kuvatut tutkimussyklit mahdollisiksi ja viime aikoina vieläpä lisänneet selvästi niiden tehoa. Tämä on muuttanut biologian tutkimuksen perustoimintatapoja. Nykyään on käytössä useita uusia menetelmiä lähes koko genomin tutkimiseen, mukaan lukien sen DNA-muunnokset, histonimuunnokset, transkriptiotekijöiden sitoutumisen, kromatiinin kolmiulotteiset vuorovaikutukset, RNA-transkription ja monia muita. Lisäksi nämä menetelmät paranevat jatkuvasti.
(MedPAR)13 is an administrative database that contains data on Medicare beneficiaries who receive services at
<ref name="editorial"/>
inpatient facilities in the USA. Each Medicare beneficiary has a unique identification number


Clinical databases
Erittäin kiinnostavia ovat myös uudet menetelmät, joilla on opittu yhdistämään kattava genomikartoitus ja vertailemaan tietoa geenien alleelien esiintymisestä geeni-, RNA- ja proteiinitasolla. Näiden alleelien ja niiden proteiinituotteiden suhteita voidaan tutkia, ja lisäksi voidaan tarkastella, onko translaatiotasolla vaihtelua splicingissa eli introni-eksoniliitoksissa. On siis mahdollista saada hyvin kattava kuva solutason säätelystä eri vaiheissa ja lukuisten geenien ja proteiinien osalta samanaikaisesti.
<ref name="editorial"/>


These include databases in which the data have been collected specifically to assess a particular clinical outcome.
Verkossa toimivat pilvipalvelut ovat myös tuoneet uudenlaisen näkökulman massadataan. Tietoaineistot ja analyysimenetelmät voidaan irrottaa niiden vanhoista fyysistä puitteistaan ja siirtää palveluiksi pilvipalvelimille. Niinpä on alettu ajatella palveluina sellaisetkin asiat kuin data (data as a service, DaaS), analytiikka (AaaS), ohjelmistot (SaaS) ja jopa infrastruktuuri (IaaS).
Eligibility may be disease-based or procedure/device-based. In contrast to administrative data, important
<ref name="dai">Dai L, Gao X, Guo Y, Xiao J, Zhang Z. Bioinformatics clouds for big data manipulation. Biology Direct 2013 (7)43 [http://www.biologydirect.com/content/7/1/43]</ref>
relevant clinical factors are collected, and also a wider range of outcomes and information on co-morbidities
Suomessa opetus- ja kulttuuriministeriön ylläpitämä CSC tarjoaa monia tällaisia palveluja.


Disease-based clinical database example: The Swedish Colon Cancer Registry2, set up in 2007, collects data on all
=== Kliinistä ja kansanterveydellistä massadataa ===
patients diagnosed with adenocarcinoma of the colon in Sweden. The primary aim of this registry is to monitor
clinical quality. Data collected include patient demographics and diagnosis, preoperative management, surgical
procedure, pathology report and outcomes.
 
Treatment-based clinical database example: The American College of Surgeons National Surgical Quality
Improvement Program (ACS NSQIP) database collects data on patients undergoing major surgery at a
participating institution; these are mostly US Department of Veteran Affairs hospitals, although there are some
private institutions and hospitals in other countries. The data collection was set up specifically to enable
risk-adjusted clinical outcome to be calculated. Data are collected on a sample of eligible patients for each
institution, and include patient demographics, preoperative medical history, intraoperative data, clinical findings
(e.g. postoperative diagnosis) and laboratory investigations, along with postdischarge outcome data
(complications, further procedures and mortality) for 30 days after surgery


Myös kliininen ja kansanterveydellinen massadata on nopeasti yleistynyt. Hallinnollisiin tietokantoihin kerätään terveydenhuollon seurantaan ja ohjaukseen liittyvää tietoa, ja sitä voidaan myös joskus käyttää kliiniseen laadunvarmistukseen. Tyypillisesti potilastiedot ovat näissä niukat, rajoittuen esimerkiksi sukupuoleen, ikäryhmään ja asuinkuntaan. Kliiniset tietokannat sisältävät tarkempaa tietoa potilaiden sairauksista ja toimenpiteistä; näitä on Suomessa paremmin ja kattavammin kuin useimmissa muissa maissa (esim. Kanta, katso taulukko 2). Myös sairauslähtöiset tietokannat (esim. syöpärekisteri) ovat Suomessa laadukkaita. Hoitolähtöisiä tietokantoja kerätään mm. monien laajojen kliinisten tutkimusten yhteydessä.


{| {{prettytable}}
{| {{prettytable}}
|+'''Taulukko 2. Suomalaisia massadatan esimerkkejä.
|+'''Taulukko 2. Suomalaista kansanterveydelllisesti hyödyllistä massadataa.
! Datalähde
! Datalähde !! Kuvaus !! Ylläpitäjä ja linkki
! Kuvaus
! Ylläpito
|----
|----
| Kanta
| Kanta  
| Kansalaisen terveysarkisto.
| Kansallinen terveysarkisto on palvelu, jonka kautta voi käyttää sähköistä reseptiä, lääketietokantaa, potilastiedon arkistoa ja tiedonhallintopalvelua. Palvelun tietorakenne on lupaava, ja sisältö lisääntyy nopeasti. Jos datan laatu saadaan hyväksi, muodostuu Suomen tärkeimmäksi terveysalan massadataksi. Omakanta on kansalaisten palvelu, jonka avulla voi katsoa omia sähköisiä resepti- ja terveystietojaan internetistä.  
| THL?
| THL, STM, Kela, Valvira, VRK [http://www.kanta.fi]
|----
| Hilmo<ref name="hilmo">Hilmo-tietokanta. TÄHÄN URL</ref>
| Hoitoilmoitusrekisteri sairaaloissa tehdyistä diagnooseista ja toimenpiteistä.
| THL
|----
| Avohilmo
| Avoterveydenhuollon hoitoilmoitusrekisteri tehdyistä diagnooseista ja toimenpiteistä.
| THL
|----
|----
| Syöpärekisteri
| Suomen Syöpärekisteri ylläpitää tietokantaa kaikista Suomessa vuodesta 1953 alkaen todetuista syöpätapauksista. Se on myös syöpätautien tilastollinen ja epidemiologinen tutkimuslaitos, joka tekee tiivistä kotimaista ja kansainvälistä yhteistyötä.
| Suomen Syöpäyhdistys, THL [http://www.cancer.fi/syoparekisteri/]
|---
| Rokotusrekisteri
| Rokotusrekisteri
| Tietokanta rokotuksista ja niiden raportoiduista haittavaikutuksista.
| Terveyden ja hyvinvoinnin laitos ylläpitää Suomessa valtakunnallista rokotusrekisteriä. Rokotustiedot kerätään suoraan potilastietojärjestelmistä. Rokotusrekisterin avulla THL arvioi kansallisen rokotusohjelman kattavuutta, turvallisuutta ja vaikuttavuutta.
| THL
| THL [https://www.thl.fi/rokotusrekisteri]
| Yhti
| Ympäristöterveydenhuollon tietokanta kuntien ylläpitämistä tiedoista koottuna valtakunnalliseksi aineistoksi.
|
|----
|----
| Kuti
| Biopankit
| Elintarviketurvallisuustietokanta
| Biopankit sisältävät biologisia näytteitä, joita on kerätty erilaisten tutkimusten tai potilaiden hoidon yhteydessä. Biopankit vastaavat näytteiden säilytyksestä ja tarjoamisesta uusien tutkimusten käyttöön.
| Evira
| [http://www.bbmri.fi/fi/finnish-biobanks/]
|----
|----
| Hertta ja Oiva
| Hilmo ja AvoHILMO
| Ympäristötietokanta
| Sairaaloiden hoitoilmoitusrekisteri Hilmo ja perusterveydenhuollon avohoidon AvoHILMO sisältävät tietoa  sairaaloissa tehdyistä diagnooseista ja toimenpiteistä, perusterveydenhuollon laitoshoidosta, sosiaalihuollon laitos- ja asumispalveluista, kotihoidosta sekä avohoidon käyntien syistä ja hoitotapahtumista.
| SYKE
| THL [https://www.thl.fi/hilmo] [https://www.thl.fi/avohilmo]
|----
|----
| Syöpärekisteri
| OIVA
|  
| OIVA on ympäristö- ja paikkatietopalvelu, joka tarjoaa ympäristöhallinnon tietojärjestelmiin tallennettua tietoa vesivaroista, pintavesien tilasta, pohjavesistä, eliölajeista, ympäristön kuormituksesta ja alueiden käytöstä sekä ympäristöön liittyviä paikkatietoaineistoja.
|  
| SYKE [https://wwwp2.ymparisto.fi/scripts/oiva.asp]
|----
|----
| Opasnet
| Opasnet
| Verkkotyötila ja tietokanta tietokiteiden tuottamiseen yhteiskunnallisen päätöksenteon tueksi. Tämän hetken aineistoa eniten liittyen ympäristöterveyteen (esim. ilmansaasteet, kaivosten riskit, juomavesi)
| Verkkotyötila ja tietokanta tietokiteiden tuottamiseen yhteiskunnallisen päätöksenteon tueksi. Tämän hetken aineistoa eniten liittyen ympäristöterveyteen (esim. ilmansaasteet, kaivosten riskit, juomavesi).
| THL
| THL [http://en.opasnet.org]
|----
| YHTI ja KUTI
| Ympäristöterveydenhuollon kohdetietojärjestelmä YHTI on terveydensuojelun, kuluttajaturvallisuuden ja tupakkavalvonnan yhteinen tietojärjestelmähanke. KUTI on Eviran vastuulla olevan elintarvikevalvonnan tietojärjestelmähanke. Yhdessä YHTI ja KUTI muodostavat ympäristöterveydenhuollon tietojärjestelmähankkeen.
| Valvira [http://www.valvira.fi/ymparistoterveys/ymparistoterveydenhuollon_kohdetietojarjestelma_yhti]
|}
|}


;Table 1 Cloud resources in bioinformatics (Dai et al)
=== Menetelmiä ja käytäntöjä ===
Resource Description & availability
Data as a Service (DaaS):
AWS Public Datasets Cloud-based archives of GenBank, Ensembl, 1000 Genomes, Model Organism Encyclopedia of DNA Elements, Unigene,
Influenza Virus, etc.; http://aws.amazon.com/publicdatasets
Software as a Service (SaaS):
BGI Cloud
(unpublished)
Cloud-based implementations of various genomic analysis applications; http://cloud.genomics.cn
CloudAligner [16] Fast and full-featured MapReduce-based tool for sequence mapping; http://cloudaligner.sourceforge.net
CloudBLAST [19] A cloud-based implementation of NCBI BLAST; http://ammatsun.acis.ufl.edu/amwiki/index.php/CloudBLAST_Project
CloudBurst [17] Highly sensitive short read mapping with MapReduce; http://cloudburst-bio.sourceforge.net
Contrail (unpublished) Cloud-based de novo assembly of large genomes; http://contrail-bio.sourceforge.net
Crossbow [18] Read Mapping and SNP calling using cloud computing; http://bowtie-bio.sf.net/crossbow
EasyGenomics
(unpublished)
Cloud-based NGS pipelines for whole genome resequencing, exome resequencing, RNA-Seq, small RNA and de novo
assembly; http://www.easygenomics.org
eCEO [26] Cloud-based identification of large-scale epistatic interactions in genome-wide association study (GWAS); http://www.comp.
nus.edu.sg/~wangzk/eCEO.html
FX [20] RNA-Seq analysis tool; http://fx.gmi.ac.kr
Gaea (unpublished) Cloud-based genome re-sequencing assembly; http://bgiamericas.com/data-analysis/cloud-computing
Hecate (unpublished) Cloud-based de novo assembly; http://bgiamericas.com/data-analysis/cloud-computing
Jnomics (unpublished) Cloud-scale sequence analysis suite based on Apache Hadoop; http://sourceforge.net/apps/mediawiki/jnomics
Myrna [21] Differential gene expression tool for RNA-Seq; http://bowtie-bio.sourceforge.net/myrna
PeakRanger [24] Cloud-enabled peak caller for ChIP-seq data; http://www.modencode.org/software/ranger
RSD [23] Reciprocal smallest distance algorithm for ortholog detection using Amazon's Elastic Computing Cloud; http://roundup.hms.
harvard.edu
VAT [25] Variant annotation tool to functionally annotate variants from multiple personal genomes at the transcript level; http://vat.
gersteinlab.org
YunBe [22] Pathway-based or gene set analysis of expression data; http://tinyurl.com/yunbedownload
Platform as a Service (PaaS):
Eoulsan [27] Cloud-based platform for high throughput sequencing analyses; http://transcriptome.ens.fr/eoulsan
Galaxy Cloud [28,29] Cloud-scale Galaxy for large-scale data analysis; http://galaxy.psu.edu
Infrastructure as a Service (IaaS):
Cloud BioLinux [30] A publicly accessible virtual machine for high performance bioinformatics computing using cloud platforms; http://
cloudbiolinux.org
CloVR [31] A portable virtual machine for automated sequence analysis using cloud computing; http://clovr.org
 
=== Massadatan käyttökohteita ja menetelmiä===
 
Tässä vain nostetaan joitakin esimerkkejä
 
Here, we examine three important motivations for population studies: single-trial hypotheses requiring statistical power, hypotheses of population response structure and exploratory analyses of large data sets. Methods to reduce dimensionality in data. Cunningham
 
Cook: Common uses of the data include: providing population characteristics; identifying risk factors
and developing prediction (diagnostic or prognostic) models; observational studies comparing different
interventions; exploring variation between healthcare providers; and as a supplementary source of data
for another study. The main advantages of using such big data sources are their comprehensive nature,
the relatively large number of patients they comprise, and the ability to compare healthcare providers.
The main challenges are demonstrating data quality and confidently applying a causal interpretation to
the study findings.
 
 
 
Dai: Illustration of bioinformatics cloud.
 
Data as a Service
* Public datasets
* Biological databases
 
Software as a Service
* Tools
* Pipelines
 
Platforms as a Service
* Analysis platforms
* Programming environments
 
Infrasctructures as a Service
* Virtual machines
* Virtualised resources
 
 
Bayes-verkot Yoo LUE!
<ref name="yoo">Changwon Yoo, Luis Ramirez, Juan Liuzzi; [http://dx.doi.org/10.5213/inj.2014.18.2.50 Big Data Analysis Using Modern Statistical and Machine Learning Methods in Medicine]. http://dx.doi.org/10.5213/inj.2014.18.2.50</ref>
 
Gene regulatory networks Bolouri; metodipaperi
<ref name="bolouri">Hamid Bolouri; [http://www.cell.com/trends/genetics/abstract/S0168-9525%2814%2900030-4?_returnURL=http%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0168952514000304%3Fshowall%3Dtrue Modeling genomic regulatory networks with big data]</ref>
 
Network analysis Omics data -> Find DEGs -> Calculate partial correlation between DEGs -> Network building -> Network interrogation -> Design new experiments to test hypotheses. (Dong et al)
[[File:Workflow of network analysis.png|thumb|400px|{{defend|# |Tämä kuva pitäisi suomentaa ja hakea kaaviossa olevia kuvituskuvat suoraan artikkelista Dong et al mahdollisimman hyvällä resoluutiolla. Kuvia SAA KÄYTTÄÄ koska ne on julkaistu CC-BY-NC. Tämän voisi rakentaa Google driveen jotta nuolet ja tekstit saadaan vektorimuodossa ja kuvituskuvat rasterina samaan kuvaan.|--[[Käyttäjä:Jouni|Jouni Tuomisto]] ([[Keskustelu käyttäjästä:Jouni|keskustelu]]) 30. toukokuuta 2015 kello 08.18 (UTC)}}]]
 
Next generation sequencing. In less than a decade, NGS has changed the way and scale at which biology is studied. Many new tools are now available to characterize cells at the genome-wide level, including their DNA modifications, histone modifications, transcription factor binding, chromatin 3D interactions, accessible chromatin, the RNA transcriptome and many more. More and more new assays are becoming available, and NGS itself is rapidly evolving.
<ref name="shin">Jaehoon Shin, Guo-li Ming & Hongjun Song; Decoding neural transcriptomes and epigenomes via high-throughput sequencing. Nature Neuroscience, Volume 17, number 11, November 2014, doi:10.1038/nn.3829</ref>
 
 
Yhdennetyt genomiset, transkriptomiset ja proteomiset analyysimenetelmät. Kitchen:
Box 1 An ideal integrated multi-omic analysis
Such an analysis would exploit information garnered at each stage of the gene-expression process to improve the overall utility of results obtained from RNA and protein profiling (Fig. 1). Information regarding genomic variants in a given sample or individual can be used to
create a personalized genome for that individual. These homozygous and heterozygous variants are incorporated in transcriptomic analysis
by RNA-seq and enable the detection of allelic imbalance (ASE),
in addition to information relating to alternative splicing and RNA
editing (RDDs). This cascade of information in a given sample aids in the
analysis of mass-spectrometry spectra, in which peptides may be
identified that support or refute the presence of nonsynonymous
alternative-splicing, RDD and ASE events. From the relative abundances of these peptides, it is possible to compare isoform abundance and allelic imbalance with the values estimated at the RNA level, allowing inferences to be made based on the proteomic data, such as the
presence or absence of a particular protein isoform.
<ref name="kitchen">Robert R Kitchen, Joel S Rozowsky, Mark B Gerstein & Angus C Nairn; Decoding neuroproteomics: integrating the genome, translatome and functional anatomy. Nature Neuroscience, Volume 17, number 11, November 2014, doi:10.1038/nn.3829</ref>
 
 
 
Datan jakamisen parhaat käytännöt: discoverable, accessible, intelligible, assessable, useable
<ref name="ferguson">Adam R Ferguson, Jessica L Nielson, Melissa H Cragin, Anita E Bandrowski & Maryann E Martone; Big data from small data: data-sharing in the ‘long tail’ of neuroscience. Nature Neuroscience, Volume 17, number 11, November 2014</ref>
Kliinisessä tutkimuksessa tunnistettuja massadaan liittyviä haasteita ovat mm. otoskoko, valintaharha, dokumentointi- ja tulkintaongelmat, puuttuvat havainnot, riippuvuusongelmat ja datanhallintaongelmat.
<ref name="wang">Weiqi Wang, PhD, Eswar Krishnan, MD, MPH; [http://www.medinform.jmir.org/2014/1/e1/ Big Data and Clinicians: A Review on the State of the Science.]</ref>
Ehkä yllättäenkin voi olla vaikea saada uskottavia tilastollisia merkitsevyyksiä, kun havaintojen lisäksi myös mitattuja attribuutteja on valtavia määriä.
 
Massadatan käsittelyn ja jalostamisen avuksi on tullut myös menetelmiä, jotka on alunperin kehitetty tavallisten aineistojen ja niiden välisten suhteiden kuvaamiseen. Näitä ovat mm. semanttiset verkot, ontologiat, aineistokuvailun viitekehykset (resource description framework, RDF) ja avoimen linkatun datan menetelmät. Lähitulevaisuudessa voi syntyä isojakin edistysaskelia, kun eri tieteenalojen tietokäytännöt leviävät uusiin käyttötarkoituksiin.
<ref name="wu">Hongyan Wu, Atsuko Yamaguchi; Semantic Web technologies for the big data in life sciences. BioScience Trends. 2014; 8(4):192-201.</ref>
 
Datan jakamisen käytännöt ja kustannukset neuropuolella
<ref name="poldrack">Russell A Poldrack & Krzysztof J Gorgolewski; Making big data open: data sharing in neuroimaging. Nature Neuroscience, Volume 17, number 11, November 2014, doi:10.1038/nn.3829</ref>
 
 
ReplicaX ja keinodata
 
=== Suomalaisia strategioita ===
 
'''Sote-tieto hyötykäyttöön


Kommentoitava evidence-based suuntausta Suomessa
''Suomalaisia strategioita massadatan edistämisessä.
 
Suomessa on parin viime vuoden aikana julkaistu massadataan liittyviä selvityksiä tai strategioita ja käynnistetty avoimen tieteen ja tutkimuksen ATT-hanke sekä avoimen tiedon ohjelma. Sosiaali- ja terveystietojen tehokas käyttö on näissä tunnistettu tärkeäksi kansanterveyttä ja myös kansantaloutta edistäväksi tekijäksi. Myös soteuudistuksessa odotetaan datanhallinnan tehostuvan ja parantavan toiminnan laatua. Strategia kohdistaa huomion tiedon keräämisestä tiedon hyödyntämiseen henkilön omassa elämässä sekä potilas- ja asiakastyössä ja tutkimuksessa. Tiedon jalostaminen, saatavuus, läpinäkyvyys, vertailukelpoisuus, ajantasaisuus ja uusiokäyttö korostuvat. Lisäksi edistetään kansalaisen mahdollisuuksia tuottaa itse tietoa omaan, terveysammattilaisten ja palveluntarjoajien käyttöön.
Etsi viite replicaXstä. Onko peräti julkaisua?
 
Massadatasta kannattaa erikseen mainita ihmisten itsensä keräämät terveys oire ja kuntoilutiedot, jotka hyvinkin poan saattavat olla hoitavan lääkärin käytettävissä. Miten niitä sitten käytettäisiin?
 
Sote-tieto hyötykäyttöön myös kuvattava
<ref name="sote">Tieto hyvinvoinnin ja uudistuvien palvelujen tukena. Sote-tieto hyötykäyttöön -strategia 2020. Sosiaali- ja terveysministeriön julkaisuja 2015. ISBN 978-952-00-3548-8
<ref name="sote">Tieto hyvinvoinnin ja uudistuvien palvelujen tukena. Sote-tieto hyötykäyttöön -strategia 2020. Sosiaali- ja terveysministeriön julkaisuja 2015. ISBN 978-952-00-3548-8
[http://urn.fi/URN:ISBN:978-952-00-3548-8]</ref>
[http://urn.fi/URN:ISBN:978-952-00-3548-8]</ref>


Samoin avoiment tiedon ovjelma ja avoimen tieteen ja tutkimuksen strategia sekä ATT
Kanta- ja muita järjestelmiä kehitetään tuottamaan kansallista vertailutietoa ja tietoa päätöksenteon tueksi. Tavoite on haastava jopa kansainvälisesti, kun tarkoitus on saada valtakunnallinen reaaliaikainen tietovarasto, josta voidaan tuottaa hyödyllistä ja konkreettista tietoa sosiaali- ja terveyssektorille ja myös sen ohjaamiseen. Sosiaali- ja terveydenhuollossa isona massadatan tuottamisen esteenä ovat olleet pirstoutunut tietojärjestelmä ja kuntakohtaiset ratkaisut sekä toimittajariippuvuus. Näitä asioita pyritään nyt sote-ratkaisulla ja mm. Kanta-hankkeella ratkomaan. Muita kunnianhimoisia hankkeita potilaskertomustietojen käyttämiseksi on mm. brittiläinen QResearch.


Haaste: lock-in ja toimittajariipouvuus. Suomi voisi tarjota ilmaisia peerusratkaisuja käyttöön ja saisi näin datat jalostettavaksi. Vrt Apotti (kannattaako mainita?)
''Bayes-verkot syysuhteiden kuvaamisessa.
Datan tuotantomäärät ovat valtavat, joten tarvitaan myös menetelmiä datamäärien hallitsemiseen. Yksi tärkeistä, nopeasti yleistyvistä menetelmistä ovat Bayes-verkot. Ne kuvaavat ilmiöiden välisiä syysuhteita johdonmukaisesti käyttämällä todennäköisyyksiä. Syyverkostoja voidaan tehokkaasti ja havainnollisesti kuvata nuolikaavioina, joissa nuolet osoittavat syyseuraussuhteita ilmiöiden välillä, ja vastaavasti nuolen puuttuminen osoittaa riippumattomuuden. Kaavioiden avulla voidaan myös monimutkaiset suhteet pilkkoa ja päätellä syy-seuraussuhteita.
<ref name="yoo">Yoo C, Ramirez L, Liuzzi J. Big Data Analysis Using Modern Statistical and Machine Learning Methods in Medicine. International Naurourology Journal 2014 18:50-57 [http://dx.doi.org/10.5213/inj.2014.18.2.50]</ref>
<ref name="ryynänen">Olli-Pekka Ryynänen. Bayesilainen ennustaminen potilastyössä. Duodecim 2009;125(5):483-5. [http://www.terveysportti.fi/dtk/ltk/avaa?p_artikkeli=duo97879]</ref>


'''Big data -strategia:
Bayes-verkkojen etuna on, että tiedon lisääntyessä niitä voidaan päivittää eli tuottaa ''posteriorijakaumia''. Niitä voidaan myös ehdollistaa eli tarkastella tilanteita, joissa jotakin tekijää muutetaan. Aiemmin laskentakapsiteetti rajoitti Bayes-verkkojen kokoa ja hyödynnettävyyttä, mutta tilanne on parantunut sekä menetelmien että tietotekniikan myötä.
<ref name="ryynänen"/>


Suomem edut: perusrekisterit, osaaminen ja i fra ovat hyvät.
Datamäärien paisuminen on paitsi aktivoinut kehittämään parempia tilastoanalyysimenetelmiä myös parantamaan datanhallinnan ja -jakamisen käytäntöjä. Datan pitää olla löydettävissä eli mahdollisimman avoimesti netissä jaettua. Sen pitää olla käyttöönotettavissa vähällä vaivalla ja hyvin kuvattua, jotta käyttäjä voi ymmärtää datan sisällön ja käyttökelpoisuuden uusiin tarkoituksiin. Sen käytön pitää olla myös sallittua eli turhia käyttörajoituksia tulee välttää.
Massadata korostaa yhteistyön ja avoimuuden merkitystä.
<ref name="editorial">Editorial. Focus on big data. Nature Neuroscience 2014 (17)11: 1429. doi:doi:10.1038/nn.3856. Sisältää useita tässä siteerattuja artikkeleita (Shin; Kitchen; Cunningham; Sejnowski; Poldrak, Gomez-Marin; ja Lichtman) sivuilla 1430-1517.</ref>
Monialaisuus ja täydennyskoulutus tarpeen edistämisessä.
Näiden datan avoimuuteen liittyvien vaatimusten lisäksi on myös tiedon käyttämiselle lisäohjeistuksia: tiedon käyttötarkoituksen tulee olla tiedossa, jotta käytön onnistumista voidaan arvioida sen suhteen; tietorakenteiden tulee olla johdonmukaiset ja siten uusiokäyttöä tukevat; ja tiedon käyttöprosessin tulee tukea sisällön kritiikkiä, jotta virheet huomataan nopeasti.
Teknologia analyysimenetelmät ja substanssitieto saatava kohtaamaan.
<ref name="tuomisto">Tuomisto JT, Pohjola M, Pohjola P. Avoin päätöksentekokäytäntö voisi parantaa tiedon hyödyntämistä. Yhteiskuntapolitiikka 2014 1: 66-75. [http://urn.fi/URN:NBN:fi-fe2014031821621]</ref>
Fimmin geenitiedot?
Suomessa olisi innovaatiotilausta erityisesti ikääntyvälle väestönosalle suunnatuille ennaltaehkäisevän terveydenhuollon ja itsehoidon palveluille. OECD:n Suo- mea koskevan raportin mukaan40 väestön ikääntymisen aiheuttamat rakenteelliset ter- veydenhuollon kustannuspaineet tulevat lähivuosina ja myös tulevaisuudessa olemaan Suomessa merkittävämpi ongelma kuin useimmissa muissa OECD-maissa.
 
Suomessa on alan osaamista esimerkiksi bioinformatiikan ja molekyylilääketieteen alalla. Toinen tärkeä alue liittyy kansalaisten omatoimiseen terveydenhoitoon ja hyvinvoinvointiin liittyvien itsemit- tausteknologioiden kehitykseen, jossa suomalaisyrityksissä on osaamista kymmenien vuosien ajalta.  
 
Big datalta odotetaan terveydenhuollon laadun parantumista ja säästöjä. Data-analyysin odotetaan kehittyvän tavalla, joka auttaa yksittäisen kansalaisen terveysriskien ennus-
 
tamisessa erilaisten datavirtojen avulla sekä sairauksien ehkäi- syssä. Terveystietojen hyöty- käyttöön liittyy kuitenkin yksi- tyisyyteen, sosiaalisiin ja eetti- siin näkökulmiin liittyviä kysy-
 
”Suuret tietoaineistot parantavat omahoitoa, ennaltaehkäisevää toimintaa, valvontaa sekä tukevat ammattilaisten työtä”
 
 
 
Soteuudistus tarjoaa merkittävän mahdollisuuden
 
 
 
Omahoitomenetelmät ja suomalai en mittausteknologia luovat mahdollisuuksia.  
 
 
 
Esimerkkejä:
 
Syöpälääkkeiden vaikutusta soluihin tutkitaan genominlaajuisilla matemaattisilla malleilla.
 
Lääkeaineiden tehon vaikutus soluissa ennustetaan matemaattisin mallein koneoppimisen avulla.
 
Muun muassa eri- laisen mobiilidatan, trendidatan sekä sosiaalisesta mediasta saatavan datan määrän kas- vu tuo tutkijoiden ulottuville aivan uudenlaisia aineistoja. Erimerkiksi ihmisten todellista käyttäytymistä kuvaavat verkonkäyttö- ja paikkatietoaineistot mahdollistavat merkittävi- en lisätietojen saamisen ja siten täydentävät (tai jopa korvaavat) perinteisiä kyselytutki- muksia, joilla tutkitaan muun muassa ihmisten käyttäytymisaikomuksia.
 
<ref name="rastas">Taru Rastas, Emil Asp (toim.). Big datan hyödyntäminen. Liikenne- ja viestintäministeriön julkaisuja 20 / 2014. ISBN 978-952-243-407-4 [http://urn.fi/URN:ISBN:978-952-243-407-4]</ref>
 
Big datasta saatavia hyötyjä
Hallinto: Prosessien tehokkuut, paremmat palvelut, läpinäkyvyys, kustannussäästöt ja resurssien kohdentuminen, päätöksenteon laatu.
Yritykset: innovaatiot, markkintaosuuksien tai voittojen kasvattaminen, prosessien tehokkuus (optimointi), tuottavuusomaisuuden käyttö, tuottavuus, hävikkin vähentäminen, asiakaskokemuksen parantaminen.
Kansalainen: palvelujen laatu ja valintamahdollisuudet, uudet palvelut, parempi kontrolli itseä koskeviin tietoihin, vaikuttamismahdollisuudet, yhteiskunnallinen osallistuminen, kuluttajan oikeudet.
Tutkimus: uusien aineistojen mahdollistamat laajemmat tutkimushankkeet, tiedon yhdistlystä uutta tutkimusta, menetelmistä tutkimuksen laatua ja tehokkuutta, tutkimuksen vaikuttavuus.
 
 
 
Julkishallinnon toiminnoissa jatkuvasti kasvavan tietomäärän keskellä on tärkeää hah-mottaa tiedon mahdollisuudet kokonaisuutena ja hallita merkityksellistä tietoa, eli ym-märtää, mitä tietoa on olemassa ja mitä puuttuu. Käynnissä olevan digimurroksen keskellä data- ja asiakaslähtöisen hallinnon tulee kyetä ratkaisemaan arkipäiväisiä tiedonhal-lintaan liittyviä ongelmia: missä ja kenellä tietoa on, onko tieto käytettävässä muodossa, miten voin liittyä tietovirtaan ja ymmärränkö tiedon käyttötarkoitukseeni oikein?
 
Kokonaiskuva tietopääomasta, tiedon ympärille rakentuva kehitysyhtei-sö, tietokehittämisen koordinointi ja standardit järjestelmäriippumattomat menetelmät liikuttaessa tietoa ovat tärkeitä tekijöitä.
 
Itsensä mittauksen ympärillä on paljon uusia aloitteita, joita motivoi myös terveyden-huollon toimialamuutos. Suomessa itsensä mittausteknologioita kehittäneitä, kansainväli-sillä markkinoilla toimivia yrityksiä on useita, muun muassa Firstbeat, Suunto ja Polar. Lisäksi alalla on lukuisia lupaavia start up -yrityksiä. Mittalaitteiden avulla ihmiset saavat uudenlaista tietoa itsestään. Itsehoito on aiempaa helpompaa, kun ihmiset voivat mitata kotona verenpainettaan tai esimerkiksi seurata unensa laatua. Kehityskulku voi vähitellen muuttaa terveydenhuollon painopistettä ja lääkärien työtä. Lääkärit voivat keskittyä eri-koistuneeseen sairauksien hoitoon ja ennaltaehkäisyyn, kun terveyden ylläpitoon on uu-denlaisia vaihtoehtoja.
 
Kannustetaan rahoituksella ja ohjauksella eri toimijoita maksimaaliseen tutki-musdatan jakamiseen ja siten tutkimuksen tehostamiseen läpi tutkimushank-keiden elinkaaren.
 
Lisätään resurssien puitteissa kansallista osallistumista tutkimuksen tietoai-neistojen jakamisen kansainväliseen kehitykseen ja standardointiin globaaleis-sa yhteistyöelimissä.
 
Sääntelyä tukevat yhteiset käytännesäännöt ja periaatteet. On luotava ns. ”big data -etiketti” siitä, miten dataa käsitellään ja hyödynnetään kunnioittaen niin kansalaisten kuin yritystenkin oikeuksia.
 
'''Omadata
 
<ref name="poikola">Antti Poikola, Kai Kuikkaniemi, Ossi Kuittinen. MyData - johdatus ihmiskeskeiseen henkilötiedon hyödyntämiseen. Liikenne- ja viestintäministeriö 2014. ISBN 978-952-243-418-0 [http://urn.fi/URN:ISBN:978-952-243-418-0]</ref>
 
Massadata
Omadata
ReplicaX ja datan anonymisointi keinodataksi. THLn haaste Apps4Finald-kisassa.
Eu-direktiivi vaikeuttaa henkilötutkimusta? Kaiva esille.
Televisiosarjatko ratkaisuna datankeruulle jos tutkimus kielletään? Niissä ei ole henkilösuojaa eikä tarveharkintaa.
Erilaiset tietoaineistot. Viranomaiskäyttö eri kuin tutkimuskäyttö.
Biobankit ja niiden data.
Tietojen hyödyntäminen on menossa ristiriitaisiin suuntiin ja lähivuodet ratkaisevat toisaalta minia edistysaskeleita ja toisaalta sen tehdääkö pahoja takapakkeja.
 
Mydata
 
Luku 1 periaatteet kuvataan.
S17 mydata ja avoin data
My Datan -ajattelun kolmea lähtökohtaa: ihmiskeskeisyyttä, tiedon hyödynnet- tävyyttä, ja liiketoimintamallien avautumista voidaan konkretisoida periaatteilla 1. yksilöiden oikeus ja mahdollisuus hallita omaa dataansa, 2. henkilötiedon kattava ja käytännöllinen saatavuus sekä 3. henkilötiedon hallinnan hajauttaminen ja yhteentoimi- vuus. Nämä periaatteet ohjaavat My Data -rajapintojen ja standardien, välittämi- seen ja hallintaan liittyvän palveluinfrastruktuurin sekä My Dataa hyödyntävien sovellusten ja palvelujen kehitystä.
 


Massadatan käsittelyn ja jalostamisen avuksi on tullut myös menetelmiä, jotka on alunperin kehitetty tavallisten aineistojen ja niiden välisten suhteiden kuvaamiseen. Näitä ovat mm. semanttiset verkot, ontologiat, aineistokuvailun viitekehykset (resource description framework, RDF) ja avoimen linkatun datan menetelmät. Lähitulevaisuudessa voi syntyä isojakin edistysaskelia, kun eri tieteenalojen tietokäytännöt leviävät uusiin käyttötarkoituksiin.
<ref name="wu">Wu H, Yamaguchi A. Semantic Web technologies for the big data in life sciences. BioScience Trends. 2014; 8(4):192-201.</ref>
Myös erilaiset massadatan analysointii perustuvat päätöstukiärjestelmät voivat muuttaa yksittäisen potilaan hoitokäytäntöjä.


Avoimen tiedon määritelmän mukaan avoin aineisto on teknisesti ja juridisesti
''Keinodata arkaluontoisen tiedon hyödyntämisessä.
kenen tahansa vapaasti käytettävissä, uudelleen käytettävissä ja jaettavissa.
Lääketieteessä massadatan käyttöä selvästi rajoittavat tärkeimpien tietoaineistojen eli potilastietojen arkaluontoisuus ja yksilönsuojan vaatimukset. Tähän ongelmaan on esitetty kiinnostava innovaatio eli keinodata. Se on dataa, joka muodostetaan potilasaineistosta siten, että se tilastollisilta ominaisuuksiltaan muistuttaa alkuperäistä dataa mutta ei kuvasta todellisia henkilöitä. Tällainen keinodata voidaan vapaasti julkaista avoimena datana, jolloin kuka tahansa voi sitä tutkia ja kehittää tilastokoodeja datan analysoimiseksi. Kun koodi on teknisesti toimiva ja alustavissa analyyseissä kiinnostava, alkuperäisen datan hallitsija voi vähällä vaivalla ajaa koodin alkuperäisellä datalla ja saada nopeasti uusia tuloksia sekä kunniaa itselleen ja koodin kehittäjälle.  
Vastaavasti My Data voitaisiin määritellä niin, että se on teknisesti ja juridisesti
<ref name="karvanen">Karvanen J. ReplicaX - R code for data replica generation. 2014 [http://www.tilastotiede.fi/ReplicaX/]</ref>
datan kohteen itsensä vapaasti käytettävissä, uudelleenkäytettävissä ja jaettavissa.
My Datasta voi tulla avointa dataa:
• muunnosten kautta – Esimerkiksi suuri osa julkisista tilastoista syntyy kyselytutkimusten
tai muiden yksilöiden henkilötietojen pohjalta yhdistelemällä,
aggregoimalla ja anonymisoimalla. On tärkeää tietää, mitä haasteita
anonymisointiin liittyy.
• yksilöiden valinnan kautta – Voi olla ihmisiä, jotka ovat valmiita avaamaan
omaa henkilötietoaan hyödyttääkseen muita. Esimerkiksi vaikeasta sairaudesta
kärsivä saattaa mielellään jakaa omaa terveysdataansa, jos voi siten
edistää lääketieteellistä tutkimusta ja auttaa muita sairastuneita.


Periaate: Ihmisillä on oikeus ja käytännön mahdollisuus hallita omia henkilötietojaan.
Koodin kehittäjän ei tarvitse välttämättä nähdä alkuperäisdataa lainkaan. Vaikka tämä ei koodin kehittäjän kannalta olekaan ihannetilanne, se on kuitenkin selvä edistysaskel nykytilanteeseen, joka yleensä edellyttää tutkimusyhteistyötä ja kuukausia kestävän lupaprosessin.


Periaate: Henkilötieto on ihmisille itselleen saatavilla koneluettavasti ja riittävän ajantasaisesti
''Omadata henkilötietojen hyödyntämisessä.
rajapintojen kautta.
Omadata tarkoittaa sellaista ihmistä koskevaa tietoa, jonka käytöstä hän voi itse päättää. Omadataa syntyy ja kertyy esimerkiksi näistä aihepiireistä: terveys, liikenne, energia, hallinto, itse kerätty tieto, pankki ja vakuutus, kauppa, verkkopalvelut sekä viestintä ja media. Esimerkiksi Kanta-järjestelmään ollaan kehittämässä Omakanta-palvelua rajapinnaksi terveystietojen katsomiseen ja itsekerätyn terveystiedon tallentamiseen.  


Periaate: My Datan hallinnointi ja säilytys on mahdollista hajauttaa ja palvelut voidaan
Omadatassa pyritään yhdistämään ihmiskeskeisyys, tietojen hyödynnettävyys, yhteentoimivyys ja hajautettavuus sekä liiketoimintamahdollisuudet. Ihmisellä on siis oikeus ja mahdollisuus hallita tietojaan, pitää ne saatavilla koneluettavasti ja hajauttaa tai siirtää tietonsa haluamilleen ylläpitäjille. Tämä avaa uusille toimijoille ja liiketoiminnalle mahdollisuuksia ja rikkoo sektorirajoja.
vaihtaa, mutta kokonaisuus on yhteentoimiva ja looginen.
<ref name="poikola">Poikola A, Kuikkaniemi K, Kuittinen O. MyData - johdatus ihmiskeskeiseen henkilötiedon hyödyntämiseen. Liikenne- ja viestintäministeriö 2014. ISBN 978-952-243-418-0 [http://urn.fi/URN:ISBN:978-952-243-418-0]</ref>


Keskeinen seuraus My Data -periaatteiden toteuttamisesta on henkilötiedon
Omadatasta voi tulla avointa dataa tietoja yhdistelemällä ja anonymisoimalla tai siten, että ihminen päättää avata omia tietojaan vapaasti käytettäväksi. Tällaista data-altruismia on nähty Suomessakin, kun tutkija Leena Palotie avasi sairastuttuaan omia tietojaan tutkimukselle.
arvoketjujen pilkkoutuminen ja tiedon hallinnan keskittyminen ihmisen ympärille.
Tämä avaa mahdollisuuksia uusille toimijoille ja rikkoo perinteisiä sektoreiden
ja toimialojen rajoja.
Henkilötiedon jalostuksen arvoketju koostuu henkilötiedon lähteistä (luominen,
kerääminen), välittämisestä (jalostus ja hallinta) ja hyödyntämisestä. Dataa
voidaan säilyttää kaikissa näissä vaiheissa.


Omadatan ihmisnäkökulma ja massadatan yritysnäkökulma täydentävät toisiaan. Omadata tuo läpinäkyvyyttä ja sitä kautta hyväksyttävyyttä henkilöihin liittyvien datamassojen käsittelyyn ja antaa konkreettisia keinoja yksityisyydensuojan toteuttamiseen. Tämä edistää massadatan kehittymistä.


Integraatioargumentti
Itsensä mittaaminen on maailmanlaajuisesti nopeasti kasvava trendi, jossa ihmiset uusien laitteiden ja teknologian avulla keräävät, analysoivat ja hyödyntävät kaikkea mahdollista omaan kehoon, ympäristöön ja toimintaan liittyvää dataa. Osa tästä on terveyden edistämisen tai hoidon kannalta hyödyllistä. Verenpainemittareiden, verkkoyhteydellä varustettujen henkilövaakojen, aktiivisuusrannekkeiden ja näihin liittyvien palvelujen kehitys tuo arkeen aivan uudenlaisia mahdollisuuksia elintapojen parantamiseen. Tämä voi vähitellen muuttaa terveydenhuollon painopistettä ja lääkärien työtä kohti erikoistunutta sairauksien hoitoa ja ennaltaehkäisyä.
Henkilötiedolla on monta lähdettä.
Yksi lähde sellaisenaan on heikko.


Yksityisyysargumentti
=== Massadatan hyödyt ===
Henkilötiedon välitys ja jalostus on
yksityisyyden kannalta herkkä asia


Innovaatioargumentti
Massadatalla on lukuisia käyttökohteita, ja on luultavaa, että vain pieni osa niistä on tähän mennessä keksitty. Massadata muuttanee ihmisten ajattelutapaa ja ajan kuluessa tuottaa arvaamattomia hyötyjä. Käsityksemme saattaa muuttua jopa siitä, miten havainnot, data, julkaiseminen ja toiminta kytkeytyvät toisiinsa. Tässä nostetaan joitakin esimerkkejä siitä, millaisiin asioihin massadataa on tähän mennessä käytetty ja millaisia hyötyjä siitä on saatu.  
Uusien innovaatioiden kehittyminen
täytyy olla irrallista
vanhoista rakenteista.


My Datan lähteet ovat käytännössä joko organisaatioiden tai yksilöiden itse keräämää
Suomen rekisterit ovat hyviä ja osaaminen ja infra kunnossa. Massadata korostaa yhteistyön, luottamuksen ja avoimuuden merkitystä, ja näissä asioissa Suomi on edellä useimpia muita maita, vaikka massadataprojektit toistaiseksi ovat edenneet nopeammin esimerkiksi Yhdysvalloissa ja Isossa-Britanniassa. Erityisen hyviä mahdollisuuksia tunnistetaan itsehoidon, ennaltaehkäisyn ja ikääntyvien ihmisten palveluille. Vahvuuksia on bioinformatiikan, molekyylilääketieteen ja itsemittausteknologioiden alalla (esimerkiksi suomalaisyritykset Suunto, Firstbeat ja Polar ovat alan pioneereja).
henkilötietoa.
<ref name="rastas">Rastas T, Asp E (toim.). Big datan hyödyntäminen. Liikenne- ja viestintäministeriön julkaisuja 20 / 2014. ISBN 978-952-243-407-4 [http://urn.fi/URN:ISBN:978-952-243-407-4]</ref>


Henkilötietoa syntyy ja kertyy esimerkiksi näistä aihepiireistä: terveys, liikenne, energia, hallinto, itse kerätty tieto, pankki ja vakuutus, kauppa, verkkopalvelut sekä viestintä ja media.
Yksittäisten koeasetelmien hypoteesien testaamiseen saadaan lisää tilastollista voimaa hyödyntämällä massadataa. Hypoteeseja voidaan rakentaa populaatioiden vastekirjosta. Laajoja aineistoja voidaan käyttää hypoteesien luomiseen.
<ref name="editorial"/>
Populaation ominaisuuksia voidaan kuvata rikkaasti laajoista, edustavista potilasaineistoista. Riskitekijöitä voidaan tunnistaa ja ennustavia ja diagnostisia malleja voidaan rakentaa datan perusteella. Voidaan tarkastella erilaisten interventioiden vaikutusta kokeellisissa ja luonnollisissa asetelmissa. Terveyspalveluiden tuottajien vaikuttavuutta voidaan vertailla. Massadataa voidaan käyttää myös lisämateriaalina tulkittaessa jonkin toisen tutkimuksen aineistoa. Systeemivirheiden tunnistaminen helpottuu.
<ref name="cook"/>


Keskeinen osa
Massadatan hyödyntäminen terveydenhuollossa tuo mahdollisuuksia sekä datan analysointiin perustuvalle tutkimukselle että diagnostiikalle. On tulossa mahdolliseksi jopa potilaskohtaiset tilastoanalyyit, jotka tuottavat henkilökohtaisia hoitosuosituksia tehokkaan laskennan, laajojen henkilöaineistojen ja tekoälyn avulla.  
big datasta on ihmisten käyttäytymisdataa, joka perustuu asiakkaan tunnistamiseen.
<ref name="dilsizian"/>
Big data -keskustelussa korostetaan henkilötietojen analysoinnin ja
Yksityisyyttä voi suojata erottamalla yksilödatan ja yhteenvedot erillisiin tietojärjestelmiin, joissa on erilainen suojaus.  
hyödyntämisen mahdollisuuksia organisaatioiden näkökulmasta. Ihmisten näkökulma
<ref name="choudhury"/>
on supistettu usein vain vaatimukseen siitä, että yksityisyydensuoja
säilytetään. Asiakkaan kiinnostusta saati oikeutta omiin tietoihinsa ei big data
-keskustelussa ole juurikaan tuotu esille.


Henkilöihin liittyvässä tiedossa My Data ja big data ovat kaksi toisiaan täydentävää
Geenitekniikat mahdollistavat entistä tarkemman analyysin, ja esimerkiksi infektioiden leviäminen yksilötasolla voidaan joskus selvittää patogeenien muuntumista tutkimalla, jolloin torjunnassa päästään aivan uudenlaiseen tilanteeseen.
näkökulmaa, ”ihmisnäkökulma” ja ”yritysnäkökulma”. My Data tuo läpinäkyvyyttä
<ref name="kao">Kao RR, Haydon DT, Lycett SJ, Murcia PR. Omics: Fulfilling the Promise. Supersize me: how whole-genome sequencing and big data are transforming epidemiology. Cell Press 2014, (22)5: 282-291[http://www.cell.com/trends/microbiology/abstract/S0966-842X%2814%2900046-8?_returnURL=http%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0966842X14000468%3Fshowall%3Dtrue]</ref>
ja sitä kautta hyväksyttävyyttä henkilöihin liittyvien datamassojen
käsittelyyn ja antaa konkreettisia keinoja yksityisyydensuojan toteuttamiseen.
Ilman tätä ihmisnäkökulmaa monet big datan hyödyntämismahdollisuudet katoavat,
koska ne eivät ole yksilöiden suojan kannalta hyväksyttäviä.


4.1.1 Itsensä mittaaminen
Hallinnon prosessit tehostuvat ja palvelut paranevat, läpinäkyvyys lisääntyy ja resurssit kohdentuvat tarkemmin. Yritysten innovaatiokyky, tehokkuus ja asiakaskokemus paranevat ja voitot lisääntyvät. Kansalaisten valinnanmahdollisuudet, palvelut ja omien tietojen hallinta paranevat. Yhteiskunnallisen osallistumisen mahdollisuudet lisääntyvät. Tutkimuksessa mahdollisuudet laajoihin hankkeisiin, tietojen yhdistelyyn, laadun parantamiseen ja vaikuttavuuteen paranevat.
Quantified Self on maailmanlaajuisesti nopeasti kasvava trendi, jossa ihmiset
<ref name="rastas"/>
uusien laitteiden ja teknologian avulla keräävät, analysoivat ja hyödyntävät
kaikkea mahdollista omaan kehoon, ympäristöön ja toimintaan liittyvää dataa.
Älypuhelinsovellusten, puettavien sensorien, verkkopalveluiden ja muiden teknisten
apuneuvojen kanssa itsensä mittaajat keräävät dataa, joka liittyy esimerkiksi
ruokailuun, mielialoihin, fyysiseen ja henkiseen suorituskykyyn, ajan- ja
rahan käyttöön, sosiaaliseen vuorovaikutukseen, liikkumiseen, nukkumiseen
jne. Keskeisenä ajatuksena on yksilöllisen mittaustiedon hyötykäyttö terveyden,
hyvinvoinnin ja elämänlaadun parantamisessa.
 
Kyse ei ole vain terveys- ja teknologiaintoilijoiden liikkeestä. Urheilijat ovat jo
pitkään mitanneet muun muassa sykettä, tehoa ja omia suorituksiaan. Fysiologisessa
ja psykologisessa valmennuksessa ja kuntoutuksessa käytetään mittareita.
Tietotyöläiset saattavat mitata ajankäyttöä, stressitasoa ja erilaisen viestinnän ja
kommunikaation volyymeja. Askelmittareiden, verkkoyhteydellä varustettujen
henkilövaakojen, aktiivisuusrannekkeiden ja muiden vastaavien kulutuselektroniikkatuotteiden
sekä niihin liittyvien verkkopalveluiden kehittyminen on tuonut
itsensä mittaamisen monille osaksi arkipäivää.
 
Laki sosiaali- ja terveydenhuollon asiakastietojen sähköisestä käsittelystä
(Asiakastietolaki 2007) velvoittaa terveydenhuollon organisaatiot tallentamaan
potilastiedot valtakunnallisesti keskitettyyn arkistoon. Kansallinen Terveysarkisto
KanTa26 on lain pohjalta valmisteltu järjestelmä, joka mahdollistaa muun muassa
sähköisen reseptin ja tarjoaa kansalaisille käyttöliittymän omien potilastietojen
tarkasteluun. Laki ja järjestelmä eivät kuitenkaan anna potilaille mahdollisuutta
tallentaa omia potilastietojaan tai siirtää niitä toiseen sovellukseen. Lakia
ja KanTa -järjestelmän toteutusta tulisi tältä osin pikaisesti muuttaa niin, että se
toimisi My Data -periaatteiden mukaisesti.


=== Massadatan haasteet ja kehityskohteet ===
=== Massadatan haasteet ja kehityskohteet ===


Datan jakamisen haasteet. Arvostus Poldrak LUE!, Editorial. Sejnowski nn
Massadatan haasteista on esitetty lukuisia näkemyksiä, joista tässä esitetään vain suppea yhteenveto.
<ref name="editorial"/>
<ref name="choudhury">Choudhury S, Fishman JR, McGowan ML, Juengst ET. Big data, open science and the brain: lessons learned from genomics. Frontier in Human Neuroscience 2014 8. doi: 10.3389/fnhum.2014.00239</ref>
<ref name="cook">Cook JA, Collins GS. The rise of big clinical databases. BJS Society Ltd 2015: e93-e101. DOI: 10.1002/bjs.9723</ref>


Sejnowski nn. Big datan tärkeät aiheet tai haasteet. 1) Big dataa on runsaasti mutta se on hajanaista, tuottu useille menetelmillä ja eläinlajeilla ja vaikeasti standardoitavissa. 2) Asioita pitää oppia peilaamaan (käyttäytymis)vasteisiin, mittaaminen onkin muuttunut helpommaksi ja vähemmän invasiiviseksi. Mutta kausaalisuuksien löytäminen on haastavaa. 3) Tieto laboratorioiden välillä liikkuu yleensä kokousten ja artikkelien muodossa muuta dataa harvemmin jaetaan. 4) Datan kasvaessa sen analysointi vaikeutuu ja tarvitaan uusia algoritmejä. On myös opittava tuottamaan aineistoja, joista mielekkäiden yhteyksien löytäminen on mahdollista. 5) Nykyteoriat ovat selittäviä pikemmin kuin ennustavia ja perustuvat pieniin aineistoihin. Teorioista pitäisi tehdä selkeämpiä ja ennustavia vaikka se edellyttäisi tinkimistä matemaattisesta monimutkaisuudesta. Yleispäätelmä: tarvitaan kulttuurinmuutosta, matemaattisesti orientoituneita tutkijoita ja ennakkoluulottomia, kattavia ja testattavia teorioita.
Tutkimuskulttuuri ja palkitsemisjärjestelmät eivät tue datan jakamista. On epäselvää, miten jaetaan meriitti jos yksi tuottaa massadataa ja toinen analysoi ja julkaisee tulokset. Tutkijat esimerkiksi pelkäävät muiden varastavan datassa piilottelevat skuupit.
<ref name="sejnowskia">Terrence J Sejnowski, Patricia S Churchland, and J Anthony Movshon; Putting big data to good use in neuroscience. Published as: Nat Neurosci. 2014 November ; 17(11): 1440–1441.</ref>


Isoja eettisiä kysymyksiä on ratkaisematta. Voiko datalla tehdä muuta kuin alkuperäisessä tutkimusluvassa on sanottu? Voiko toisen tuottaman datan laatuun luottaa? Murtuuko henkilösuoja anonymisoinnista huolimatta, jos data sisältää runsaasti tietoa henkilön ominaisuuksista? Kuka kontrolloi tiedon keräämistä ja suojaa yksilöä?


Jotkin tekniikat tai aiheet ovat kalliita datan tuottamiseen, eikä sellaisia pysty käyttämään ellei ole tiedossa lähitulevaisuuden selkeä hyöty, jonka takia datantuottoon löytyy rahoittaja. Hankaluutena on, että usein hyödyt eivät ole etukäteen arvioitavissa. Konnektomiikka eli hermoston synapsirakenteen tutkiminen on esimerkki tällaisesta.  
Massadataa on runsaasti mutta se on hajanaista, tuotettu useilla menetelmillä ja eläinlajeilla ja vaikeasti standardoitavissa. Datan kasvaessa sen analysointi vaikeutuu ja tarvitaan uusia algoritmejä ja niidenkin jakamista. Kausaalisuuksien löytäminen kohinasta on haastavaa, vaikka asioita on opittu peilaamaan vasteisiin paremmin ja mittaaminen on muuttunut helpommaksi. Nykyteoriat ovat usein kuvailevia pikemmin kuin ennustavia ja perustuvat pieniin aineistoihin. Teorioista pitäisi tehdä selkeämpiä, ennustavia ja kattavampia ja tulkintoja pitäisi kuvata täsmällisemmin.  
<ref name="lichtman">Jeff W Lichtman, Hanspeter Pfister & Nir Shavit; The big data challenges of connectomics. Nature Neuroscience, Volume 17, number 11, November 2014, doi:10.1038/nn.3829</ref>


Kliinisessä tutkimuksessa tunnistettuja massadaan liittyviä haasteita ovat mm. otoskoko, valintaharha, dokumentointi- ja tulkintaongelmat, puuttuvat havainnot, riippuvuusongelmat ja datanhallintaongelmat.
<ref name="wang">Wang W, Krishnan E. Big Data and Clinicians: A Review on the State of the Science. JMIR Med Inform 2014 2(1):e1 [http://www.medinform.jmir.org/2014/1/e1/] doi:10.2196/medinform.2913</ref>
Ehkä yllättäenkin voi olla vaikea saada uskottavia tilastollisia merkitsevyyksiä, kun havaintojen lisäksi myös mitattuja attribuutteja on valtavia määriä.


Teoreettisten viitekehysten, koeasetelmien ja teknologisen kehityksen pitäisi kaikkien edistyä yhdessä tulosten saavuttamiseksi
Datasta yhteiskunnalliseen vaikuttavuuteen on monta porrasta, eikä tämä arvoketju ole lainkaan aukoton. Mittaaminen helpottuu nopeammin kuin merkityksellisten analyysien tekeminen ja vaarana on infoähky. Käytettävyys ei myöskään takaa käyttöä, elleivät päättäjät halua tai osaa käyttää tietoa.
<ref name="gomez-martin">Alex Gomez-Marin, Joseph J Paton, Adam R Kampff, Rui M Costa & Zachary F Mainen; Big behavioral data: psychology, ethology and the foundations of neuroscience. Nature Neuroscience, Volume 17, number 11, November 2014, doi:10.1038/nn.3812</ref>
 
 
 
Tärkeä haaste on pystyä uuttamaan merkitystä ulos jatkuvasti lisääntyvästä datasta, ja tämä näkyy monilla aloilla kuten käyttäytymmistieteellisessä neurobiologiassa. Gomez-Marin.
 
Tietojen standardointi, tiedon uusiokäyttö ja syvempi yhteistyö kollegojen kanssa ovat tulevaisuuden suuntia. Gomez-Marin.
 
Potilastieto massadatana. Mining and advanced analysis
of “big data” in health care provide the potential not only
to perform “in silico” research but also to provide “real time”
diagnostic and (potentially) therapeutic recommendations
based on empirical data. “On demand” access to highperformance
computing and large health care databases will
support and sustain our ability to achieve personalized medicine.
Dilsizian
 
Mahdollisuudet ja haasteen tekoälyn käytössä lääketieteessä Dilsizian
 
The combination of AI, big
data, and massively parallel computing offers the potential to
create a revolutionary way of practicing evidence-based, costeffective,
and personalized medicine. However, barriers to
adoption of AI technologies must be overcome from regulatory,
legal, cultural, and political perspectives––even when
technology solutions have matured.
Dilsizian
 
Open access ja data sharing on välttämätöntä. Mitä haasteita ja oppeja on löydetty.
<ref name="choudhury">Suparna Choudhury, Jennifer R. Fishman , Michelle L. McGowan and Eric T. Juengst; Big data, open science and the brain: lessons learned from genomics. doi: 10.3389/fnhum.2014.00239</ref>
 
Datan avaamisen haasteita Choudhury
* Tutkimuskulttuuri
* Muiden varastamat skuupit
* Miten jaetaan meriitti
* Tutkimuslupa annettu vain alkuperäiseen tarkoitukseen
* Potilas on vaarassa tunnistua kun kerätään paljon yksityiskohtaista dataa
* ym
 
Afurthersafeguardistohaveseparaterepositoriesfor
summaryleveldataandindividualdata,thelatterofwhichis
keptunderrestrictedaccess,asisspecifiedbyNIH’sGWASdata
accesspolicy(Kaye, 2011; McEwenetal., 2013). Thesameistrue
fortheHapMapprojectwhichusesCoriell’srepository,which
has specificaccessrulesandregulations.Oftenaccesstodata
is controlledbycommitteeswhomustdeterminewhetheruses
ofthedataareappropriate,ethical,andfollowpolicyguidelines
(McEwenetal., 2013).
Choudhury
 
Aswehaveshown,thefieldofgenomicsdoesnotprovidea
modelofstraightforwardsuccessindatasharingforbiomedical
research.However,itsexperiencesandprecedencecanhelpthe
neurosciencecommunityanticipatethechallengesandcomplex-
itiesitislikelytoface.
Choudhury
 
Information altruist: henkilö joka antaa oman biomedisiinisen datansa vapaaseen käyttöön (mm. Leena Palotie) Choudhury
{{defend|# |Etsi tietoa siitä, mitä ja miten Leena Palotie luovutti omaa dataansa tieteen käyttöön syövän tutkimiseksi|--[[Käyttäjä:Jouni|Jouni Tuomisto]] ([[Keskustelu käyttäjästä:Jouni|keskustelu]]) 31. toukokuuta 2015 kello 20.51 (UTC)}}
 
The recent advent of next-generation
sequencing technology allows the identification of trace-
able differences in the pathogen genome that are trans-
forming our ability to understand high-resolution disease
transmission, sometimes even down to the host-to-host
scale.
<ref name="kao">Rowland R. Kao, Daniel T. Haydon, Samantha J. Lycett, and Pablo R. Murcia; Omics: Fulfilling the Promise. [http://www.cell.com/trends/microbiology/abstract/S0966-842X%2814%2900046-8?_returnURL=http%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0966842X14000468%3Fshowall%3Dtrue Supersize me: how whole-genome sequencing and big data are transforming epidemiology]</ref>
 


High-throughput sequencing: the technological revolution that followed the
Yleispäätelmä on, että tarvitaan kulttuurinmuutosta, matemaattisesti orientoituneita tutkijoita ja ennakkoluulottomia, kattavia ja testattavia teorioita ja parempia teoreettisia viitekehyksiä sekä teknologista kehitystä. Tässä auttavat tietojen standardointi, tiedon uusiokäyttö ja tiivis yhteistyö kollegojen ja päättäjien kanssa. Muutokset myös edellyttävät tietokokonaisuuksien hahmottamista, asiakaslähtöisyyttä, yhteisiä käytäntöjä, järjestelmäriippumattomuutta ja muutoksen resursointia.
Sanger sequencing technology that was used to generate the first complete
<ref name="rastas"/>
human genome, allowing for mass generation of sequences at increasingly
affordable costs. Currently broadly subdivided into next- or second-generation
sequencing (Illumina or 454) and now third generation (PacBio).
Kao
 
Bayesian model-based inference of infectious disease transmission.
Kao
 
Individual level
denominator data from at-risk populations are now being
collected, often on a daily basis, and also increasingly in
real time. Advances in computing power now provide the
engine for mathematical and statistical techniques by
which disparate datasets can be analyzed. Although we
are only now arriving at this point, the combination of big
data and tractable analytical techniques provides the opportunity
to transform our approach to controlling infectious
diseases in both epidemic and endemic contexts, with
whole-genome sequencing (WGS) playing a leading role.
Kao


=== Lopuksi ===
=== Lopuksi ===


:''Loppunousu, jossa ei pelkästään tiivistetä katsauksen viestiä vaan liitetään se laajempiin yhteyksiin tai pohditaan tulevaisuudennäkymiä.  
Kahnemanin ja Tverskyn kuvaama hidas, harkitseva ajattelu
<ref>Kahneman D. Thinking, Fast and Slow. Macmillan, 2011. ISBN 978-1-4299-6935-2</ref>
nousee tärkeäksi osaksi massadataa, koska mahdollisuudet tuottaa yhteisöllisesti verkossa hidasta, rationaalista ajattelua paranevat eksponentiaalisesti avoimen datan ja massadatan ansiosta. Tällöin on mahdollista lisätä hitaan ajattelun merkitystä yhteiskunnallisten päätösten perustana ja erityisesti tarkastella monipuolisesti yhden hallinnonalan päätöksen vaikutuksia muiden alojen vaikutuksiin kuten terveyteen tai ympäristöön.


Massadata mahdollistaa isot kulttuurimuutokset, mutta tiedolliset läpimurrot perustuvat pikemminkin näistä muutoksista johtuvaan ymmärryksen paranemiseen.  
Massadata ja avoin data myös haastavat nykyisen paradigman tieteellisestä artikkelista tieteellisen tiedontuotannon perusyksikkönä. On näyttöä siitä, että tieteen edistymisen kannalta kaikkien tutkimustulosten julkaiseminen on parempi kuin julkaisemista rajoittava, ennakkoon tehty vertaisarviointi.
<ref name="vanassen">van Assen MALM, van Aert RCM, Nuijten MB, Wicherts JM. Why Publishing Everything Is More Effective than Selective Publishing of Statistically Significant Results. PLOS One 2014. DOI:10.1371/journal.pone.0084896. [http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0084896]</ref> Millainen siis olisi uudenlainen, massadatan ja avoimuuden hyödyt huomioiva paradigma? Suuntaa voi lähteä etsimään kehittämällä toimintamalleja, joissa on sisäänrakennettuna keskeiset tutkimuksen periaatteet ja joiden avulla voidaan tuottaa tietokiteitä eli jatkuvasti päivittyviä kuvauksia tutkimusaiheista staattisten artikkelien sijasta.
<ref name="tuomisto"/>


Tarve lisääntyy massadatasta jalostetuille kehittyneemmille tieto-olioille kuten tiedokeille (avoimille muuttujille).
Tällöin voidaan päästä siihen, että syntyy vain yksi tietokide ja siihen liittyvä datavarasto yhden aiheen ympärille sen sijaan, että jokainen aihepiirin tutkija julkaisee oman tutkimuksensa erillisenä artikkelina. Tutkija siis julkaisee datansa eli sen mitä hän on löytänyt, sen sijaan että hän julkaisisi artikkeleissa kuvailuja siitä, mitä hän luulee löytäneensä. Tietokide on siis tutkijayhteisön joukkoyhteistyöllä tuottama jaettu ymmärrys aiheesta; päivittyvä kuvaus, joka on jatkuvasti kritiikin ja siitä nousevan kehitystyön kohteena.


Kahnemannin ja Tverskyn nopea ja hidas ajattelu nousee tärkeäksi osaksi massadataa, koska mahdollisuudet tuottaa verkossa yhteisöllisesti hidasta, rationaalista ajattelua paranevat eksponentiaalisesti avoimen datan ja massadatan ansiosta. Tällöin on mahdollista lisätä hitaan ajattelun merkitystä yhteiskunnallisten päätösten perustana.
Silloin huomio kohdistuu uuden datan tuomaan lisäarvoon eli kykyyn päivittää posteriorijakaumaa. Tieto tulee tehokkaammin käytetyksi, ja aiheesta tarvittavan tekstin määrä vähenee helpottaen aiheesta kirjoittavan ja siihen perehtyvän työtä. Niinpä tietokiteillä voi tutkimuksessa olla samanlainen vaikutus kuin Wikipedialla tietosanakirjamarkkinoilla. Mutta tämä onnistuu vain, jos jakamistalouden palkitsemisjärjestelmät saadaan kuntoon ja datan jakamisesta sekä yhteiskirjoittamisesta tulee yksittäiselle tutkijalle tieteellisesti ja taloudellisesti palkitsevaa työtä.


Kliinikon näkökulmasta on tulossa ainakin kaksi muutosta: erilaiset henkilökohtaisen terveystiedon keräämisen välineet lisääntyvät ja potilas voi tarjota lääkärille esimerkiksi kännykän keräämää kuukausien liikuntadataa, jonka merkitystä hoidon kannalta pitäisi pystyä arvioimaan. Toisaalta potilaat pystyvät tekemään entistä perusteellisempia oma-arviointeja ja vertailuja netissä ja tarjota omia diagnoosi- ja hoitoehdotuksiaan lääkärille. Lääkärin rooli on muuttumassa asiantuntija-auktoriteetista valmentajaksi.
Kliinikon näkökulmasta on tulossa ainakin kaksi muutosta: erilaiset henkilökohtaisen terveystiedon keräämisen välineet lisääntyvät. Potilaasta tulee tärkeä tiedon tuottaja, ja hän voi tarjota lääkärille esimerkiksi kännykän keräämää kuukausien liikuntadataa, jonka merkitystä hoidon kannalta pitäisi pystyä arvioimaan. Toisaalta potilaat pystyvät tekemään entistä perusteellisempia oma-arviointeja ja vertailuja netissä ja tarjota omia diagnoosi- ja hoitoehdotuksiaan lääkärille. Lääkärin rooli on muuttumassa asiantuntija-auktoriteetista valmentajaksi.


=== Ydinasiat ===
=== Ydinasiat ===


* ''Katsauksiin tulee laatia 3–5 erillistä virkettä, jotka lyhyesti tiivistävät kirjoituksen keskeisen sanoman. Virkkeet sijoitetaan Ydinasiat-tekstilaatikkoon.
* Massadata muuttaa tutkimuksen toimintakulttuuria ja lisää avoimuuden ja yhteistyön tarvetta.
* Suomalaiset terveysaineistot ovat laadukkaita ja niissä on paljon toistaiseksi hyödyntämätöntä potentiaalia.
* Massadata on jo nyt luonut paljon tärkeitä innovaatioita, mutta se tuottaa myös haasteita liittyen yksityisyydensuojaan ja tietotyön palkitsemiseen.
* Tietokiteet eli jatkuvasti päivittyvät, avoimeen dataan perustuvat vastaukset tutkimuskysymyksiin voivat muuttaa tutkimuksen julkaisemisen paradigman.


=== Avainsanat ===
=== Avainsanat ===


* ''4-8 kpl
Massadata, tietovarannot, tiedon hyödyntäminen, päätöksenteko, terveystutkimus, tietokide


=== Viitteet ===
=== Viitteet ===


<references/>
<references/>
=== Ohjeita ym ===


* ''Kirjallisuusviitteiden esittämisessä noudatetaan Vancouver-järjestelmää (tekstiin numeroidut viitteet) ja kirjallisuusluettelo laaditaan lehden yleisten kirjoitusohjeiden mukaan, esim. Dagfinrud H, Kvien TK, Hagen KB. Physiotherapy interventions for ankylosing spondylitis. The Cochrane Database of Systematic Rewievs 2013, Issue 4. Art. No.:CD002822. DOI: 10.1002/14651858.CD2822.pub2. Teemanumeron katsausta ei tulisi kuormittaa viitteillä (max. 30).
* ''Kirjallisuusviitteiden esittämisessä noudatetaan Vancouver-järjestelmää (tekstiin numeroidut viitteet) ja kirjallisuusluettelo laaditaan lehden yleisten kirjoitusohjeiden mukaan, esim. Dagfinrud H, Kvien TK, Hagen KB. Physiotherapy interventions for ankylosing spondylitis. The Cochrane Database of Systematic Rewievs 2013, Issue 4. Art. No.:CD002822. DOI: 10.1002/14651858.CD2822.pub2. Teemanumeron katsausta ei tulisi kuormittaa viitteillä (max. 30).
Rivi 651: Rivi 276:
|julkaisija = Duodecim
|julkaisija = Duodecim
}}
}}
<ref name="chute">Chute CG, Ullman-Cullere M, Wood GM, Lin SM, He M, Pathak J. Some experiences and opportunities for big data in translational research. Genet Med. 2013 15(10): 802–809. doi:10.1038/gim.2013.121.</ref>
<ref name="ferguson">Ferguson AR, Nielson JL, Cragin MH, Bandrowski AE, Martone ME. Big data from small data: data-sharing in the ‘long tail’ of neuroscience. Nature Neuroscience 2014 (17)11: 1442-1448</ref>
<ref name="greene">Greene CS, Tan J, Ung M, Moore JH, Cheng C. Big Data Bioinformatics. J. Cell. Physiol. 2014 229: 1896–1900 DOI: 10.1002/jcp.24662</ref>
<ref name="maze">Maze I, Shen L, Zhang B, Garcia BA, Shao N, Mitchell A, Sun HS, Akbarian S, Allis CD, Nestler EJ. Analytical tools and current challenges in the modern era of neuroepigenomics. Nature Neuroscience 2014 (17)11: 1476-1490 doi:10.1038/nn.3829</ref>
<ref name="merelli">Merelli I, Pérez-Sánchez H, Gesing S, and D’Agostino D. Managing, Analysing, and Integrating Big Data in Medical Bioinformatics: Open Problems and Future Perspectives, BioMed Research International 2014: 1-13 [http://www.hindawi.com/journals/bmri/2014/134023/]</ref>
<ref name="sejnowski>Sejnowski TJ, Churchland PS & Movshon JA. Putting big data to good use in neuroscience. Nature Neuroscience 2014 (17)11: 1440-1441 doi:10.1038/nn.3829</ref>
<ref name="shin">Shin J, Ming GL, Song H. Decoding neural transcriptomes and epigenomes via high-throughput sequencing. Nature Neuroscience 2014 (17)11: 1463-1475 doi:10.1038/nn.3829</ref>
<ref name="kitchen">Kitchen RR, Rozowsky JS, Gerstein MB, Nairn AC. Decoding neuroproteomics: integrating the genome, translatome and functional anatomy. Nature Neuroscience 2014 (17)11: 1491-1499 doi:10.1038/nn.3829</ref>
<ref name="cunningham">Cunningham JP, Yu BM. Dimensionality reduction for large-scale neural recordings. Nature Neuroscience 2014 (17)11: 1500-1509 [http://www.nature.com/neuro/journal/v17/n11/full/nn.3776.html] doi:10.1038/nn.3776</ref>
<ref name="poldrack">Poldrack RA, Gorgolewski KJ. Making big data open: data sharing in neuroimaging. Nature Neuroscience 2014 (17)11: 1510-1517 doi:10.1038/nn.3829</ref>
<ref name="gomez-martin">Gomez-Marin A, Paton JJ, Kampff AR, Costa RM, Mainen ZF. Big behavioral data: psychology, ethology and the foundations of neuroscience. Nature Neuroscience 2014 (17)11: 1455-1462 doi:10.1038/nn.3812</ref>
<ref name="lichtman">Lichtman JW, Pfister H, Shavit N. The big data challenges of connectomics. Nature Neuroscience 2014 (17)11: 1448-1454 doi:10.1038/nn.3829</ref>
<references/>

Nykyinen versio 22. helmikuuta 2016 kello 12.40

Massadata kansanterveyden edistämisessä on esimerkkisivu siitä, miten Opasnetissä voi kirjoittaa katsausartikkelin. Tässä esimerkkinä on käytetty käsikirjoitusta massadatasta eli Big Datasta. Se on kirjoitettu Duodecim-lehden teemanumeroon.

Kysymys

Miten tehdään katsausartikkeli Opasnet-ympäristössä? Tavoitteena on tehokas tiedonkeruu ja tekstin kirjoittaminen.

Vastaus

Nämä toimintatavat ja -vaiheet olen kokenut hyödyllisiksi. Mukana on myös linkkejä tämän sivun niihin versioihin, joissa kyseistä ohjetta on noudatettu.

  • Mietitään aihetta kuvaava otsikko sivun nimeksi. Sen on hyvä olla sillä tavalla geneerinen, että vaikka artikkelin lopullinen otsikko muuttuisi, sivun nimeä ei tarvitse muuttaa. Perustetaan sivu Opasnettiin.
  • Kopioidaan lehden kirjoitusohjeet ja omat ensimmäiset ajatukset sisällöstä ranskalaisin viivoin. [18]
  • Hahmottele, mitkä keskeiset sisällöt haluat nostaa artikkelissa esille. Suunnittele näistä taulukoita tai kuvia. Listaa mieleen tulevia tietolähteitä. [19]
  • Aiheen hahmotuttua tee kirjallisuushaku tärkeäksi osoittautuneilla hakutermeillä. Mieti, haluatko tehdä laajan katsauksen ja käydä läpi alkuperäisjulkaisuja vai keskitytkö tiivistämään review-artikkelien sisältöä. Listaa ylös muutamalla lauseella jokaisen relevantin artikkelin pääasiallinen pointti artikkelisi kannalta.[20] [21]
  • Muista, että voit delegoida osan työstä muille, esimerkiksi kuvien teknisen piirtämisen tai muokkaamisen [22], tai viitteiden muokkaamisen sopivaan muotoon [23]. Verkkotyötilassa se on helppoa.
  • Voit myös kopioida tilapäisesti raakatekstiä muualta. Jos ajatukselle löytyy artikkelista sopiva kohta, tiivistä, muokkaa ja käännä teksti asiayhteyteen sopivaksi. Jos tekstiä ei tarvita, poista se sotkemasta luettavuutta. [24]
  • On syytä luetuttaa käsikirjoitusta niillä, jotka tuntevat aihepiiriä. Luultavasti he eivät kuitenkaan käytä verkkotyötilaa, joten kommentointi tapahtunee helpoimmin sähköpostilla, vaikka käsikirjoituksen jakaminen tietysti on kätevintä yksinkertaisesti antamalla linkki käsikirjoitukseen.[25]
  • Raakatekstiä pitää usein tiivistää ja muokata rankastikin, jotta artikkeliin tulee oma sanoma eikä se vain toistele ajatuksia, jotka ovat olleet viitteissä.[26]
  • Tarpeettomat viitteet kannattaa siirtää käsikirjoituksen ulkopuolelle mutta niin, että tarvittaessa vielä pystyt palaamaan niihin. Ne toimivat tausta-aineistona siitä, miten kirjoitusprosessi on edennyt. [27]
  • Korjaa käsikirjoitus refereiden ehdotusten mukaisesti. [28] Kommentit ja vastauksesi niihin on hyvä sijoittaa keskustelusivulle.[29]
  • Tarkista, että lehden tekijänoikeuskäytäntö sallii sinun pitää käsikirjoituksesi jaettuna verkkotyötilassa. Yleensä tämä on sallittua esimerkiksi opetustarkoituksessa.

Perustelut

Ohjeiden perustana on käytetty niitä havaintoja, kokemuksia ja oppeja, joita syntyi kirjoitettaessa artikkelia Massadata kansanterveyden edistämisessä Duodecim-lehden juhlanumeroon 2015.

Kirjoitusohjeita (ks. myös N:\YMAL\Publications\In_progress\Tuomisto_Duodecim):

  • Valistuneelle kohdeyleisölle, joka ei kuitenkaan ole alan asiantuntija.
  • DL 15.5.2015 Eija Rautiaiselle ((at)duodecim.fi)
  • Teemanumeron katsauksen pituus saa olla enintään 1 800 sanaa + kuvat + taulukot.
  • Artikkelissa tulee olla otsikkosivu, jossa on tekijöiden nimet, oppiarvot ja virka-asemat sekä laitosten nimet. Yhteyskirjoittajan osalta mainitaan lisäksi postiosoite.
  • Katsausten väliotsikoinnissa käytetään kaksiportaista asteikkoa (väliotsikko ja rivinalkuinen kursivoitu alaotsikko).
  • Kuvat tulisi lähettää erillistiedostoina, mielellään giff- tai jpg -muodossa.
  • Katsausartikkelin tehtävä on kertoa lukijalle käsiteltävästä aiheesta moniulotteisesti, asiantuntevasti ja tasapainoisesti. Oppikirjamaisuutta tulee välttää ja katsauksen onkin oltava kriittinen ja tutkimushavaintoja kypsästi tulkitseva. Pelkkä tutkimusten referointi ei riitä, vaan kirjoittajan on jäsennettävä tutkimusten tuloksia mahdollisimman laajoihin yhteyksiin. Aiheen tulee kiinnostaa suurinta osaa lehden lukijoita, joten myös kirjoituksen tyylin pitää tukea yleistä ymmärrettävyyttä. Katsauksessa olisi kyettävä – aiheen mukaan – tarjoamaan tietoa ja tukea myös niihin valintoihin, joita käytännön lääkäri joutuu arkityössään tekemään, kuten hoidon porrastukseen.

Tiivistelmä

Massadata eli suuraineistot tai erittäin suuret tietoaineistot yleistyvät kiihtyvää tahtia. Niitä tulee myös entistä enemmän vapaasti käytettäviksi. Artikkelissa esitellään yleispiirteisesti massadatan käyttöä molekyylibiologiassa ja toisaalta kansanterveydessä sekä näihin aihepiireihin liittyviä tietoaineistoja erityisesti suomalaisesta näkökulmasta. Suomessa on olemassa useita tärkeitä tietoaineistoja, joita ei vielä hyödynnetä tehokkaasti. Massadata on jo tähän mennessä tuottanut merkittäviä hyötyjä erityisesti solutason ilmiöiden ymmärtämisessä, mutta kansanterveydellinen ja yksilön valintoihin liittyvät hyödyt alkavat vasta tulla esiin. Tutkimuksen toimintamallit saattavat massadatan ja avoimen datan myötä muuttua radikaalisti, jos artikkelien sijasta aletaan keskittyä tietokiteiden eli joukkokirjoitettujen tutkimusvastausten tuottamiseen. Myös kliinikon rooli on on muuttumassa valmentajamaisemmaksi.

Big data (very large data sets) are increasing in an accelerating speed. More and more data is also becoming freely available. This article is an overview of this progress and data sources related to molecular biology and public health especially from the Finnish perspective. Finland has several excellent data sources that are currently not used effectively. Big data has already produced major benefits especially in molecular biology, but benefits in public health and individual choice are only now being materialised. The paradigm in research may change dramatically, if the effort switches from article production to the production of knowledge crystals, i.e. collaborative data-based answers to research questions. Also the role of a clinician is becoming more like that of a coach.

Johdanto

Massadata eli suuraineistot tai erittäin isot aineistot (big data) ovat yleistyneet viime vuosina nopeasti, ja tahti näyttää kiihtyvän teknologian myötä esimerkiksi molekyylibiologiassa. Kuitenkin massadatan hyödyntäminen on edennyt kliinisen lääketieteen alueella hitaammin kuin monilla muilla alueilla [1] [2]. Siksi onkin tarpeen luoda katsaus siihen, mitä massadata on, mihin sitä nykyään käytetään ja mitä haasteita ja mahdollisuuksia siihen liittyy. Artikkelissa tarkastellaan joitakin kiinnostavia ja ajankohtaisia piirteitä erityisesti kansanterveyden, lääketieteen ja yhteiskunnallisen päätöksenteon kannalta eikä niinkään pyritä koko aihepiirin kattamiseen.

Aluksi esitellään joitakin keskeisiä termejä (taulukko 1) ja nykyään käytössä olevia tietokantoja ja aineistoja erityisesti Suomen näkökulmasta. Sen jälkeen tarkastellaan menetelmiä ja käytäntöjä. Lopuksi pohditaan hyötyjä, haasteita ja mahdollisuuksia.

Taulukko 1. Uusia tärkeitä datan muotoja.
Termi Selite
Massadata eli suuraineistot "Big data". Suuret data-aineistot, joiden tilastollinen analyysi ei tahdo onnistua tavanomaisin menetelmin.
Avoin data "Open data" tai "open linked data". Tietoa, joka on saatavissa koneluettavassa muodossa maksutta ja niin, että tekijänoikeudet eivät rajoita sen jatkokäyttöä.
Omadata "MyData". Henkilöä itseään koskeva data, jonka käytöstä hän voi itse päättää. Tällä hetkellä ollaan rakentamassa käytäntöjä, joiden avulla henkilö voi antaa tai evätä tietojensa käyttöluvan haluamilleen tahoille omadataoperaattorinsa välityksellä riippumatta siitä, missä ja kenen järjestelmissä tieto sijaitsee. Henkilö voi myös lukea ja joissain tapauksissa korjata tai täydentää omadataansa.
Keinodata "Synthetic data". Avoin data, joka ulkomuodoltaan ja tilastollisilta ominaisuuksiltaan muistuttaa jotakin arkaluontoista dataa kuten potilasaineistoa ilman, että siitä voisi kuitenkaan päätellä kenenkään todellisen henkilön tietoja. Keinodataa voi käyttää tutkimuskysymysten ja tilastoanalyysien muotoilemiseen ja alustavaan testaamiseen, ennen kuin analyysi ajetaan vastaavalla todellisella datalla.[3]
Tietokide "Knowledge crystals". Koneluettavassa muodossa oleva vastaus johonkin täsmälliseen tutkimuskysymykseen. Tietokide on joukkoistettu, netissä jatkuvasti päivittyvä ja kiteytyvä kuvaus kaikesta siihen asti kerätystä havaintodatasta ja sen tulkinnasta. Se sisältää ymmärrettävät ja uskottavat perustelut sille, miten vastaus on johdettu datasta.[4]
Taustadata (datan pitkä häntä) "Long-tail data". Tarkoittaa laajaa joukkoa pieniä aineistoja, jotka kokonsa tai merkityksensä puolesta jäävät myös helposti julkaisematta. Näitä ovat esimerkiksi erilliset tietokannat, nollatulokset ja eläinkoepäiväkirjat. [5]

Molekyylibiologista massadataa

Lääketieteen ja terveyden kannalta tärkeitä massadata-aineistoja on maailmalla lukuisia, ja tässä voidaan vain raapaista pintaa ja esittää joitakin esimerkkejä. Zou ym. on hyvä katsaus molekyylibiologisiin tietokantoihin. [6] DNA- ja genomitietokannat sisältävät tietoa lukuisista lajeista ja toimivat esim. genomireferenssinä, yksilövaihtelun kuvaajina tai mikrobiomikantana. RNA-tietokannat sisältävät tietoa proteiinia koodaavista ja muista RNA-molekyyleistä. Proteiinitietokannat sisältävät tietoa proteiinisekvensseistä ja myös kolmiulotteisesta rakenteesta. Ekspressiotietokannat kuvaavat eri geenien ekspressiotasoja eri kudoksissa normaalitilanteessa tai erilaisissa olosuhteissa ja saattavat perustua niin RNA- kuin proteiinimittauksiinkin. Reittitietokannat (pathway databases) sisältävät tietoa metabolia-, signaalivälitys- ja säätelyreiteistä elimistössä. Sairaustietokannat kuvaavat erilaisia sairauksia ja niiden hoitoja, erityisesti syövän osalta.

Nämä tietokannat eivät ole ainoastaan datavarastoja alan tutkijoille, vaan on kehittynyt lukuisia menetelmiä ja lähestymistapoja rakentaa kokonaiskuvauksia massadatan pohjalta. Näitä voidaan kutsua nimellä systeemibiologia, jossa pyritään rakentamaan eri hierarkiatasoilla kuvauksia asioiden yhteyksistä aina molekyyli- ja solutasolle. [7]

Kuva 1. Massadataa hyödyntävä tutkimussykli, jossa tarkastellaan esimerkiksi geenien ilmenemiseroja sairailla ja terveillä. Geeniverkko tarkoittaa geenien välisten korrelaatioiden ja syysuhteiden kuvaamista verkostona, joka tuotetaan mittausdatasta. Kuva muokattu artikkelista [8].

Geenitutkimus on yksi varhaisista massadatan tuottajista biolääketieteen alueella. Siksi on hyödyllistä tarkastella esimerkkinä tutkimussykliä, jossa erilaiset lähestymistavat vuorottelevat ja tukevat toisiaan (Kuva 1.). Sykli alkaa tuottamalla suuri määrä primääridataa esimerkiksi geeneistä, niiden ilmentymisestä tai proteiinien määristä kudoksessa. Nämä "omics"-tekniikat ovat lisääntyneet ja kehittyneet valtavasti viime vuosien aikana. Tarkempaan tarkasteluun otetaan ilmiöt, jotka eroavat kiinnostavien ryhmien välillä kuten sairaiden ja terveiden tai altistuneiden ja altistumattomien. [9]

Tämän jälkeen löytyneitä eroja ja niihin liittyviä geenejä tutkitaan korrelaatioanalyysillä ja haetaan esimerkiksi osittaiskorrelaatioita. Näiden avulla voidaan edelleen rakentaa syy-seurausverkosto, joka kuvaa kiinnostavien ilmiöiden välisiä suhteita. Verkostoa voidaan käyttää tilanteen tarkasteluun ja hypoteesien luomiseen. Lopulta voidaan suunnitella uusia koeasetelmia hypoteesien testaamiseksi ja tuottaa uutta dataa. [8]

Uuden sukupolven sekvensointimenetelmät (next generation sequencing NGS, near-whole genome sequencing) ovat tehneet edellä kuvatut tutkimussyklit mahdollisiksi ja viime aikoina vieläpä lisänneet selvästi niiden tehoa. Tämä on muuttanut biologian tutkimuksen perustoimintatapoja. Nykyään on käytössä useita uusia menetelmiä lähes koko genomin tutkimiseen, mukaan lukien sen DNA-muunnokset, histonimuunnokset, transkriptiotekijöiden sitoutumisen, kromatiinin kolmiulotteiset vuorovaikutukset, RNA-transkription ja monia muita. Lisäksi nämä menetelmät paranevat jatkuvasti. [5]

Erittäin kiinnostavia ovat myös uudet menetelmät, joilla on opittu yhdistämään kattava genomikartoitus ja vertailemaan tietoa geenien alleelien esiintymisestä geeni-, RNA- ja proteiinitasolla. Näiden alleelien ja niiden proteiinituotteiden suhteita voidaan tutkia, ja lisäksi voidaan tarkastella, onko translaatiotasolla vaihtelua splicingissa eli introni-eksoniliitoksissa. On siis mahdollista saada hyvin kattava kuva solutason säätelystä eri vaiheissa ja lukuisten geenien ja proteiinien osalta samanaikaisesti. [5]

Verkossa toimivat pilvipalvelut ovat myös tuoneet uudenlaisen näkökulman massadataan. Tietoaineistot ja analyysimenetelmät voidaan irrottaa niiden vanhoista fyysistä puitteistaan ja siirtää palveluiksi pilvipalvelimille. Niinpä on alettu ajatella palveluina sellaisetkin asiat kuin data (data as a service, DaaS), analytiikka (AaaS), ohjelmistot (SaaS) ja jopa infrastruktuuri (IaaS). [10] Suomessa opetus- ja kulttuuriministeriön ylläpitämä CSC tarjoaa monia tällaisia palveluja.

Kliinistä ja kansanterveydellistä massadataa

Myös kliininen ja kansanterveydellinen massadata on nopeasti yleistynyt. Hallinnollisiin tietokantoihin kerätään terveydenhuollon seurantaan ja ohjaukseen liittyvää tietoa, ja sitä voidaan myös joskus käyttää kliiniseen laadunvarmistukseen. Tyypillisesti potilastiedot ovat näissä niukat, rajoittuen esimerkiksi sukupuoleen, ikäryhmään ja asuinkuntaan. Kliiniset tietokannat sisältävät tarkempaa tietoa potilaiden sairauksista ja toimenpiteistä; näitä on Suomessa paremmin ja kattavammin kuin useimmissa muissa maissa (esim. Kanta, katso taulukko 2). Myös sairauslähtöiset tietokannat (esim. syöpärekisteri) ovat Suomessa laadukkaita. Hoitolähtöisiä tietokantoja kerätään mm. monien laajojen kliinisten tutkimusten yhteydessä.

Taulukko 2. Suomalaista kansanterveydelllisesti hyödyllistä massadataa.
Datalähde Kuvaus Ylläpitäjä ja linkki
Kanta Kansallinen terveysarkisto on palvelu, jonka kautta voi käyttää sähköistä reseptiä, lääketietokantaa, potilastiedon arkistoa ja tiedonhallintopalvelua. Palvelun tietorakenne on lupaava, ja sisältö lisääntyy nopeasti. Jos datan laatu saadaan hyväksi, muodostuu Suomen tärkeimmäksi terveysalan massadataksi. Omakanta on kansalaisten palvelu, jonka avulla voi katsoa omia sähköisiä resepti- ja terveystietojaan internetistä. THL, STM, Kela, Valvira, VRK [30]
Syöpärekisteri Suomen Syöpärekisteri ylläpitää tietokantaa kaikista Suomessa vuodesta 1953 alkaen todetuista syöpätapauksista. Se on myös syöpätautien tilastollinen ja epidemiologinen tutkimuslaitos, joka tekee tiivistä kotimaista ja kansainvälistä yhteistyötä. Suomen Syöpäyhdistys, THL [31]
Rokotusrekisteri Terveyden ja hyvinvoinnin laitos ylläpitää Suomessa valtakunnallista rokotusrekisteriä. Rokotustiedot kerätään suoraan potilastietojärjestelmistä. Rokotusrekisterin avulla THL arvioi kansallisen rokotusohjelman kattavuutta, turvallisuutta ja vaikuttavuutta. THL [32]
Biopankit Biopankit sisältävät biologisia näytteitä, joita on kerätty erilaisten tutkimusten tai potilaiden hoidon yhteydessä. Biopankit vastaavat näytteiden säilytyksestä ja tarjoamisesta uusien tutkimusten käyttöön. [33]
Hilmo ja AvoHILMO Sairaaloiden hoitoilmoitusrekisteri Hilmo ja perusterveydenhuollon avohoidon AvoHILMO sisältävät tietoa sairaaloissa tehdyistä diagnooseista ja toimenpiteistä, perusterveydenhuollon laitoshoidosta, sosiaalihuollon laitos- ja asumispalveluista, kotihoidosta sekä avohoidon käyntien syistä ja hoitotapahtumista. THL [34] [35]
OIVA OIVA on ympäristö- ja paikkatietopalvelu, joka tarjoaa ympäristöhallinnon tietojärjestelmiin tallennettua tietoa vesivaroista, pintavesien tilasta, pohjavesistä, eliölajeista, ympäristön kuormituksesta ja alueiden käytöstä sekä ympäristöön liittyviä paikkatietoaineistoja. SYKE [36]
Opasnet Verkkotyötila ja tietokanta tietokiteiden tuottamiseen yhteiskunnallisen päätöksenteon tueksi. Tämän hetken aineistoa eniten liittyen ympäristöterveyteen (esim. ilmansaasteet, kaivosten riskit, juomavesi). THL [37]
YHTI ja KUTI Ympäristöterveydenhuollon kohdetietojärjestelmä YHTI on terveydensuojelun, kuluttajaturvallisuuden ja tupakkavalvonnan yhteinen tietojärjestelmähanke. KUTI on Eviran vastuulla olevan elintarvikevalvonnan tietojärjestelmähanke. Yhdessä YHTI ja KUTI muodostavat ympäristöterveydenhuollon tietojärjestelmähankkeen. Valvira [38]

Menetelmiä ja käytäntöjä

Suomalaisia strategioita massadatan edistämisessä. Suomessa on parin viime vuoden aikana julkaistu massadataan liittyviä selvityksiä tai strategioita ja käynnistetty avoimen tieteen ja tutkimuksen ATT-hanke sekä avoimen tiedon ohjelma. Sosiaali- ja terveystietojen tehokas käyttö on näissä tunnistettu tärkeäksi kansanterveyttä ja myös kansantaloutta edistäväksi tekijäksi. Myös soteuudistuksessa odotetaan datanhallinnan tehostuvan ja parantavan toiminnan laatua. Strategia kohdistaa huomion tiedon keräämisestä tiedon hyödyntämiseen henkilön omassa elämässä sekä potilas- ja asiakastyössä ja tutkimuksessa. Tiedon jalostaminen, saatavuus, läpinäkyvyys, vertailukelpoisuus, ajantasaisuus ja uusiokäyttö korostuvat. Lisäksi edistetään kansalaisen mahdollisuuksia tuottaa itse tietoa omaan, terveysammattilaisten ja palveluntarjoajien käyttöön. [11]

Kanta- ja muita järjestelmiä kehitetään tuottamaan kansallista vertailutietoa ja tietoa päätöksenteon tueksi. Tavoite on haastava jopa kansainvälisesti, kun tarkoitus on saada valtakunnallinen reaaliaikainen tietovarasto, josta voidaan tuottaa hyödyllistä ja konkreettista tietoa sosiaali- ja terveyssektorille ja myös sen ohjaamiseen. Sosiaali- ja terveydenhuollossa isona massadatan tuottamisen esteenä ovat olleet pirstoutunut tietojärjestelmä ja kuntakohtaiset ratkaisut sekä toimittajariippuvuus. Näitä asioita pyritään nyt sote-ratkaisulla ja mm. Kanta-hankkeella ratkomaan. Muita kunnianhimoisia hankkeita potilaskertomustietojen käyttämiseksi on mm. brittiläinen QResearch.

Bayes-verkot syysuhteiden kuvaamisessa. Datan tuotantomäärät ovat valtavat, joten tarvitaan myös menetelmiä datamäärien hallitsemiseen. Yksi tärkeistä, nopeasti yleistyvistä menetelmistä ovat Bayes-verkot. Ne kuvaavat ilmiöiden välisiä syysuhteita johdonmukaisesti käyttämällä todennäköisyyksiä. Syyverkostoja voidaan tehokkaasti ja havainnollisesti kuvata nuolikaavioina, joissa nuolet osoittavat syyseuraussuhteita ilmiöiden välillä, ja vastaavasti nuolen puuttuminen osoittaa riippumattomuuden. Kaavioiden avulla voidaan myös monimutkaiset suhteet pilkkoa ja päätellä syy-seuraussuhteita. [12] [13]

Bayes-verkkojen etuna on, että tiedon lisääntyessä niitä voidaan päivittää eli tuottaa posteriorijakaumia. Niitä voidaan myös ehdollistaa eli tarkastella tilanteita, joissa jotakin tekijää muutetaan. Aiemmin laskentakapsiteetti rajoitti Bayes-verkkojen kokoa ja hyödynnettävyyttä, mutta tilanne on parantunut sekä menetelmien että tietotekniikan myötä. [13]

Datamäärien paisuminen on paitsi aktivoinut kehittämään parempia tilastoanalyysimenetelmiä myös parantamaan datanhallinnan ja -jakamisen käytäntöjä. Datan pitää olla löydettävissä eli mahdollisimman avoimesti netissä jaettua. Sen pitää olla käyttöönotettavissa vähällä vaivalla ja hyvin kuvattua, jotta käyttäjä voi ymmärtää datan sisällön ja käyttökelpoisuuden uusiin tarkoituksiin. Sen käytön pitää olla myös sallittua eli turhia käyttörajoituksia tulee välttää. [5] Näiden datan avoimuuteen liittyvien vaatimusten lisäksi on myös tiedon käyttämiselle lisäohjeistuksia: tiedon käyttötarkoituksen tulee olla tiedossa, jotta käytön onnistumista voidaan arvioida sen suhteen; tietorakenteiden tulee olla johdonmukaiset ja siten uusiokäyttöä tukevat; ja tiedon käyttöprosessin tulee tukea sisällön kritiikkiä, jotta virheet huomataan nopeasti. [14]

Massadatan käsittelyn ja jalostamisen avuksi on tullut myös menetelmiä, jotka on alunperin kehitetty tavallisten aineistojen ja niiden välisten suhteiden kuvaamiseen. Näitä ovat mm. semanttiset verkot, ontologiat, aineistokuvailun viitekehykset (resource description framework, RDF) ja avoimen linkatun datan menetelmät. Lähitulevaisuudessa voi syntyä isojakin edistysaskelia, kun eri tieteenalojen tietokäytännöt leviävät uusiin käyttötarkoituksiin. [15] Myös erilaiset massadatan analysointii perustuvat päätöstukiärjestelmät voivat muuttaa yksittäisen potilaan hoitokäytäntöjä.

Keinodata arkaluontoisen tiedon hyödyntämisessä. Lääketieteessä massadatan käyttöä selvästi rajoittavat tärkeimpien tietoaineistojen eli potilastietojen arkaluontoisuus ja yksilönsuojan vaatimukset. Tähän ongelmaan on esitetty kiinnostava innovaatio eli keinodata. Se on dataa, joka muodostetaan potilasaineistosta siten, että se tilastollisilta ominaisuuksiltaan muistuttaa alkuperäistä dataa mutta ei kuvasta todellisia henkilöitä. Tällainen keinodata voidaan vapaasti julkaista avoimena datana, jolloin kuka tahansa voi sitä tutkia ja kehittää tilastokoodeja datan analysoimiseksi. Kun koodi on teknisesti toimiva ja alustavissa analyyseissä kiinnostava, alkuperäisen datan hallitsija voi vähällä vaivalla ajaa koodin alkuperäisellä datalla ja saada nopeasti uusia tuloksia sekä kunniaa itselleen ja koodin kehittäjälle. [3]

Koodin kehittäjän ei tarvitse välttämättä nähdä alkuperäisdataa lainkaan. Vaikka tämä ei koodin kehittäjän kannalta olekaan ihannetilanne, se on kuitenkin selvä edistysaskel nykytilanteeseen, joka yleensä edellyttää tutkimusyhteistyötä ja kuukausia kestävän lupaprosessin.

Omadata henkilötietojen hyödyntämisessä. Omadata tarkoittaa sellaista ihmistä koskevaa tietoa, jonka käytöstä hän voi itse päättää. Omadataa syntyy ja kertyy esimerkiksi näistä aihepiireistä: terveys, liikenne, energia, hallinto, itse kerätty tieto, pankki ja vakuutus, kauppa, verkkopalvelut sekä viestintä ja media. Esimerkiksi Kanta-järjestelmään ollaan kehittämässä Omakanta-palvelua rajapinnaksi terveystietojen katsomiseen ja itsekerätyn terveystiedon tallentamiseen.

Omadatassa pyritään yhdistämään ihmiskeskeisyys, tietojen hyödynnettävyys, yhteentoimivyys ja hajautettavuus sekä liiketoimintamahdollisuudet. Ihmisellä on siis oikeus ja mahdollisuus hallita tietojaan, pitää ne saatavilla koneluettavasti ja hajauttaa tai siirtää tietonsa haluamilleen ylläpitäjille. Tämä avaa uusille toimijoille ja liiketoiminnalle mahdollisuuksia ja rikkoo sektorirajoja. [16]

Omadatasta voi tulla avointa dataa tietoja yhdistelemällä ja anonymisoimalla tai siten, että ihminen päättää avata omia tietojaan vapaasti käytettäväksi. Tällaista data-altruismia on nähty Suomessakin, kun tutkija Leena Palotie avasi sairastuttuaan omia tietojaan tutkimukselle.

Omadatan ihmisnäkökulma ja massadatan yritysnäkökulma täydentävät toisiaan. Omadata tuo läpinäkyvyyttä ja sitä kautta hyväksyttävyyttä henkilöihin liittyvien datamassojen käsittelyyn ja antaa konkreettisia keinoja yksityisyydensuojan toteuttamiseen. Tämä edistää massadatan kehittymistä.

Itsensä mittaaminen on maailmanlaajuisesti nopeasti kasvava trendi, jossa ihmiset uusien laitteiden ja teknologian avulla keräävät, analysoivat ja hyödyntävät kaikkea mahdollista omaan kehoon, ympäristöön ja toimintaan liittyvää dataa. Osa tästä on terveyden edistämisen tai hoidon kannalta hyödyllistä. Verenpainemittareiden, verkkoyhteydellä varustettujen henkilövaakojen, aktiivisuusrannekkeiden ja näihin liittyvien palvelujen kehitys tuo arkeen aivan uudenlaisia mahdollisuuksia elintapojen parantamiseen. Tämä voi vähitellen muuttaa terveydenhuollon painopistettä ja lääkärien työtä kohti erikoistunutta sairauksien hoitoa ja ennaltaehkäisyä.

Massadatan hyödyt

Massadatalla on lukuisia käyttökohteita, ja on luultavaa, että vain pieni osa niistä on tähän mennessä keksitty. Massadata muuttanee ihmisten ajattelutapaa ja ajan kuluessa tuottaa arvaamattomia hyötyjä. Käsityksemme saattaa muuttua jopa siitä, miten havainnot, data, julkaiseminen ja toiminta kytkeytyvät toisiinsa. Tässä nostetaan joitakin esimerkkejä siitä, millaisiin asioihin massadataa on tähän mennessä käytetty ja millaisia hyötyjä siitä on saatu.

Suomen rekisterit ovat hyviä ja osaaminen ja infra kunnossa. Massadata korostaa yhteistyön, luottamuksen ja avoimuuden merkitystä, ja näissä asioissa Suomi on edellä useimpia muita maita, vaikka massadataprojektit toistaiseksi ovat edenneet nopeammin esimerkiksi Yhdysvalloissa ja Isossa-Britanniassa. Erityisen hyviä mahdollisuuksia tunnistetaan itsehoidon, ennaltaehkäisyn ja ikääntyvien ihmisten palveluille. Vahvuuksia on bioinformatiikan, molekyylilääketieteen ja itsemittausteknologioiden alalla (esimerkiksi suomalaisyritykset Suunto, Firstbeat ja Polar ovat alan pioneereja). [17]

Yksittäisten koeasetelmien hypoteesien testaamiseen saadaan lisää tilastollista voimaa hyödyntämällä massadataa. Hypoteeseja voidaan rakentaa populaatioiden vastekirjosta. Laajoja aineistoja voidaan käyttää hypoteesien luomiseen. [5] Populaation ominaisuuksia voidaan kuvata rikkaasti laajoista, edustavista potilasaineistoista. Riskitekijöitä voidaan tunnistaa ja ennustavia ja diagnostisia malleja voidaan rakentaa datan perusteella. Voidaan tarkastella erilaisten interventioiden vaikutusta kokeellisissa ja luonnollisissa asetelmissa. Terveyspalveluiden tuottajien vaikuttavuutta voidaan vertailla. Massadataa voidaan käyttää myös lisämateriaalina tulkittaessa jonkin toisen tutkimuksen aineistoa. Systeemivirheiden tunnistaminen helpottuu. [18]

Massadatan hyödyntäminen terveydenhuollossa tuo mahdollisuuksia sekä datan analysointiin perustuvalle tutkimukselle että diagnostiikalle. On tulossa mahdolliseksi jopa potilaskohtaiset tilastoanalyyit, jotka tuottavat henkilökohtaisia hoitosuosituksia tehokkaan laskennan, laajojen henkilöaineistojen ja tekoälyn avulla. [1] Yksityisyyttä voi suojata erottamalla yksilödatan ja yhteenvedot erillisiin tietojärjestelmiin, joissa on erilainen suojaus. [2]

Geenitekniikat mahdollistavat entistä tarkemman analyysin, ja esimerkiksi infektioiden leviäminen yksilötasolla voidaan joskus selvittää patogeenien muuntumista tutkimalla, jolloin torjunnassa päästään aivan uudenlaiseen tilanteeseen. [19]

Hallinnon prosessit tehostuvat ja palvelut paranevat, läpinäkyvyys lisääntyy ja resurssit kohdentuvat tarkemmin. Yritysten innovaatiokyky, tehokkuus ja asiakaskokemus paranevat ja voitot lisääntyvät. Kansalaisten valinnanmahdollisuudet, palvelut ja omien tietojen hallinta paranevat. Yhteiskunnallisen osallistumisen mahdollisuudet lisääntyvät. Tutkimuksessa mahdollisuudet laajoihin hankkeisiin, tietojen yhdistelyyn, laadun parantamiseen ja vaikuttavuuteen paranevat. [17]

Massadatan haasteet ja kehityskohteet

Massadatan haasteista on esitetty lukuisia näkemyksiä, joista tässä esitetään vain suppea yhteenveto. [5] [2] [18]

Tutkimuskulttuuri ja palkitsemisjärjestelmät eivät tue datan jakamista. On epäselvää, miten jaetaan meriitti jos yksi tuottaa massadataa ja toinen analysoi ja julkaisee tulokset. Tutkijat esimerkiksi pelkäävät muiden varastavan datassa piilottelevat skuupit.

Isoja eettisiä kysymyksiä on ratkaisematta. Voiko datalla tehdä muuta kuin alkuperäisessä tutkimusluvassa on sanottu? Voiko toisen tuottaman datan laatuun luottaa? Murtuuko henkilösuoja anonymisoinnista huolimatta, jos data sisältää runsaasti tietoa henkilön ominaisuuksista? Kuka kontrolloi tiedon keräämistä ja suojaa yksilöä?

Massadataa on runsaasti mutta se on hajanaista, tuotettu useilla menetelmillä ja eläinlajeilla ja vaikeasti standardoitavissa. Datan kasvaessa sen analysointi vaikeutuu ja tarvitaan uusia algoritmejä ja niidenkin jakamista. Kausaalisuuksien löytäminen kohinasta on haastavaa, vaikka asioita on opittu peilaamaan vasteisiin paremmin ja mittaaminen on muuttunut helpommaksi. Nykyteoriat ovat usein kuvailevia pikemmin kuin ennustavia ja perustuvat pieniin aineistoihin. Teorioista pitäisi tehdä selkeämpiä, ennustavia ja kattavampia ja tulkintoja pitäisi kuvata täsmällisemmin.

Kliinisessä tutkimuksessa tunnistettuja massadaan liittyviä haasteita ovat mm. otoskoko, valintaharha, dokumentointi- ja tulkintaongelmat, puuttuvat havainnot, riippuvuusongelmat ja datanhallintaongelmat. [20] Ehkä yllättäenkin voi olla vaikea saada uskottavia tilastollisia merkitsevyyksiä, kun havaintojen lisäksi myös mitattuja attribuutteja on valtavia määriä.

Datasta yhteiskunnalliseen vaikuttavuuteen on monta porrasta, eikä tämä arvoketju ole lainkaan aukoton. Mittaaminen helpottuu nopeammin kuin merkityksellisten analyysien tekeminen ja vaarana on infoähky. Käytettävyys ei myöskään takaa käyttöä, elleivät päättäjät halua tai osaa käyttää tietoa.

Yleispäätelmä on, että tarvitaan kulttuurinmuutosta, matemaattisesti orientoituneita tutkijoita ja ennakkoluulottomia, kattavia ja testattavia teorioita ja parempia teoreettisia viitekehyksiä sekä teknologista kehitystä. Tässä auttavat tietojen standardointi, tiedon uusiokäyttö ja tiivis yhteistyö kollegojen ja päättäjien kanssa. Muutokset myös edellyttävät tietokokonaisuuksien hahmottamista, asiakaslähtöisyyttä, yhteisiä käytäntöjä, järjestelmäriippumattomuutta ja muutoksen resursointia. [17]

Lopuksi

Kahnemanin ja Tverskyn kuvaama hidas, harkitseva ajattelu [21] nousee tärkeäksi osaksi massadataa, koska mahdollisuudet tuottaa yhteisöllisesti verkossa hidasta, rationaalista ajattelua paranevat eksponentiaalisesti avoimen datan ja massadatan ansiosta. Tällöin on mahdollista lisätä hitaan ajattelun merkitystä yhteiskunnallisten päätösten perustana ja erityisesti tarkastella monipuolisesti yhden hallinnonalan päätöksen vaikutuksia muiden alojen vaikutuksiin kuten terveyteen tai ympäristöön.

Massadata ja avoin data myös haastavat nykyisen paradigman tieteellisestä artikkelista tieteellisen tiedontuotannon perusyksikkönä. On näyttöä siitä, että tieteen edistymisen kannalta kaikkien tutkimustulosten julkaiseminen on parempi kuin julkaisemista rajoittava, ennakkoon tehty vertaisarviointi. [22] Millainen siis olisi uudenlainen, massadatan ja avoimuuden hyödyt huomioiva paradigma? Suuntaa voi lähteä etsimään kehittämällä toimintamalleja, joissa on sisäänrakennettuna keskeiset tutkimuksen periaatteet ja joiden avulla voidaan tuottaa tietokiteitä eli jatkuvasti päivittyviä kuvauksia tutkimusaiheista staattisten artikkelien sijasta. [14]

Tällöin voidaan päästä siihen, että syntyy vain yksi tietokide ja siihen liittyvä datavarasto yhden aiheen ympärille sen sijaan, että jokainen aihepiirin tutkija julkaisee oman tutkimuksensa erillisenä artikkelina. Tutkija siis julkaisee datansa eli sen mitä hän on löytänyt, sen sijaan että hän julkaisisi artikkeleissa kuvailuja siitä, mitä hän luulee löytäneensä. Tietokide on siis tutkijayhteisön joukkoyhteistyöllä tuottama jaettu ymmärrys aiheesta; päivittyvä kuvaus, joka on jatkuvasti kritiikin ja siitä nousevan kehitystyön kohteena.

Silloin huomio kohdistuu uuden datan tuomaan lisäarvoon eli kykyyn päivittää posteriorijakaumaa. Tieto tulee tehokkaammin käytetyksi, ja aiheesta tarvittavan tekstin määrä vähenee helpottaen aiheesta kirjoittavan ja siihen perehtyvän työtä. Niinpä tietokiteillä voi tutkimuksessa olla samanlainen vaikutus kuin Wikipedialla tietosanakirjamarkkinoilla. Mutta tämä onnistuu vain, jos jakamistalouden palkitsemisjärjestelmät saadaan kuntoon ja datan jakamisesta sekä yhteiskirjoittamisesta tulee yksittäiselle tutkijalle tieteellisesti ja taloudellisesti palkitsevaa työtä.

Kliinikon näkökulmasta on tulossa ainakin kaksi muutosta: erilaiset henkilökohtaisen terveystiedon keräämisen välineet lisääntyvät. Potilaasta tulee tärkeä tiedon tuottaja, ja hän voi tarjota lääkärille esimerkiksi kännykän keräämää kuukausien liikuntadataa, jonka merkitystä hoidon kannalta pitäisi pystyä arvioimaan. Toisaalta potilaat pystyvät tekemään entistä perusteellisempia oma-arviointeja ja vertailuja netissä ja tarjota omia diagnoosi- ja hoitoehdotuksiaan lääkärille. Lääkärin rooli on muuttumassa asiantuntija-auktoriteetista valmentajaksi.

Ydinasiat

  • Massadata muuttaa tutkimuksen toimintakulttuuria ja lisää avoimuuden ja yhteistyön tarvetta.
  • Suomalaiset terveysaineistot ovat laadukkaita ja niissä on paljon toistaiseksi hyödyntämätöntä potentiaalia.
  • Massadata on jo nyt luonut paljon tärkeitä innovaatioita, mutta se tuottaa myös haasteita liittyen yksityisyydensuojaan ja tietotyön palkitsemiseen.
  • Tietokiteet eli jatkuvasti päivittyvät, avoimeen dataan perustuvat vastaukset tutkimuskysymyksiin voivat muuttaa tutkimuksen julkaisemisen paradigman.

Avainsanat

Massadata, tietovarannot, tiedon hyödyntäminen, päätöksenteko, terveystutkimus, tietokide

Viitteet

  1. Siirry ylös kohtaan: 1,0 1,1 Dilsizian SE, Siegel EL. Artificial Intelligence in Medicine and Cardiac Imaging: Harnessing Big Data and Advanced Computing to Provide Personalized Medical Diagnosis and Treatment. Curr Cardiol Rep 2014 (16)441 DOI 10.1007/s11886-013-0441-8
  2. Siirry ylös kohtaan: 2,0 2,1 2,2 Choudhury S, Fishman JR, McGowan ML, Juengst ET. Big data, open science and the brain: lessons learned from genomics. Frontier in Human Neuroscience 2014 8. doi: 10.3389/fnhum.2014.00239
  3. Siirry ylös kohtaan: 3,0 3,1 Karvanen J. ReplicaX - R code for data replica generation. 2014 [1]
  4. Tuomisto JT, Pohjola M, Rintala T, Happonen E. Shared information objects in policy support. Opasnet 2015. [2]
  5. Siirry ylös kohtaan: 5,0 5,1 5,2 5,3 5,4 5,5 Editorial. Focus on big data. Nature Neuroscience 2014 (17)11: 1429. doi:doi:10.1038/nn.3856. Sisältää useita tässä siteerattuja artikkeleita (Shin; Kitchen; Cunningham; Sejnowski; Poldrak, Gomez-Marin; ja Lichtman) sivuilla 1430-1517.
  6. Zou D, Ma L, Yu J, Zhang Z. Biological Databases for Human Research. Genomics Proteomics Bioinformatics 2015 (13): 55–63 [3]
  7. Altaf-Ul-Amin, Afendi FM, Kiboi SK, Kanaya S. Systems Biology in the Context of Big Data and Networks. Biomed Research International 2014 [4]
  8. Siirry ylös kohtaan: 8,0 8,1 Xiaoxi Dong, Anatoly Yambartsev, Stephen A Ramsey, Lina D Thomas, Natalia Shulzhenko, and Andrey Morgun. Reverse enGENEering of Regulatory Networks from Big Data: A Roadmap for Biologists. Bioinform Biol Insights. 2015; 9: 61–74. doi:10.4137/BBI.S12467
  9. Bolouri H. Modeling genomic regulatory networks with big data. Cell Press 2014 (30)5: 182-191 [5]
  10. Dai L, Gao X, Guo Y, Xiao J, Zhang Z. Bioinformatics clouds for big data manipulation. Biology Direct 2013 (7)43 [6]
  11. Tieto hyvinvoinnin ja uudistuvien palvelujen tukena. Sote-tieto hyötykäyttöön -strategia 2020. Sosiaali- ja terveysministeriön julkaisuja 2015. ISBN 978-952-00-3548-8 [7]
  12. Yoo C, Ramirez L, Liuzzi J. Big Data Analysis Using Modern Statistical and Machine Learning Methods in Medicine. International Naurourology Journal 2014 18:50-57 [8]
  13. Siirry ylös kohtaan: 13,0 13,1 Olli-Pekka Ryynänen. Bayesilainen ennustaminen potilastyössä. Duodecim 2009;125(5):483-5. [9]
  14. Siirry ylös kohtaan: 14,0 14,1 Tuomisto JT, Pohjola M, Pohjola P. Avoin päätöksentekokäytäntö voisi parantaa tiedon hyödyntämistä. Yhteiskuntapolitiikka 2014 1: 66-75. [10]
  15. Wu H, Yamaguchi A. Semantic Web technologies for the big data in life sciences. BioScience Trends. 2014; 8(4):192-201.
  16. Poikola A, Kuikkaniemi K, Kuittinen O. MyData - johdatus ihmiskeskeiseen henkilötiedon hyödyntämiseen. Liikenne- ja viestintäministeriö 2014. ISBN 978-952-243-418-0 [11]
  17. Siirry ylös kohtaan: 17,0 17,1 17,2 Rastas T, Asp E (toim.). Big datan hyödyntäminen. Liikenne- ja viestintäministeriön julkaisuja 20 / 2014. ISBN 978-952-243-407-4 [12]
  18. Siirry ylös kohtaan: 18,0 18,1 Cook JA, Collins GS. The rise of big clinical databases. BJS Society Ltd 2015: e93-e101. DOI: 10.1002/bjs.9723
  19. Kao RR, Haydon DT, Lycett SJ, Murcia PR. Omics: Fulfilling the Promise. Supersize me: how whole-genome sequencing and big data are transforming epidemiology. Cell Press 2014, (22)5: 282-291[13]
  20. Wang W, Krishnan E. Big Data and Clinicians: A Review on the State of the Science. JMIR Med Inform 2014 2(1):e1 [14] doi:10.2196/medinform.2913
  21. Kahneman D. Thinking, Fast and Slow. Macmillan, 2011. ISBN 978-1-4299-6935-2
  22. van Assen MALM, van Aert RCM, Nuijten MB, Wicherts JM. Why Publishing Everything Is More Effective than Selective Publishing of Statistically Significant Results. PLOS One 2014. DOI:10.1371/journal.pone.0084896. [15]

Ohjeita ym

  • Kirjallisuusviitteiden esittämisessä noudatetaan Vancouver-järjestelmää (tekstiin numeroidut viitteet) ja kirjallisuusluettelo laaditaan lehden yleisten kirjoitusohjeiden mukaan, esim. Dagfinrud H, Kvien TK, Hagen KB. Physiotherapy interventions for ankylosing spondylitis. The Cochrane Database of Systematic Rewievs 2013, Issue 4. Art. No.:CD002822. DOI: 10.1002/14651858.CD2822.pub2. Teemanumeron katsausta ei tulisi kuormittaa viitteillä (max. 30).


Tämä sivu on tiedonmuru. Tämä sivu poikkeaa muusta Opasnetin sisällöstä sen suhteen ettei se ole vapaasti muokattavissa. Käyttäessäsi sivun sisältämää tietoa muualla ole hyvä ja viittaa tähän sivuun näin:

Jouni T. Tuomisto: Massadata kansanterveyden edistämisessä. Opasnet 2015. Viitattu 02.04.2025. (, Duodecim)




[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

  1. Chute CG, Ullman-Cullere M, Wood GM, Lin SM, He M, Pathak J. Some experiences and opportunities for big data in translational research. Genet Med. 2013 15(10): 802–809. doi:10.1038/gim.2013.121.
  2. Ferguson AR, Nielson JL, Cragin MH, Bandrowski AE, Martone ME. Big data from small data: data-sharing in the ‘long tail’ of neuroscience. Nature Neuroscience 2014 (17)11: 1442-1448
  3. Greene CS, Tan J, Ung M, Moore JH, Cheng C. Big Data Bioinformatics. J. Cell. Physiol. 2014 229: 1896–1900 DOI: 10.1002/jcp.24662
  4. Maze I, Shen L, Zhang B, Garcia BA, Shao N, Mitchell A, Sun HS, Akbarian S, Allis CD, Nestler EJ. Analytical tools and current challenges in the modern era of neuroepigenomics. Nature Neuroscience 2014 (17)11: 1476-1490 doi:10.1038/nn.3829
  5. Merelli I, Pérez-Sánchez H, Gesing S, and D’Agostino D. Managing, Analysing, and Integrating Big Data in Medical Bioinformatics: Open Problems and Future Perspectives, BioMed Research International 2014: 1-13 [16]
  6. Sejnowski TJ, Churchland PS & Movshon JA. Putting big data to good use in neuroscience. Nature Neuroscience 2014 (17)11: 1440-1441 doi:10.1038/nn.3829
  7. Shin J, Ming GL, Song H. Decoding neural transcriptomes and epigenomes via high-throughput sequencing. Nature Neuroscience 2014 (17)11: 1463-1475 doi:10.1038/nn.3829
  8. Kitchen RR, Rozowsky JS, Gerstein MB, Nairn AC. Decoding neuroproteomics: integrating the genome, translatome and functional anatomy. Nature Neuroscience 2014 (17)11: 1491-1499 doi:10.1038/nn.3829
  9. Cunningham JP, Yu BM. Dimensionality reduction for large-scale neural recordings. Nature Neuroscience 2014 (17)11: 1500-1509 [17] doi:10.1038/nn.3776
  10. Poldrack RA, Gorgolewski KJ. Making big data open: data sharing in neuroimaging. Nature Neuroscience 2014 (17)11: 1510-1517 doi:10.1038/nn.3829
  11. Gomez-Marin A, Paton JJ, Kampff AR, Costa RM, Mainen ZF. Big behavioral data: psychology, ethology and the foundations of neuroscience. Nature Neuroscience 2014 (17)11: 1455-1462 doi:10.1038/nn.3812
  12. Lichtman JW, Pfister H, Shavit N. The big data challenges of connectomics. Nature Neuroscience 2014 (17)11: 1448-1454 doi:10.1038/nn.3829