Ero sivun ”Massadata kansanterveyden edistämisessä” versioiden välillä

Kohteesta Opasnet Suomi
Loikkaa: valikkoon, hakuun
(suomennostiivistys etenee)
Rivi 20: Rivi 20:
  
 
<ref name="cunningham">John P Cunningham & Byron M Yu; Dimensionality reduction for large-scale neural recordings. [http://www.nature.com/neuro/journal/v17/n11/full/nn.3776.html doi:10.1038/nn.3776]</ref>
 
<ref name="cunningham">John P Cunningham & Byron M Yu; Dimensionality reduction for large-scale neural recordings. [http://www.nature.com/neuro/journal/v17/n11/full/nn.3776.html doi:10.1038/nn.3776]</ref>
 
<ref name="dai">Lin Dai, Xin Gao, Yan Guo, Jingfa Xiao and Zhang Zhang; [http://www.biologydirect.com/content/7/1/43 Bioinformatics clouds for big data manipulation]</ref>
 
  
 
<ref name="editorial">Focus on big data. Nature Neuroscience editorial, Volume 17, number 11, November 2014</ref>
 
<ref name="editorial">Focus on big data. Nature Neuroscience editorial, Volume 17, number 11, November 2014</ref>
Rivi 69: Rivi 67:
  
  
Lääketieteen ja terveys kannalta tärkeitä massadata-aineistoja on maailmalla lukuisia, ja tässä voidaan vain raapaista pintaa ja esittää joitakin esimerkkejä. Zou ym. on hyvä katsaus näihin tietokantoihin.
+
Lääketieteen ja terveyden kannalta tärkeitä massadata-aineistoja on maailmalla lukuisia, ja tässä voidaan vain raapaista pintaa ja esittää joitakin esimerkkejä. Zou ym. on hyvä katsaus näihin tietokantoihin.
 
<ref name="zou">Dong Zou, Lina Ma, Jun Yu, Zhang Zhang; [http://dx.doi.org/10.1016/j.gpb.2015.01.006 Biological Databases for Human Research.] Genomics Proteomics Bioinformatics 13 (2015) 55–63</ref>
 
<ref name="zou">Dong Zou, Lina Ma, Jun Yu, Zhang Zhang; [http://dx.doi.org/10.1016/j.gpb.2015.01.006 Biological Databases for Human Research.] Genomics Proteomics Bioinformatics 13 (2015) 55–63</ref>
 
DNA- ja genomitietokannat sisältävät tietoa lukuisista lajeista ja toimivat esim. genomireferenssinä (NCBI RefSeq), yksilövaihtelun kuvaajina (dbSNP) tai mikrobiomikantana (IMG/HMP). RNA-tietokannat (GENCODE) sisältävät tietoa proteiinia koodaavista ja muista RNA-molekyyleistä. Proteiinitietokannat (PDB) sisältävät tietoa proteiinisekvensseistä ja myös kolmiulotteisesta rakenteesta. Ekspressiotietokannat kuvaavat eri geenien ekspressiotasoja eri kudoksissa normaalitilanteessa tai erilaisissa olosuhteissa (TiGER) ja saattavat perustua niin RNA- kuin proteiinimittauksiinkin. Reittitietokannat (pathway databases) sisältävät tietoa metabolia-, signaalivälitys- ja säätelyreiteistä elimistössä (KEGG PATHWAY). Sairaustietokannat kuvaavat erilaisia sairauksia ja niiden hoitoja, erityisesti syövän osalta (The Cancer Genome Atlas TCGA).  
 
DNA- ja genomitietokannat sisältävät tietoa lukuisista lajeista ja toimivat esim. genomireferenssinä (NCBI RefSeq), yksilövaihtelun kuvaajina (dbSNP) tai mikrobiomikantana (IMG/HMP). RNA-tietokannat (GENCODE) sisältävät tietoa proteiinia koodaavista ja muista RNA-molekyyleistä. Proteiinitietokannat (PDB) sisältävät tietoa proteiinisekvensseistä ja myös kolmiulotteisesta rakenteesta. Ekspressiotietokannat kuvaavat eri geenien ekspressiotasoja eri kudoksissa normaalitilanteessa tai erilaisissa olosuhteissa (TiGER) ja saattavat perustua niin RNA- kuin proteiinimittauksiinkin. Reittitietokannat (pathway databases) sisältävät tietoa metabolia-, signaalivälitys- ja säätelyreiteistä elimistössä (KEGG PATHWAY). Sairaustietokannat kuvaavat erilaisia sairauksia ja niiden hoitoja, erityisesti syövän osalta (The Cancer Genome Atlas TCGA).  
  
* World map, KAMPO, JAMU, Tea Pot (Altaf-Ul-Amin et al)
+
Nämä tietokannat eivät ole ainoastaan datavarastoja alan tutkijoille, vaan on kehittynyt lukuisia menetelmiä ja lähestymistapoja rakentaa kokonaiskuvauksia massadatan pohjalta. Näitä voidaan kutsua nimellä systeemibiologia, jossa pyritään rakentamaan molekyyli- ja solutason kuvauksia asioiden yhteyksistä.
 
<ref name="altaf-ul-amin">Md. Altaf-Ul-Amin, Farit Mochamad Afendi, Samuel Kuria Kiboi, and Shigehiko Kanaya; [http://www.hindawi.com/journals/bmri/2014/428570/ Systems Biology in the Context of Big Data and Networks]</ref>
 
<ref name="altaf-ul-amin">Md. Altaf-Ul-Amin, Farit Mochamad Afendi, Samuel Kuria Kiboi, and Shigehiko Kanaya; [http://www.hindawi.com/journals/bmri/2014/428570/ Systems Biology in the Context of Big Data and Networks]</ref>
  
Zou: Erityyppiset tietokannat. Esitellään eri tyypit ja ehkä mainitaan esimerkkejä mutta muuten viitataan artikkeliin.
+
Massadataksi voidaan luokitella myös useita kliinisiä tietokantoja, ja ne ovatkin nopeasti yleistyneet. Tämä onkin toivottavaa, koska edustavuus, systeemivirheiden tunnistaminen ja tilastollinen voima paranevat. Haasteena kuitenkin datan oikea käyttö ja tulkinta uudessa käyttötarkoituksessa.
DNA, RNA; proteiini, ...
 
 
 
 
 
Large clinical database research studies are becoming ubiquitous.
 
This is to be welcomed, with potential benefits
 
including representativeness, data from large numbers of
 
patients, identification of systemic problems, and precision
 
of estimation in statistical analyses. They are particularly
 
well suited to summarizing a population, and looking at
 
associations and variations between groups or over time.
 
However, the limitations of such data sources must not be
 
overlooked, and each research study needs to be considered
 
carefully in its own right and the validity of the data
 
used for this purpose. Large numbers should not preclude
 
or supersede assessment of the relevance, fitness for purpose
 
and reliability of the data collected, and the statistical
 
methodology adopted.
 
 
<ref name="cook">J. A. Cook and G. S. Collins; The rise of big clinical databases. DOI: 10.1002/bjs.9723</ref>
 
<ref name="cook">J. A. Cook and G. S. Collins; The rise of big clinical databases. DOI: 10.1002/bjs.9723</ref>
  
Cook:
+
Hallinnollisiin tietokantoihin kerätään terveydenhuollon seurantaan ja ohjaukseen liittyvää tietoa, ja sitä voidaan myös joskus käyttää kliiniseen laadunvarmistukseen. Tyypillisesti potilastiedot ovat näissä niukat, rajoittuen esimerkiksi sukupuoleen, ikäryhmään ja asuinkuntaan. Kliiniset tietokannat sisältävät tarkempaa tietoa potilaiden sairauksista ja toimenpiteistä; näitä on Suomessa paremmin ja kattavammin kuin useimmissa muissa maissa (esim. Hilmo ja AvoHILMO, katso taulukko 2). Sairauslähtöiset tietokannat (esim. syöpärekisteri) ovat myös Suomessa laadukkaita. Hoitolähtöisiä tietokantoja kerätään mm. monien laajojen kliinisten tutkimusten yhteydessä.
 
 
Table 1 Types of clinical database and examples
 
 
 
Administrative databases
 
 
 
Routine data collected for the purpose of administering healthcare. The data can be used to monitor activity and
 
support local service planning as well as for some form of clinical quality assessment. An important distinction is
 
between where the data are being collected primarily for clinical management and process monitoring purposes,
 
and where they are used for health insurance reimbursement. Only limited patient characteristics (e.g. age, sex,
 
postcode and presentation) along with diagnosis and procedure information are typically recorded
 
 
 
Clinical management database example: The Hospital Episode Statistics (HES)12 database is an administrative
 
database of hospital admission, outpatient appointments, and accident and emergency attendances at National
 
Health Service hospitals in England. Data collection ends once the patient has completed the hospital episode
 
(e.g. discharged from hospital)
 
 
 
Health insurance reimbursement claims database example: The Medicare Provider Analysis and Review file
 
(MedPAR)13 is an administrative database that contains data on Medicare beneficiaries who receive services at
 
inpatient facilities in the USA. Each Medicare beneficiary has a unique identification number
 
 
 
Clinical databases
 
 
 
These include databases in which the data have been collected specifically to assess a particular clinical outcome.
 
Eligibility may be disease-based or procedure/device-based. In contrast to administrative data, important
 
relevant clinical factors are collected, and also a wider range of outcomes and information on co-morbidities
 
 
 
Disease-based clinical database example: The Swedish Colon Cancer Registry2, set up in 2007, collects data on all
 
patients diagnosed with adenocarcinoma of the colon in Sweden. The primary aim of this registry is to monitor
 
clinical quality. Data collected include patient demographics and diagnosis, preoperative management, surgical
 
procedure, pathology report and outcomes.
 
 
 
Treatment-based clinical database example: The American College of Surgeons National Surgical Quality
 
Improvement Program (ACS NSQIP) database collects data on patients undergoing major surgery at a
 
participating institution; these are mostly US Department of Veteran Affairs hospitals, although there are some
 
private institutions and hospitals in other countries. The data collection was set up specifically to enable
 
risk-adjusted clinical outcome to be calculated. Data are collected on a sample of eligible patients for each
 
institution, and include patient demographics, preoperative medical history, intraoperative data, clinical findings
 
(e.g. postoperative diagnosis) and laboratory investigations, along with postdischarge outcome data
 
(complications, further procedures and mortality) for 30 days after surgery
 
 
 
  
 
{| {{prettytable}}
 
{| {{prettytable}}
Rivi 183: Rivi 124:
 
|}
 
|}
  
;Table 1 Cloud resources in bioinformatics (Dai et al)
+
Verkossa toimivat pilvipalvelut ovat myös tuoneet uudenlaisen näkökulman massadataan. Tietoaineistot ja analyysimenetelmät voidaan irrottaa niiden vanhoista fyysistä puitteistaan ja siirtää palveluiksi pilvipalvelimille. Niinpä on alettu ajatella palveluina sellaisetkin asiat kuin data (Data as a Service DAAS: GenBank, Ensembl, 1000 Genomes, Model Organism Encyclopedia of DNA Elements, Unigene), ohjelmistot (Software as a Service SaaS: genomianalyysipalvelu CloudAligner, sekvenssikartoitus CloudBLAST, geeniekspressiotyökalu Myrna), verkkotyötilat (Platform as a Service PaaS: sekvenssianalyysityötila Eoulsan, laaja-alaisen data-analyysin verkkotyötila Galaxy Cloud) tai jopa infrastruktuuri (Infrastructure as a Service IaaS: bioinformaatiolaskentakone Cloud BioLinux, virtuaalinen sekvenssianalysaattori CloVR).
Resource Description & availability
+
<ref name="dai">Lin Dai, Xin Gao, Yan Guo, Jingfa Xiao and Zhang Zhang; [http://www.biologydirect.com/content/7/1/43 Bioinformatics clouds for big data manipulation]</ref>
Data as a Service (DaaS):
 
AWS Public Datasets Cloud-based archives of GenBank, Ensembl, 1000 Genomes, Model Organism Encyclopedia of DNA Elements, Unigene,
 
Influenza Virus, etc.; http://aws.amazon.com/publicdatasets
 
Software as a Service (SaaS):
 
BGI Cloud
 
(unpublished)
 
Cloud-based implementations of various genomic analysis applications; http://cloud.genomics.cn
 
CloudAligner [16] Fast and full-featured MapReduce-based tool for sequence mapping; http://cloudaligner.sourceforge.net
 
CloudBLAST [19] A cloud-based implementation of NCBI BLAST; http://ammatsun.acis.ufl.edu/amwiki/index.php/CloudBLAST_Project
 
CloudBurst [17] Highly sensitive short read mapping with MapReduce; http://cloudburst-bio.sourceforge.net
 
Contrail (unpublished) Cloud-based de novo assembly of large genomes; http://contrail-bio.sourceforge.net
 
Crossbow [18] Read Mapping and SNP calling using cloud computing; http://bowtie-bio.sf.net/crossbow
 
EasyGenomics
 
(unpublished)
 
Cloud-based NGS pipelines for whole genome resequencing, exome resequencing, RNA-Seq, small RNA and de novo
 
assembly; http://www.easygenomics.org
 
eCEO [26] Cloud-based identification of large-scale epistatic interactions in genome-wide association study (GWAS); http://www.comp.
 
nus.edu.sg/~wangzk/eCEO.html
 
FX [20] RNA-Seq analysis tool; http://fx.gmi.ac.kr
 
Gaea (unpublished) Cloud-based genome re-sequencing assembly; http://bgiamericas.com/data-analysis/cloud-computing
 
Hecate (unpublished) Cloud-based de novo assembly; http://bgiamericas.com/data-analysis/cloud-computing
 
Jnomics (unpublished) Cloud-scale sequence analysis suite based on Apache Hadoop; http://sourceforge.net/apps/mediawiki/jnomics
 
Myrna [21] Differential gene expression tool for RNA-Seq; http://bowtie-bio.sourceforge.net/myrna
 
PeakRanger [24] Cloud-enabled peak caller for ChIP-seq data; http://www.modencode.org/software/ranger
 
RSD [23] Reciprocal smallest distance algorithm for ortholog detection using Amazon's Elastic Computing Cloud; http://roundup.hms.
 
harvard.edu
 
VAT [25] Variant annotation tool to functionally annotate variants from multiple personal genomes at the transcript level; http://vat.
 
gersteinlab.org
 
YunBe [22] Pathway-based or gene set analysis of expression data; http://tinyurl.com/yunbedownload
 
Platform as a Service (PaaS):
 
Eoulsan [27] Cloud-based platform for high throughput sequencing analyses; http://transcriptome.ens.fr/eoulsan
 
Galaxy Cloud [28,29] Cloud-scale Galaxy for large-scale data analysis; http://galaxy.psu.edu
 
Infrastructure as a Service (IaaS):
 
Cloud BioLinux [30] A publicly accessible virtual machine for high performance bioinformatics computing using cloud platforms; http://
 
cloudbiolinux.org
 
CloVR [31] A portable virtual machine for automated sequence analysis using cloud computing; http://clovr.org
 
  
 
=== Massadatan käyttökohteita ja menetelmiä===
 
=== Massadatan käyttökohteita ja menetelmiä===

Versio 2. kesäkuuta 2015 kello 13.55

Massadata kansanterveyden edistämisessä on katsausartikkeli Big Datasta. Se on kirjoitettu Duodecim-lehden teemanumeroon.

Kirjoitusohjeita (ks. myös N:\YMAL\Publications\In_progress\Tuomisto_Duodecim):

  • Valistuneelle kohdeyleisölle, joka ei kuitenkaan ole alan asiantuntija.
  • DL 15.5.2015 Eija Rautiaiselle ((at)duodecim.fi)
  • Teemanumeron katsauksen pituus saa olla enintään 1 800 sanaa + kuvat + taulukot.
  • Artikkelissa tulee olla otsikkosivu, jossa on tekijöiden nimet, oppiarvot ja virka-asemat sekä laitosten nimet. Yhteyskirjoittajan osalta mainitaan lisäksi postiosoite.
  • Katsausten väliotsikoinnissa käytetään kaksiportaista asteikkoa (väliotsikko ja rivinalkuinen kursivoitu alaotsikko).
  • Kuvat tulisi lähettää erillistiedostoina, mielellään giff- tai jpg -muodossa.
  • Katsausartikkelin tehtävä on kertoa lukijalle käsiteltävästä aiheesta moniulotteisesti, asiantuntevasti ja tasapainoisesti. Oppikirjamaisuutta tulee välttää ja katsauksen onkin oltava kriittinen ja tutkimushavaintoja kypsästi tulkitseva. Pelkkä tutkimusten referointi ei riitä, vaan kirjoittajan on jäsennettävä tutkimusten tuloksia mahdollisimman laajoihin yhteyksiin. Aiheen tulee kiinnostaa suurinta osaa lehden lukijoita, joten myös kirjoituksen tyylin pitää tukea yleistä ymmärrettävyyttä. Katsauksessa olisi kyettävä – aiheen mukaan – tarjoamaan tietoa ja tukea myös niihin valintoihin, joita käytännön lääkäri joutuu arkityössään tekemään, kuten hoidon porrastukseen.

Tiivistelmä

  • Tiivistelmä artikkelin sisällöstä suomeksi ja englanniksi. Maksimipituus 100 sanaa.

Johdanto

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Massadata eli erittäin isot aineistot (big data) ovat yleistyneet viime vuosina nopeasti, ja tahti näyttää kiihtyvän teknologian myötä. Kuitenkin massadatan hyödyntäminen on edennyt lääketieteen alueella hitaammin kuin monilla muilla alueilla [8] [9]. Siksi onkin tarpeen luoda katsaus siihen, mitä massadata on, mihin sitä nykyään käytetään ja mitä haasteita ja mahdollisuuksia siihen liittyy. Artikkelissa tarkastellaan joitakin kiinnostavia ja ajankohtaisia piirteitä erityisesti kansanterveyden, lääketieteen ja yhteiskunnallisen päätöksenteon kannalta eikä niinkään pyritä koko aihepiirin kattamiseen.

Aluksi esitellään joitakin keskeisiä termejä ja nykyään käytössä olevia tietokantoja ja aineistoja erityisesti Suomen näkökulmasta. Sen jälkeen tarkastellaan menetelmiä ja käyttökohteita. Lopuksi pohditaan haasteita ja mahdollisuuksia.

Taulukko 1. Tärkeitä massadataan liittyviä termejä.
Termi Selite
Massadata Englanniksi big data. Suuret data-aineistot, joiden tilastollinen analyysi ei tahdo onnistua tavanomaisin menetelmin.
Avoin data Englanniksi open data tai open linked data. Tietoa, joka on saatavissa koneluettavassa muodossa maksutta ja niin, että tekijänoikeudet eivät rajoita sen jatkokäyttöä.
Omadata Englanniksi MyData. Henkilöä itseään koskeva data, jonka käytöstä hän voi itse päättää. Tällä hetkellä ollaan rakentamassa käytäntöjä, joiden avulla henkilö voi antaa tai evätä tietojensa käyttöluvan haluamilleen tahoille omadataoperaattorinsa välityksellä riippumatta siitä, missä ja kenen järjestelmissä tieto sijaitsee. Henkilö voi myös lukea ja joissain tapauksissa korjata tai täydentää omadataansa.
Keinodata Avoin data, joka ulkomuodoltaan ja tilastollisilta ominaisuuksiltaan muistuttaa jotakin arkaluontoista dataa kuten potilasaineistoa ilman, että siitä voisi kuitenkaan päätellä kenenkään todellisen henkilön tietoja. Keinodataa voi käyttää tutkimuskysymysten ja tilastoanalyysien muotoilemiseen ja alustavaan testaamiseen, ennen kuin analyysi ajetaan vastaavalla todellisella datalla.
Tietokide eli avoin muuttuja Englanniksi open variable tai info crystal. Koneluettavassa muodossa oleva vastaus johonkin täsmälliseen tutkimuskysymykseen. Tietokide on joukkoistettu, netissä jatkuvasti päivittyvä ja kiteytyvä kuvaus kaikesta siihen asti kerätystä tiedosta. Tietokide sisältää myös ymmärrettävät ja uskottavat perustelut sille, miten havaintodata ja muu tieteellinen tieto on jalostettu vastaukseksi kysymykseen. Tyypillisesti avoimen muuttujan vastaus on ehdollinen todennäköisyysjakauma ja sisältää tietoa myös niistä kausaalisista ja muista tekijöistä, jotka voivat vaikuttaa vastaukseen.
Datan pitkä häntä (taustadata) Englanniksi long-tail data. Tarkoittaa laajaa joukkoa pieniä aineistoja, jotka kokonsa tai merkityksensä puolesta jäävät myös helposti julkaisematta. Näitä ovat esimerkiksi erilliset tietokannat, nollatulokset ja eläinkoepäiväkirjat. [10]
Bioinformatiikka Monitieteinen ala, jossa laskennallisin menetelmin tutkitaan biologisia tietoaineistoja ja jalostetaan niitä paremmin käytettäväksi.

Lääketieteeseen liittyviä massadata-aineistoja

Lääketieteen ja terveyden kannalta tärkeitä massadata-aineistoja on maailmalla lukuisia, ja tässä voidaan vain raapaista pintaa ja esittää joitakin esimerkkejä. Zou ym. on hyvä katsaus näihin tietokantoihin. [11] DNA- ja genomitietokannat sisältävät tietoa lukuisista lajeista ja toimivat esim. genomireferenssinä (NCBI RefSeq), yksilövaihtelun kuvaajina (dbSNP) tai mikrobiomikantana (IMG/HMP). RNA-tietokannat (GENCODE) sisältävät tietoa proteiinia koodaavista ja muista RNA-molekyyleistä. Proteiinitietokannat (PDB) sisältävät tietoa proteiinisekvensseistä ja myös kolmiulotteisesta rakenteesta. Ekspressiotietokannat kuvaavat eri geenien ekspressiotasoja eri kudoksissa normaalitilanteessa tai erilaisissa olosuhteissa (TiGER) ja saattavat perustua niin RNA- kuin proteiinimittauksiinkin. Reittitietokannat (pathway databases) sisältävät tietoa metabolia-, signaalivälitys- ja säätelyreiteistä elimistössä (KEGG PATHWAY). Sairaustietokannat kuvaavat erilaisia sairauksia ja niiden hoitoja, erityisesti syövän osalta (The Cancer Genome Atlas TCGA).

Nämä tietokannat eivät ole ainoastaan datavarastoja alan tutkijoille, vaan on kehittynyt lukuisia menetelmiä ja lähestymistapoja rakentaa kokonaiskuvauksia massadatan pohjalta. Näitä voidaan kutsua nimellä systeemibiologia, jossa pyritään rakentamaan molekyyli- ja solutason kuvauksia asioiden yhteyksistä. [12]

Massadataksi voidaan luokitella myös useita kliinisiä tietokantoja, ja ne ovatkin nopeasti yleistyneet. Tämä onkin toivottavaa, koska edustavuus, systeemivirheiden tunnistaminen ja tilastollinen voima paranevat. Haasteena kuitenkin datan oikea käyttö ja tulkinta uudessa käyttötarkoituksessa. [13]

Hallinnollisiin tietokantoihin kerätään terveydenhuollon seurantaan ja ohjaukseen liittyvää tietoa, ja sitä voidaan myös joskus käyttää kliiniseen laadunvarmistukseen. Tyypillisesti potilastiedot ovat näissä niukat, rajoittuen esimerkiksi sukupuoleen, ikäryhmään ja asuinkuntaan. Kliiniset tietokannat sisältävät tarkempaa tietoa potilaiden sairauksista ja toimenpiteistä; näitä on Suomessa paremmin ja kattavammin kuin useimmissa muissa maissa (esim. Hilmo ja AvoHILMO, katso taulukko 2). Sairauslähtöiset tietokannat (esim. syöpärekisteri) ovat myös Suomessa laadukkaita. Hoitolähtöisiä tietokantoja kerätään mm. monien laajojen kliinisten tutkimusten yhteydessä.

Taulukko 2. Suomalaisia massadatan esimerkkejä.
Datalähde Kuvaus Ylläpito ja linkki
AvoHILMO Perusterveydenhuollon avohoidon hoitoilmoitusrekisteri AvoHILMO on osa valtakunnallista sosiaali- ja terveydenhuollon Hilmoa. Sinne kerätään tietoa avohoidon käyntien syistä ja hoitotapahtumista. THL

https://www.thl.fi/avohilmo

Hilmo Hoitoilmoitusrekisteri Hilmo on rekisteri sairaaloissa tehdyistä diagnooseista ja toimenpiteistä. Hilmo sisältää tietoa esimerkiksi erikoissairaanhoidon avo- ja laitoshoidosta, perusterveydenhuollon laitoshoidosta, sosiaalihuollon laitos- ja asumispalveluista sekä kotihoidosta. THL

https://www.thl.fi/hilmo

Kanta Kansallinen terveysarkisto on palvelu, jonka kautta voi käyttää sähköistä reseptiä, lääketietokantaa, potilastiedon arkistoa ja tiedonhallintopalvelua. Omakanta on kansalaisten palvelu, jonka avulla voi katsoa omia sähköisiä resepti- ja terveystietojaan internetistä. THL, STM, Kela, Valvira, VRK

http://www.kanta.fi

OIVA OIVA on ympäristö- ja paikkatietopalvelu, joka tarjoaa ympäristöhallinnon tietojärjestelmiin tallennettua tietoa vesivaroista, pintavesien tilasta, pohjavesistä, eliölajeista, ympäristön kuormituksesta ja alueiden käytöstä sekä ympäristöön liittyviä paikkatietoaineistoja. SYKE

https://wwwp2.ymparisto.fi/scripts/oiva.asp

Opasnet Verkkotyötila ja tietokanta tietokiteiden tuottamiseen yhteiskunnallisen päätöksenteon tueksi. Tämän hetken aineistoa eniten liittyen ympäristöterveyteen (esim. ilmansaasteet, kaivosten riskit, juomavesi). THL

http://en.opasnet.org

Rokotusrekisteri Terveyden ja hyvinvoinnin laitos on perustamassa Suomeen valtakunnallista rokotusrekisteriä. Rokotustiedot kerätään suoraan potilastietojärjestelmistä. Rokotusrekisterin avulla THL arvioi kansallisen rokotusohjelman kattavuutta, turvallisuutta ja vaikuttavuutta. THL

https://www.thl.fi/rokotusrekisteri

Syöpärekisteri Suomen Syöpärekisteri ylläpitää tietokantaa kaikista Suomessa vuodesta 1953 alkaen todetuista syöpätapauksista. Se on myös syöpätautien tilastollinen ja epidemiologinen tutkimuslaitos, joka tekee tiivistä kotimaista ja kansainvälistä yhteistyötä. Suomen Syöpäyhdistys, THL

http://www.cancer.fi/syoparekisteri/

YHTI ja KUTI Ympäristöterveydenhuollon kohdetietojärjestelmä YHTI on terveydensuojelun, kuluttajaturvallisuuden ja tupakkavalvonnan yhteinen tietojärjestelmähanke. KUTI on Eviran vastuulla olevan elintarvikevalvonnan tietojärjestelmähanke. Yhdessä YHTI ja KUTI muodostavat ympäristöterveydenhuollon tietojärjestelmähankkeen. Valvira

http://www.valvira.fi/ymparistoterveys/ymparistoterveydenhuollon_kohdetietojarjestelma_yhti

Verkossa toimivat pilvipalvelut ovat myös tuoneet uudenlaisen näkökulman massadataan. Tietoaineistot ja analyysimenetelmät voidaan irrottaa niiden vanhoista fyysistä puitteistaan ja siirtää palveluiksi pilvipalvelimille. Niinpä on alettu ajatella palveluina sellaisetkin asiat kuin data (Data as a Service DAAS: GenBank, Ensembl, 1000 Genomes, Model Organism Encyclopedia of DNA Elements, Unigene), ohjelmistot (Software as a Service SaaS: genomianalyysipalvelu CloudAligner, sekvenssikartoitus CloudBLAST, geeniekspressiotyökalu Myrna), verkkotyötilat (Platform as a Service PaaS: sekvenssianalyysityötila Eoulsan, laaja-alaisen data-analyysin verkkotyötila Galaxy Cloud) tai jopa infrastruktuuri (Infrastructure as a Service IaaS: bioinformaatiolaskentakone Cloud BioLinux, virtuaalinen sekvenssianalysaattori CloVR). [14]

Massadatan käyttökohteita ja menetelmiä

Tässä vain nostetaan joitakin esimerkkejä

Here, we examine three important motivations for population studies: single-trial hypotheses requiring statistical power, hypotheses of population response structure and exploratory analyses of large data sets. Methods to reduce dimensionality in data. Cunningham

Cook: Common uses of the data include: providing population characteristics; identifying risk factors and developing prediction (diagnostic or prognostic) models; observational studies comparing different interventions; exploring variation between healthcare providers; and as a supplementary source of data for another study. The main advantages of using such big data sources are their comprehensive nature, the relatively large number of patients they comprise, and the ability to compare healthcare providers. The main challenges are demonstrating data quality and confidently applying a causal interpretation to the study findings.


Dai: Illustration of bioinformatics cloud.

Data as a Service

  • Public datasets
  • Biological databases

Software as a Service

  • Tools
  • Pipelines

Platforms as a Service

  • Analysis platforms
  • Programming environments

Infrasctructures as a Service

  • Virtual machines
  • Virtualised resources


Bayes-verkot Yoo LUE! [15]

Gene regulatory networks Bolouri; metodipaperi [16]

Network analysis Omics data -> Find DEGs -> Calculate partial correlation between DEGs -> Network building -> Network interrogation -> Design new experiments to test hypotheses. (Dong et al)

←--#: . Tämä kuva pitäisi suomentaa ja hakea kaaviossa olevia kuvituskuvat suoraan artikkelista Dong et al mahdollisimman hyvällä resoluutiolla. Kuvia SAA KÄYTTÄÄ koska ne on julkaistu CC-BY-NC. Tämän voisi rakentaa Google driveen jotta nuolet ja tekstit saadaan vektorimuodossa ja kuvituskuvat rasterina samaan kuvaan. --Jouni Tuomisto (keskustelu) 30. toukokuuta 2015 kello 08.18 (UTC) (type: truth; paradigms: science: defence)

Next generation sequencing. In less than a decade, NGS has changed the way and scale at which biology is studied. Many new tools are now available to characterize cells at the genome-wide level, including their DNA modifications, histone modifications, transcription factor binding, chromatin 3D interactions, accessible chromatin, the RNA transcriptome and many more. More and more new assays are becoming available, and NGS itself is rapidly evolving. [17]


Yhdennetyt genomiset, transkriptomiset ja proteomiset analyysimenetelmät. Kitchen: Box 1 An ideal integrated multi-omic analysis Such an analysis would exploit information garnered at each stage of the gene-expression process to improve the overall utility of results obtained from RNA and protein profiling (Fig. 1). Information regarding genomic variants in a given sample or individual can be used to create a personalized genome for that individual. These homozygous and heterozygous variants are incorporated in transcriptomic analysis by RNA-seq and enable the detection of allelic imbalance (ASE), in addition to information relating to alternative splicing and RNA editing (RDDs). This cascade of information in a given sample aids in the analysis of mass-spectrometry spectra, in which peptides may be identified that support or refute the presence of nonsynonymous alternative-splicing, RDD and ASE events. From the relative abundances of these peptides, it is possible to compare isoform abundance and allelic imbalance with the values estimated at the RNA level, allowing inferences to be made based on the proteomic data, such as the presence or absence of a particular protein isoform. [18]


Datan jakamisen parhaat käytännöt: discoverable, accessible, intelligible, assessable, useable [10] Kliinisessä tutkimuksessa tunnistettuja massadaan liittyviä haasteita ovat mm. otoskoko, valintaharha, dokumentointi- ja tulkintaongelmat, puuttuvat havainnot, riippuvuusongelmat ja datanhallintaongelmat. [19] Ehkä yllättäenkin voi olla vaikea saada uskottavia tilastollisia merkitsevyyksiä, kun havaintojen lisäksi myös mitattuja attribuutteja on valtavia määriä.

Massadatan käsittelyn ja jalostamisen avuksi on tullut myös menetelmiä, jotka on alunperin kehitetty tavallisten aineistojen ja niiden välisten suhteiden kuvaamiseen. Näitä ovat mm. semanttiset verkot, ontologiat, aineistokuvailun viitekehykset (resource description framework, RDF) ja avoimen linkatun datan menetelmät. Lähitulevaisuudessa voi syntyä isojakin edistysaskelia, kun eri tieteenalojen tietokäytännöt leviävät uusiin käyttötarkoituksiin. [20]

Datan jakamisen käytännöt ja kustannukset neuropuolella [21]


ReplicaX ja keinodata

Suomalaisia strategioita

Sote-tieto hyötykäyttöön

Kommentoitava evidence-based suuntausta Suomessa

Etsi viite replicaXstä. Onko peräti julkaisua?

Massadatasta kannattaa erikseen mainita ihmisten itsensä keräämät terveys oire ja kuntoilutiedot, jotka hyvinkin poan saattavat olla hoitavan lääkärin käytettävissä. Miten niitä sitten käytettäisiin?

Sote-tieto hyötykäyttöön myös kuvattava [22]

Samoin avoiment tiedon ovjelma ja avoimen tieteen ja tutkimuksen strategia sekä ATT

Haaste: lock-in ja toimittajariipouvuus. Suomi voisi tarjota ilmaisia peerusratkaisuja käyttöön ja saisi näin datat jalostettavaksi. Vrt Apotti (kannattaako mainita?)

Big data -strategia:

Suomem edut: perusrekisterit, osaaminen ja i fra ovat hyvät. Massadata korostaa yhteistyön ja avoimuuden merkitystä. Monialaisuus ja täydennyskoulutus tarpeen edistämisessä. Teknologia analyysimenetelmät ja substanssitieto saatava kohtaamaan. Fimmin geenitiedot? Suomessa olisi innovaatiotilausta erityisesti ikääntyvälle väestönosalle suunnatuille ennaltaehkäisevän terveydenhuollon ja itsehoidon palveluille. OECD:n Suo- mea koskevan raportin mukaan40 väestön ikääntymisen aiheuttamat rakenteelliset ter- veydenhuollon kustannuspaineet tulevat lähivuosina ja myös tulevaisuudessa olemaan Suomessa merkittävämpi ongelma kuin useimmissa muissa OECD-maissa.

Suomessa on alan osaamista esimerkiksi bioinformatiikan ja molekyylilääketieteen alalla. Toinen tärkeä alue liittyy kansalaisten omatoimiseen terveydenhoitoon ja hyvinvoinvointiin liittyvien itsemit- tausteknologioiden kehitykseen, jossa suomalaisyrityksissä on osaamista kymmenien vuosien ajalta.

Big datalta odotetaan terveydenhuollon laadun parantumista ja säästöjä. Data-analyysin odotetaan kehittyvän tavalla, joka auttaa yksittäisen kansalaisen terveysriskien ennus-

tamisessa erilaisten datavirtojen avulla sekä sairauksien ehkäi- syssä. Terveystietojen hyöty- käyttöön liittyy kuitenkin yksi- tyisyyteen, sosiaalisiin ja eetti- siin näkökulmiin liittyviä kysy-

”Suuret tietoaineistot parantavat omahoitoa, ennaltaehkäisevää toimintaa, valvontaa sekä tukevat ammattilaisten työtä”


Soteuudistus tarjoaa merkittävän mahdollisuuden


Omahoitomenetelmät ja suomalai en mittausteknologia luovat mahdollisuuksia.


Esimerkkejä:

Syöpälääkkeiden vaikutusta soluihin tutkitaan genominlaajuisilla matemaattisilla malleilla.

Lääkeaineiden tehon vaikutus soluissa ennustetaan matemaattisin mallein koneoppimisen avulla.

Muun muassa eri- laisen mobiilidatan, trendidatan sekä sosiaalisesta mediasta saatavan datan määrän kas- vu tuo tutkijoiden ulottuville aivan uudenlaisia aineistoja. Erimerkiksi ihmisten todellista käyttäytymistä kuvaavat verkonkäyttö- ja paikkatietoaineistot mahdollistavat merkittävi- en lisätietojen saamisen ja siten täydentävät (tai jopa korvaavat) perinteisiä kyselytutki- muksia, joilla tutkitaan muun muassa ihmisten käyttäytymisaikomuksia.

[23]

Big datasta saatavia hyötyjä Hallinto: Prosessien tehokkuut, paremmat palvelut, läpinäkyvyys, kustannussäästöt ja resurssien kohdentuminen, päätöksenteon laatu. Yritykset: innovaatiot, markkintaosuuksien tai voittojen kasvattaminen, prosessien tehokkuus (optimointi), tuottavuusomaisuuden käyttö, tuottavuus, hävikkin vähentäminen, asiakaskokemuksen parantaminen. Kansalainen: palvelujen laatu ja valintamahdollisuudet, uudet palvelut, parempi kontrolli itseä koskeviin tietoihin, vaikuttamismahdollisuudet, yhteiskunnallinen osallistuminen, kuluttajan oikeudet. Tutkimus: uusien aineistojen mahdollistamat laajemmat tutkimushankkeet, tiedon yhdistlystä uutta tutkimusta, menetelmistä tutkimuksen laatua ja tehokkuutta, tutkimuksen vaikuttavuus.


Julkishallinnon toiminnoissa jatkuvasti kasvavan tietomäärän keskellä on tärkeää hah-mottaa tiedon mahdollisuudet kokonaisuutena ja hallita merkityksellistä tietoa, eli ym-märtää, mitä tietoa on olemassa ja mitä puuttuu. Käynnissä olevan digimurroksen keskellä data- ja asiakaslähtöisen hallinnon tulee kyetä ratkaisemaan arkipäiväisiä tiedonhal-lintaan liittyviä ongelmia: missä ja kenellä tietoa on, onko tieto käytettävässä muodossa, miten voin liittyä tietovirtaan ja ymmärränkö tiedon käyttötarkoitukseeni oikein?

Kokonaiskuva tietopääomasta, tiedon ympärille rakentuva kehitysyhtei-sö, tietokehittämisen koordinointi ja standardit järjestelmäriippumattomat menetelmät liikuttaessa tietoa ovat tärkeitä tekijöitä.

Itsensä mittauksen ympärillä on paljon uusia aloitteita, joita motivoi myös terveyden-huollon toimialamuutos. Suomessa itsensä mittausteknologioita kehittäneitä, kansainväli-sillä markkinoilla toimivia yrityksiä on useita, muun muassa Firstbeat, Suunto ja Polar. Lisäksi alalla on lukuisia lupaavia start up -yrityksiä. Mittalaitteiden avulla ihmiset saavat uudenlaista tietoa itsestään. Itsehoito on aiempaa helpompaa, kun ihmiset voivat mitata kotona verenpainettaan tai esimerkiksi seurata unensa laatua. Kehityskulku voi vähitellen muuttaa terveydenhuollon painopistettä ja lääkärien työtä. Lääkärit voivat keskittyä eri-koistuneeseen sairauksien hoitoon ja ennaltaehkäisyyn, kun terveyden ylläpitoon on uu-denlaisia vaihtoehtoja.

Kannustetaan rahoituksella ja ohjauksella eri toimijoita maksimaaliseen tutki-musdatan jakamiseen ja siten tutkimuksen tehostamiseen läpi tutkimushank-keiden elinkaaren.

Lisätään resurssien puitteissa kansallista osallistumista tutkimuksen tietoai-neistojen jakamisen kansainväliseen kehitykseen ja standardointiin globaaleis-sa yhteistyöelimissä.

Sääntelyä tukevat yhteiset käytännesäännöt ja periaatteet. On luotava ns. ”big data -etiketti” siitä, miten dataa käsitellään ja hyödynnetään kunnioittaen niin kansalaisten kuin yritystenkin oikeuksia.

Omadata

[24]

Massadata Omadata ReplicaX ja datan anonymisointi keinodataksi. THLn haaste Apps4Finald-kisassa. Eu-direktiivi vaikeuttaa henkilötutkimusta? Kaiva esille. Televisiosarjatko ratkaisuna datankeruulle jos tutkimus kielletään? Niissä ei ole henkilösuojaa eikä tarveharkintaa. Erilaiset tietoaineistot. Viranomaiskäyttö eri kuin tutkimuskäyttö. Biobankit ja niiden data. Tietojen hyödyntäminen on menossa ristiriitaisiin suuntiin ja lähivuodet ratkaisevat toisaalta minia edistysaskeleita ja toisaalta sen tehdääkö pahoja takapakkeja.

Mydata

Luku 1 periaatteet kuvataan. S17 mydata ja avoin data My Datan -ajattelun kolmea lähtökohtaa: ihmiskeskeisyyttä, tiedon hyödynnet- tävyyttä, ja liiketoimintamallien avautumista voidaan konkretisoida periaatteilla 1. yksilöiden oikeus ja mahdollisuus hallita omaa dataansa, 2. henkilötiedon kattava ja käytännöllinen saatavuus sekä 3. henkilötiedon hallinnan hajauttaminen ja yhteentoimi- vuus. Nämä periaatteet ohjaavat My Data -rajapintojen ja standardien, välittämi- seen ja hallintaan liittyvän palveluinfrastruktuurin sekä My Dataa hyödyntävien sovellusten ja palvelujen kehitystä.



Avoimen tiedon määritelmän mukaan avoin aineisto on teknisesti ja juridisesti kenen tahansa vapaasti käytettävissä, uudelleen käytettävissä ja jaettavissa. Vastaavasti My Data voitaisiin määritellä niin, että se on teknisesti ja juridisesti datan kohteen itsensä vapaasti käytettävissä, uudelleenkäytettävissä ja jaettavissa. My Datasta voi tulla avointa dataa: • muunnosten kautta – Esimerkiksi suuri osa julkisista tilastoista syntyy kyselytutkimusten tai muiden yksilöiden henkilötietojen pohjalta yhdistelemällä, aggregoimalla ja anonymisoimalla. On tärkeää tietää, mitä haasteita anonymisointiin liittyy. • yksilöiden valinnan kautta – Voi olla ihmisiä, jotka ovat valmiita avaamaan omaa henkilötietoaan hyödyttääkseen muita. Esimerkiksi vaikeasta sairaudesta kärsivä saattaa mielellään jakaa omaa terveysdataansa, jos voi siten edistää lääketieteellistä tutkimusta ja auttaa muita sairastuneita.

Periaate: Ihmisillä on oikeus ja käytännön mahdollisuus hallita omia henkilötietojaan.

Periaate: Henkilötieto on ihmisille itselleen saatavilla koneluettavasti ja riittävän ajantasaisesti rajapintojen kautta.

Periaate: My Datan hallinnointi ja säilytys on mahdollista hajauttaa ja palvelut voidaan vaihtaa, mutta kokonaisuus on yhteentoimiva ja looginen.

Keskeinen seuraus My Data -periaatteiden toteuttamisesta on henkilötiedon arvoketjujen pilkkoutuminen ja tiedon hallinnan keskittyminen ihmisen ympärille. Tämä avaa mahdollisuuksia uusille toimijoille ja rikkoo perinteisiä sektoreiden ja toimialojen rajoja. Henkilötiedon jalostuksen arvoketju koostuu henkilötiedon lähteistä (luominen, kerääminen), välittämisestä (jalostus ja hallinta) ja hyödyntämisestä. Dataa voidaan säilyttää kaikissa näissä vaiheissa.


Integraatioargumentti Henkilötiedolla on monta lähdettä. Yksi lähde sellaisenaan on heikko.

Yksityisyysargumentti Henkilötiedon välitys ja jalostus on yksityisyyden kannalta herkkä asia

Innovaatioargumentti Uusien innovaatioiden kehittyminen täytyy olla irrallista vanhoista rakenteista.

My Datan lähteet ovat käytännössä joko organisaatioiden tai yksilöiden itse keräämää henkilötietoa.

Henkilötietoa syntyy ja kertyy esimerkiksi näistä aihepiireistä: terveys, liikenne, energia, hallinto, itse kerätty tieto, pankki ja vakuutus, kauppa, verkkopalvelut sekä viestintä ja media.

Keskeinen osa big datasta on ihmisten käyttäytymisdataa, joka perustuu asiakkaan tunnistamiseen. Big data -keskustelussa korostetaan henkilötietojen analysoinnin ja hyödyntämisen mahdollisuuksia organisaatioiden näkökulmasta. Ihmisten näkökulma on supistettu usein vain vaatimukseen siitä, että yksityisyydensuoja säilytetään. Asiakkaan kiinnostusta saati oikeutta omiin tietoihinsa ei big data -keskustelussa ole juurikaan tuotu esille.

Henkilöihin liittyvässä tiedossa My Data ja big data ovat kaksi toisiaan täydentävää näkökulmaa, ”ihmisnäkökulma” ja ”yritysnäkökulma”. My Data tuo läpinäkyvyyttä ja sitä kautta hyväksyttävyyttä henkilöihin liittyvien datamassojen käsittelyyn ja antaa konkreettisia keinoja yksityisyydensuojan toteuttamiseen. Ilman tätä ihmisnäkökulmaa monet big datan hyödyntämismahdollisuudet katoavat, koska ne eivät ole yksilöiden suojan kannalta hyväksyttäviä.

4.1.1 Itsensä mittaaminen Quantified Self on maailmanlaajuisesti nopeasti kasvava trendi, jossa ihmiset uusien laitteiden ja teknologian avulla keräävät, analysoivat ja hyödyntävät kaikkea mahdollista omaan kehoon, ympäristöön ja toimintaan liittyvää dataa. Älypuhelinsovellusten, puettavien sensorien, verkkopalveluiden ja muiden teknisten apuneuvojen kanssa itsensä mittaajat keräävät dataa, joka liittyy esimerkiksi ruokailuun, mielialoihin, fyysiseen ja henkiseen suorituskykyyn, ajan- ja rahan käyttöön, sosiaaliseen vuorovaikutukseen, liikkumiseen, nukkumiseen jne. Keskeisenä ajatuksena on yksilöllisen mittaustiedon hyötykäyttö terveyden, hyvinvoinnin ja elämänlaadun parantamisessa.

Kyse ei ole vain terveys- ja teknologiaintoilijoiden liikkeestä. Urheilijat ovat jo pitkään mitanneet muun muassa sykettä, tehoa ja omia suorituksiaan. Fysiologisessa ja psykologisessa valmennuksessa ja kuntoutuksessa käytetään mittareita. Tietotyöläiset saattavat mitata ajankäyttöä, stressitasoa ja erilaisen viestinnän ja kommunikaation volyymeja. Askelmittareiden, verkkoyhteydellä varustettujen henkilövaakojen, aktiivisuusrannekkeiden ja muiden vastaavien kulutuselektroniikkatuotteiden sekä niihin liittyvien verkkopalveluiden kehittyminen on tuonut itsensä mittaamisen monille osaksi arkipäivää.

Laki sosiaali- ja terveydenhuollon asiakastietojen sähköisestä käsittelystä (Asiakastietolaki 2007) velvoittaa terveydenhuollon organisaatiot tallentamaan potilastiedot valtakunnallisesti keskitettyyn arkistoon. Kansallinen Terveysarkisto KanTa26 on lain pohjalta valmisteltu järjestelmä, joka mahdollistaa muun muassa sähköisen reseptin ja tarjoaa kansalaisille käyttöliittymän omien potilastietojen tarkasteluun. Laki ja järjestelmä eivät kuitenkaan anna potilaille mahdollisuutta tallentaa omia potilastietojaan tai siirtää niitä toiseen sovellukseen. Lakia ja KanTa -järjestelmän toteutusta tulisi tältä osin pikaisesti muuttaa niin, että se toimisi My Data -periaatteiden mukaisesti.

Massadatan haasteet ja kehityskohteet

Datan jakamisen haasteet. Arvostus Poldrak LUE!, Editorial. Sejnowski nn

Sejnowski nn. Big datan tärkeät aiheet tai haasteet. 1) Big dataa on runsaasti mutta se on hajanaista, tuottu useille menetelmillä ja eläinlajeilla ja vaikeasti standardoitavissa. 2) Asioita pitää oppia peilaamaan (käyttäytymis)vasteisiin, mittaaminen onkin muuttunut helpommaksi ja vähemmän invasiiviseksi. Mutta kausaalisuuksien löytäminen on haastavaa. 3) Tieto laboratorioiden välillä liikkuu yleensä kokousten ja artikkelien muodossa muuta dataa harvemmin jaetaan. 4) Datan kasvaessa sen analysointi vaikeutuu ja tarvitaan uusia algoritmejä. On myös opittava tuottamaan aineistoja, joista mielekkäiden yhteyksien löytäminen on mahdollista. 5) Nykyteoriat ovat selittäviä pikemmin kuin ennustavia ja perustuvat pieniin aineistoihin. Teorioista pitäisi tehdä selkeämpiä ja ennustavia vaikka se edellyttäisi tinkimistä matemaattisesta monimutkaisuudesta. Yleispäätelmä: tarvitaan kulttuurinmuutosta, matemaattisesti orientoituneita tutkijoita ja ennakkoluulottomia, kattavia ja testattavia teorioita. [25]


Jotkin tekniikat tai aiheet ovat kalliita datan tuottamiseen, eikä sellaisia pysty käyttämään ellei ole tiedossa lähitulevaisuuden selkeä hyöty, jonka takia datantuottoon löytyy rahoittaja. Hankaluutena on, että usein hyödyt eivät ole etukäteen arvioitavissa. Konnektomiikka eli hermoston synapsirakenteen tutkiminen on esimerkki tällaisesta. [26]


Teoreettisten viitekehysten, koeasetelmien ja teknologisen kehityksen pitäisi kaikkien edistyä yhdessä tulosten saavuttamiseksi [27]


Tärkeä haaste on pystyä uuttamaan merkitystä ulos jatkuvasti lisääntyvästä datasta, ja tämä näkyy monilla aloilla kuten käyttäytymmistieteellisessä neurobiologiassa. Gomez-Marin.

Tietojen standardointi, tiedon uusiokäyttö ja syvempi yhteistyö kollegojen kanssa ovat tulevaisuuden suuntia. Gomez-Marin.

Potilastieto massadatana. Mining and advanced analysis of “big data” in health care provide the potential not only to perform “in silico” research but also to provide “real time” diagnostic and (potentially) therapeutic recommendations based on empirical data. “On demand” access to highperformance computing and large health care databases will support and sustain our ability to achieve personalized medicine. Dilsizian

Mahdollisuudet ja haasteen tekoälyn käytössä lääketieteessä Dilsizian

The combination of AI, big data, and massively parallel computing offers the potential to create a revolutionary way of practicing evidence-based, costeffective, and personalized medicine. However, barriers to adoption of AI technologies must be overcome from regulatory, legal, cultural, and political perspectives––even when technology solutions have matured. Dilsizian

Open access ja data sharing on välttämätöntä. Mitä haasteita ja oppeja on löydetty. [9]

Datan avaamisen haasteita Choudhury

  • Tutkimuskulttuuri
  • Muiden varastamat skuupit
  • Miten jaetaan meriitti
  • Tutkimuslupa annettu vain alkuperäiseen tarkoitukseen
  • Potilas on vaarassa tunnistua kun kerätään paljon yksityiskohtaista dataa
  • ym

Afurthersafeguardistohaveseparaterepositoriesfor summaryleveldataandindividualdata,thelatterofwhichis keptunderrestrictedaccess,asisspecifiedbyNIH’sGWASdata accesspolicy(Kaye, 2011; McEwenetal., 2013). Thesameistrue fortheHapMapprojectwhichusesCoriell’srepository,which has specificaccessrulesandregulations.Oftenaccesstodata is controlledbycommitteeswhomustdeterminewhetheruses ofthedataareappropriate,ethical,andfollowpolicyguidelines (McEwenetal., 2013). Choudhury

Aswehaveshown,thefieldofgenomicsdoesnotprovidea modelofstraightforwardsuccessindatasharingforbiomedical research.However,itsexperiencesandprecedencecanhelpthe neurosciencecommunityanticipatethechallengesandcomplex- itiesitislikelytoface. Choudhury

Information altruist: henkilö joka antaa oman biomedisiinisen datansa vapaaseen käyttöön (mm. Leena Palotie) Choudhury ←--#: . Etsi tietoa siitä, mitä ja miten Leena Palotie luovutti omaa dataansa tieteen käyttöön syövän tutkimiseksi --Jouni Tuomisto (keskustelu) 31. toukokuuta 2015 kello 20.51 (UTC) (type: truth; paradigms: science: defence)

The recent advent of next-generation sequencing technology allows the identification of trace- able differences in the pathogen genome that are trans- forming our ability to understand high-resolution disease transmission, sometimes even down to the host-to-host scale. [28]


High-throughput sequencing: the technological revolution that followed the Sanger sequencing technology that was used to generate the first complete human genome, allowing for mass generation of sequences at increasingly affordable costs. Currently broadly subdivided into next- or second-generation sequencing (Illumina or 454) and now third generation (PacBio). Kao

Bayesian model-based inference of infectious disease transmission. Kao

Individual level denominator data from at-risk populations are now being collected, often on a daily basis, and also increasingly in real time. Advances in computing power now provide the engine for mathematical and statistical techniques by which disparate datasets can be analyzed. Although we are only now arriving at this point, the combination of big data and tractable analytical techniques provides the opportunity to transform our approach to controlling infectious diseases in both epidemic and endemic contexts, with whole-genome sequencing (WGS) playing a leading role. Kao

Lopuksi

Loppunousu, jossa ei pelkästään tiivistetä katsauksen viestiä vaan liitetään se laajempiin yhteyksiin tai pohditaan tulevaisuudennäkymiä.

Massadata mahdollistaa isot kulttuurimuutokset, mutta tiedolliset läpimurrot perustuvat pikemminkin näistä muutoksista johtuvaan ymmärryksen paranemiseen.

Tarve lisääntyy massadatasta jalostetuille kehittyneemmille tieto-olioille kuten tiedokeille (avoimille muuttujille).

Kahnemannin ja Tverskyn nopea ja hidas ajattelu nousee tärkeäksi osaksi massadataa, koska mahdollisuudet tuottaa verkossa yhteisöllisesti hidasta, rationaalista ajattelua paranevat eksponentiaalisesti avoimen datan ja massadatan ansiosta. Tällöin on mahdollista lisätä hitaan ajattelun merkitystä yhteiskunnallisten päätösten perustana.

Kliinikon näkökulmasta on tulossa ainakin kaksi muutosta: erilaiset henkilökohtaisen terveystiedon keräämisen välineet lisääntyvät ja potilas voi tarjota lääkärille esimerkiksi kännykän keräämää kuukausien liikuntadataa, jonka merkitystä hoidon kannalta pitäisi pystyä arvioimaan. Toisaalta potilaat pystyvät tekemään entistä perusteellisempia oma-arviointeja ja vertailuja netissä ja tarjota omia diagnoosi- ja hoitoehdotuksiaan lääkärille. Lääkärin rooli on muuttumassa asiantuntija-auktoriteetista valmentajaksi.

Ydinasiat

  • Katsauksiin tulee laatia 3–5 erillistä virkettä, jotka lyhyesti tiivistävät kirjoituksen keskeisen sanoman. Virkkeet sijoitetaan Ydinasiat-tekstilaatikkoon.

Avainsanat

  • 4-8 kpl

Viitteet

  1. Christopher G. Chute, MD, DrPH, Mollie Ullman-Cullere, MS, MSE, Grant M. Wood, BS, Simon M. Lin, MD, Min He, PhD, and Jyotishman Pathak, PhD; Some experiences and opportunities for big data in translational research. doi:10.1038/gim.2013.121.
  2. John P Cunningham & Byron M Yu; Dimensionality reduction for large-scale neural recordings. doi:10.1038/nn.3776
  3. Focus on big data. Nature Neuroscience editorial, Volume 17, number 11, November 2014
  4. Casey S. Greene, Jie Tan, Matthew Ung, Jason H. Moore and Chao Cheng; Big Data Bioinformatics. J. Cell. Physiol. 229: 1896–1900, 2014. DOI: 10.1002/jcp.24662
  5. Ian Maze, Li Shen, Bin Zhang, Benjamin A Garcia, Ningyi Shao, Amanda Mitchell, HaoSheng Sun, Schahram Akbarian, C David Allis & Eric J Nestler; Analytical tools and current challenges in the modern era of neuroepigenomics. Nature Neuroscience, Volume 17, number 11, November 2014, doi:10.1038/nn.3829
  6. Ivan Merelli, Horacio Pérez-Sánchez, Sandra Gesing, and Daniele D’Agostino; Managing, Analysing, and Integrating Big Data in Medical Bioinformatics: Open Problems and Future Perspectives, BioMed Research International. Volume 2014, Article ID 134023
  7. Terrence J Sejnowski, Patricia S Churchland & J Anthony Movshon; Putting big data to good use in neuroscience. Nature Neuroscience, Volume 17, number 11, November 2014, doi:10.1038/nn.3829
  8. Steven E. Dilsizian & Eliot L. Siegel; Artificial Intelligence in Medicine and Cardiac Imaging: Harnessing Big Data and Advanced Computing to Provide Personalized Medical Diagnosis and Treatment. DOI 10.1007/s11886-013-0441-8
  9. 9,0 9,1 Suparna Choudhury, Jennifer R. Fishman , Michelle L. McGowan and Eric T. Juengst; Big data, open science and the brain: lessons learned from genomics. doi: 10.3389/fnhum.2014.00239
  10. 10,0 10,1 Adam R Ferguson, Jessica L Nielson, Melissa H Cragin, Anita E Bandrowski & Maryann E Martone; Big data from small data: data-sharing in the ‘long tail’ of neuroscience. Nature Neuroscience, Volume 17, number 11, November 2014
  11. Dong Zou, Lina Ma, Jun Yu, Zhang Zhang; Biological Databases for Human Research. Genomics Proteomics Bioinformatics 13 (2015) 55–63
  12. Md. Altaf-Ul-Amin, Farit Mochamad Afendi, Samuel Kuria Kiboi, and Shigehiko Kanaya; Systems Biology in the Context of Big Data and Networks
  13. J. A. Cook and G. S. Collins; The rise of big clinical databases. DOI: 10.1002/bjs.9723
  14. Lin Dai, Xin Gao, Yan Guo, Jingfa Xiao and Zhang Zhang; Bioinformatics clouds for big data manipulation
  15. Changwon Yoo, Luis Ramirez, Juan Liuzzi; Big Data Analysis Using Modern Statistical and Machine Learning Methods in Medicine. http://dx.doi.org/10.5213/inj.2014.18.2.50
  16. Hamid Bolouri; Modeling genomic regulatory networks with big data
  17. Jaehoon Shin, Guo-li Ming & Hongjun Song; Decoding neural transcriptomes and epigenomes via high-throughput sequencing. Nature Neuroscience, Volume 17, number 11, November 2014, doi:10.1038/nn.3829
  18. Robert R Kitchen, Joel S Rozowsky, Mark B Gerstein & Angus C Nairn; Decoding neuroproteomics: integrating the genome, translatome and functional anatomy. Nature Neuroscience, Volume 17, number 11, November 2014, doi:10.1038/nn.3829
  19. Weiqi Wang, PhD, Eswar Krishnan, MD, MPH; Big Data and Clinicians: A Review on the State of the Science.
  20. Hongyan Wu, Atsuko Yamaguchi; Semantic Web technologies for the big data in life sciences. BioScience Trends. 2014; 8(4):192-201.
  21. Russell A Poldrack & Krzysztof J Gorgolewski; Making big data open: data sharing in neuroimaging. Nature Neuroscience, Volume 17, number 11, November 2014, doi:10.1038/nn.3829
  22. Tieto hyvinvoinnin ja uudistuvien palvelujen tukena. Sote-tieto hyötykäyttöön -strategia 2020. Sosiaali- ja terveysministeriön julkaisuja 2015. ISBN 978-952-00-3548-8 [1]
  23. Taru Rastas, Emil Asp (toim.). Big datan hyödyntäminen. Liikenne- ja viestintäministeriön julkaisuja 20 / 2014. ISBN 978-952-243-407-4 [2]
  24. Antti Poikola, Kai Kuikkaniemi, Ossi Kuittinen. MyData - johdatus ihmiskeskeiseen henkilötiedon hyödyntämiseen. Liikenne- ja viestintäministeriö 2014. ISBN 978-952-243-418-0 [3]
  25. Terrence J Sejnowski, Patricia S Churchland, and J Anthony Movshon; Putting big data to good use in neuroscience. Published as: Nat Neurosci. 2014 November ; 17(11): 1440–1441.
  26. Jeff W Lichtman, Hanspeter Pfister & Nir Shavit; The big data challenges of connectomics. Nature Neuroscience, Volume 17, number 11, November 2014, doi:10.1038/nn.3829
  27. Alex Gomez-Marin, Joseph J Paton, Adam R Kampff, Rui M Costa & Zachary F Mainen; Big behavioral data: psychology, ethology and the foundations of neuroscience. Nature Neuroscience, Volume 17, number 11, November 2014, doi:10.1038/nn.3812
  28. Rowland R. Kao, Daniel T. Haydon, Samantha J. Lycett, and Pablo R. Murcia; Omics: Fulfilling the Promise. Supersize me: how whole-genome sequencing and big data are transforming epidemiology
  • Kirjallisuusviitteiden esittämisessä noudatetaan Vancouver-järjestelmää (tekstiin numeroidut viitteet) ja kirjallisuusluettelo laaditaan lehden yleisten kirjoitusohjeiden mukaan, esim. Dagfinrud H, Kvien TK, Hagen KB. Physiotherapy interventions for ankylosing spondylitis. The Cochrane Database of Systematic Rewievs 2013, Issue 4. Art. No.:CD002822. DOI: 10.1002/14651858.CD2822.pub2. Teemanumeron katsausta ei tulisi kuormittaa viitteillä (max. 30).


Tämä sivu on tiedonmuru. Tämä sivu poikkeaa muusta Opasnetin sisällöstä sen suhteen ettei se ole vapaasti muokattavissa. Käyttäessäsi sivun sisältämää tietoa muualla ole hyvä ja viittaa tähän sivuun näin:

Jouni T. Tuomisto: Massadata kansanterveyden edistämisessä. Opasnet 2015. Viitattu 07.05.2024. (, Duodecim)