Ero sivun ”Keskustelu:Big Data 5: Läpileikkaavia teemoja” versioiden välillä
MV (keskustelu | muokkaukset) Ei muokkausyhteenvetoa |
(→Datan valikoituminen: uusi osio) |
||
Rivi 3: | Rivi 3: | ||
"Tiedon etsintä" - tarkoittaakohan tämä nyt "Tiedonhakua"? | "Tiedon etsintä" - tarkoittaakohan tämä nyt "Tiedonhakua"? | ||
- "Suomessa tehdään merkittävää alaan liittyvää tutkimusta. " Kuten? HIITin hakujärjestelmän lisäksi tehdään huomattavasti muutakin. Nyt tuosta puuttuu kokonaan suurin osa informaatiotieteitä tutkivista korkeakouluista. | - "Suomessa tehdään merkittävää alaan liittyvää tutkimusta. " Kuten? HIITin hakujärjestelmän lisäksi tehdään huomattavasti muutakin. Nyt tuosta puuttuu kokonaan suurin osa informaatiotieteitä tutkivista korkeakouluista. | ||
== Datan valikoituminen == | |||
Läpileikkaavaksi teemaksi voisi lisätä datan valikoitumisen. Aineistojen suuresta koosta huolimatta data on usein jollakin tavalla valikoitunutta. Yritysten asiakasrekisteri sisältää tietoja vain nykyisistä asiakkaista, ei koko potentiaalisesta asiakasjoukosta. Terveydenhoidon tietojärjestelmiin saadaan kerättyä tietoja terveydentilasta vain niiltä henkilöiltä, jotka käyvät lääkärissä. Kun datan pohjalta halutaan tehdä päätelmiä koko populaatiosta, on valikoituminen otettava huomioon tai johtopäätökset voivat olla pahasti vääristyneitä. Datan valikoituminen ja tulosten yleistäminen on yksi keskeisistä big datan käyttöön liittyvistä haasteista. |
Nykyinen versio 29. toukokuuta 2014 kello 11.24
Tähän tulevat kommentit, ideat ja ehdotukset:
"Tiedon etsintä" - tarkoittaakohan tämä nyt "Tiedonhakua"? - "Suomessa tehdään merkittävää alaan liittyvää tutkimusta. " Kuten? HIITin hakujärjestelmän lisäksi tehdään huomattavasti muutakin. Nyt tuosta puuttuu kokonaan suurin osa informaatiotieteitä tutkivista korkeakouluista.
Datan valikoituminen
Läpileikkaavaksi teemaksi voisi lisätä datan valikoitumisen. Aineistojen suuresta koosta huolimatta data on usein jollakin tavalla valikoitunutta. Yritysten asiakasrekisteri sisältää tietoja vain nykyisistä asiakkaista, ei koko potentiaalisesta asiakasjoukosta. Terveydenhoidon tietojärjestelmiin saadaan kerättyä tietoja terveydentilasta vain niiltä henkilöiltä, jotka käyvät lääkärissä. Kun datan pohjalta halutaan tehdä päätelmiä koko populaatiosta, on valikoituminen otettava huomioon tai johtopäätökset voivat olla pahasti vääristyneitä. Datan valikoituminen ja tulosten yleistäminen on yksi keskeisistä big datan käyttöön liittyvistä haasteista.