Suurten lukujen laki vaalistatistiikalle

Opasnet Suomista
Versio hetkellä 27. joulukuuta 2011 kello 23.00 – tehnyt Smxb (keskustelu | muokkaukset)
Siirry navigaatioon Siirry hakuun




Gaussinen jakauma raja-arvona

Tässä kappaleessa perustellaan Gaussisen jakautuman käyttöä vaalidatan aktiivisuus- ja kannatausprosenttijakautumien sovituksessa.

Useista aineistoista voidaan havaita että puoluekohtaisten kannatusprosenttien jakautumat kuten maakohtaiset äänestysaktiivisuusjakautumat ovat usein likipitäen normaalijakatuneita. Poikkeamille löytyy syitä, jotka vaihtelevat äänestäjien määrästä tahalliseen huijaukseen. Näiden vaikutusten erottaminen toisistaan on tärkeää oikean tulkinnan varmistamiseksi. Tämän vuoksi tutkimme alla millaisia jakaumia on odotettavissa ns. rehellisissä vaaleissa ja kuinka lähellä ne ovat normaalijakaumaa.

Jos äänestäjät olisivat täysin riippumattomia toisistaan, rehellisissä vaaleissa kokonaisaktiivisuus noudattaisi binomijakaumaa ja puolueiden kannatusjakauma noudattaa M-komponenttista multinomijakaumaa. Näiden jatkuvat vastineet ovat gaussisia normaalijakaumia (riippumattomuus implikoi korreloitumattomuutta). Todellisessa elämässä äänestäjien välillä on kuitenkin riippuvuuksia kuten mm. se että äänestäjät saattavat kuulua samaan puolueeseen tai esim. elää samalla maantieteellisellä alueella. Myös vaalivilppi kuten pakottaminen tai uurnien manipulointi voi indusoida korrelaatiota äänestystuloksiin. Korrelaatiolla ei kuitenkaan ole merkitystä, jos ne ovat ns. heikkoja ja äänestäjiä on riittävän suuri määrä. Heikko korrelaatio tarkoittaa sitä että äänestäjät eivät voi vuorovaikuttaa toistensa kanssa mielivaltaisen pitkän 'etäisyyden' yli (etäisyys voi olla konkreettinen (esim. maantieteellinen) tai abstrakti (esim. tuloluokka). Heikot korrelaatiot tyypillisesti vaimenevat nopeammin kuin potenssilakifunktiona etäisyyden funktiona.



Linkkejä

  • <math> P_N(Y) = \frac{1}{ \pi \langle x^2 \rangle }\, \exp\left( -\frac{Y^2}{2 \langle x^2 \rangle} + \frac{1}{\sqrt{N}} [\ldots] \right) </math> ja <math> Y \equiv (x_1 + x_2 + \ldots + x_N)/\sqrt{N} </math> [1]. Hakasuluissa oleva lauseke riippuu jakatuman <math> p(x) </math> korkeammista kuin toisesta momentista. Se on lisäksi epäuniversaali siinä mielessä että kertoimet riippuvat satunnaisprosessin yksityiskohdista. Teoreema pätee riittävän heikosti korreloituneille satunnaismuuttujille.
  • korreloimattomuus ei implikoi riippumattomuutta mutta päinvastainen pitää paikkansa [2].
  • Neljäkin konvoluutiota riittää tuottamaan aproksimatiivisesti Bellin käyrän muodon ei-gaussiselle muuttujalle [2]
  • <math> \varphi_Y(t) = 1 - t^2/2 + o(t^2), \quad t \rightarrow 0 </math> satunnaismuuttujan karakteristiselle funktiolle kun keskiarvo on siirretty nollaan [2].
  • joint probability concisely expressed in terms of the conditional distribution (chain rule of probability [3] for hidden variables)
  • Multinomial distribution (continuous analogue is multivariate normal distribution) [4]
  • Election fraud investigation in US electronic polling (partywise data comparison and Gaussian distribution of support) [5]
  • Gaussianity of support in Malaysia 2008 compared with Singapore 2006 showing that even in a fair election the won seats a 50%-50% result split between opposition and governing parties may result in a massively non-balanced distribution of seats in the parliament [6]
  • Skenwness [7] (actual numbers and the skewness of the distribution demonstrated)
  • Marginal distribution (hidden var.) [8]


Katso myös


Viitteet