Suurten lukujen laki vaalistatistiikalle

Opasnet Suomista
Versio hetkellä 30. joulukuuta 2011 kello 11.05 – tehnyt Smxb (keskustelu | muokkaukset)
Siirry navigaatioon Siirry hakuun




Gaussinen jakauma raja-arvona

Tässä kappaleessa perustellaan gaussisen jakautuman käyttöä vaalidatan aktiivisuus- ja kannatausprosenttijakautumien sovituksessa.

Useista aineistoista voidaan havaita että puoluekohtaisten kannatusprosenttien jakautumat kuten maakohtaiset äänestysaktiivisuusjakautumat ovat usein likipitäen normaalijakatuneita. Poikkeamille löytyy syitä, jotka vaihtelevat äänestäjien määrästä tahalliseen huijaukseen. Näiden vaikutusten erottaminen toisistaan on tärkeää oikean tulkinnan varmistamiseksi. Tämän vuoksi tutkimme alla millaisia jakaumia on odotettavissa ns. rehellisissä vaaleissa ja kuinka lähellä ne ovat normaalijakaumaa.

Jos äänestäjät olisivat täysin riippumattomia toisistaan, rehellisissä vaaleissa kokonaisaktiivisuus noudattaisi binomijakaumaa ja puolueiden kannatusjakauma noudattaa M-komponenttista multinomijakaumaa. Näiden jatkuvat vastineet ovat gaussisia normaalijakaumia (riippumattomuus implikoi korreloitumattomuutta). Todellisessa elämässä äänestäjien välillä on kuitenkin riippuvuuksia kuten mm. se että äänestäjät saattavat kuulua samaan puolueeseen tai esim. elää samalla maantieteellisellä alueella. Myös vaalivilppi kuten pakottaminen tai uurnien manipulointi voi indusoida korrelaatiota äänestystuloksiin. Korrelaatiolla ei kuitenkaan ole merkitystä, jos ne ovat ns. heikkoja ja äänestäjiä on riittävän suuri määrä. Heikko korrelaatio tarkoittaa sitä että äänestäjät eivät voi vuorovaikuttaa toistensa kanssa mielivaltaisen pitkän 'etäisyyden' yli (etäisyys voi olla konkreettinen (esim. maantieteellinen) tai abstrakti (esim. tuloluokka). Heikot korrelaatiot tyypillisesti vaimenevat nopeammin kuin potenssilakimuotoisena etäisyyden funktiona.

Mille tahansa satunnaismuuttujan, jolle on tehty affiininen muunnos niin että sen keskiarvo on saatettu nollaan ja varianssi ykköseksi [1] , jakauman karakteristiselle funktiolle pätee seuraava Taylor-laajennos pienillä Y:n arvoilla: <math> p(t) = 1 + \frac{1}{2!}(\imath t)^2 + \frac{1}{3!} (\imath t)^3 + \ldots </math>,

missä <math> \imath </math> tarkoittaa imaginaariyksikköä. N:n samasta jakaumasta generoidun satunnaismuuttujan summan

<math> Y \equiv (x_1 + x_2 + \ldots + x_N)/\sqrt{N}\ \ \ (1)</math>

karakteristinen funktio puolestaan toteuttaa

<math> p_N\left( \frac{t}{\sqrt{N}} \right) = \left[ p\left( \frac{t}{\sqrt{N}} \right) \right]^N \approx \left[ 1 + \frac{1}{N} \left(-\frac{t^2}{2} - \frac{\imath t^3}{6 \sqrt{N}} + \ldots \right) \right]^N \to e^{-t^2/2}\, \left( 1 - \frac{\imath t^3}{6 \sqrt{N}} + \ldots \right)\, ,\ \ N \to \infty\ ,\ \ \ (2) </math>

missä suluissa olevat termit ovat äärelliselle summalle päteviä lisätermejä, jotka tekevät jakautumasta mahdollisesti epäsymmetrisen ja ei-gaussisen. Suorittamalla käänteis-Fourier -muunnoksen ja ottamalla palauttamalla ykkösestä poikkeavan varianssin <math> \langle x^2 \rangle </math> saamme jakauman

<math> P_N(Y) = \frac{1}{ \pi \langle x^2 \rangle }\, \exp\left( -\frac{Y^2}{2 \langle x^2 \rangle} + \frac{1}{\sqrt{N}} [\ldots] \right)\ , </math>

Hakasuluissa oleva lauseke riippuu jakatuman <math> p(x) </math> korkeammista kuin toisesta momentista. Se on lisäksi epäuniversaali siinä mielessä että kertoimet riippuvat satunnaisprosessin yksityiskohdista [2]. Jakautuman kertoimia voidaan käyttää sovitusparametreinä, joita voidaan arvioida erilaisilla tekniikoilla ml. Bayes-inferenssi, jota sovelletaan arvioinnin pääsivulla kappaleessa Hierarkkinen Bayes-malli.

Yllä olevat kaavat pätisivät eksaktisti, mikäli oletamme että satunnaismuuttujat, jotka esiintyvät summassa (1) kuvaavat riippumattomia äänestäjiä. Ne pätevät asymptoottisesti myös vaikka äänestäjien päätökset riippuisvatkin toisistaan tietyin edellytyksin. Tarkastellaan ensin kokonaisäänestysaktiivisuutta ja jaetaan summamuuttuja osasummiin

<math> \sqrt{N}\, Y = \sum_{n=1}^M y_n\ , </math>

jossa osasummassa

<math> y_n \equiv \sum_{i \in B_n} x_i </math>

on <math> N_n </math> alkiota, joista jokainen kuuluu joukkoon <math> B_n </math>. Joukot <math> B_n </math> oletetaan toisensa poissulkeviksi. Mikäli osasummien lukumäärä <math> M </math> on riittävän suuri, voidaan tarkastella kokonaissummaan liittyvää normeerattua muuttujaa

<math> Y' = \sum_{n=1}^M y'_n\ \ \ y'_n \equiv \frac{y_n - \mu_n}{\sigma_M}\ , </math>

missä siis

<math> \sigma_M^2 \equiv \sum_{n=1}^M \sigma_n^2\ . </math>

Yksittäisen (alijono)muuttujan <math> y_n </math> varianssi on siis <math> \sigma_n </math> ja keskiarvo <math> \mu_n </math>. Jos

<math> N \gg M \gg 1\ , </math>

kaavassa (2) esitetty eksponentiaalinen muoto pätee Lyapunovin teoreeman perusteella kuten alla osoitetaan. Karakteristinen funktio summamuuttujan <math> Y' </math> jakaumalle:

<math> p_M(t) \propto \prod_{n=1}^M \int\!\! dy_n \int dy'\, e^{\imath y' t}\, \delta(y' - Y') \prod_n P_n(y_n)\ .</math>

Tulon ositus antaa

<math> p_M(t) \propto \prod_{n=1}^M \int\!\! dy_n\, e^{\imath y'_n t}\, P_n(y_n)\ .</math>

Laajentaen jokaisen tulon jäsenen pienen argumentin rajalla saamme

<math> p_M(t) \propto \prod_{n=1}^M \left( \int\!\! dy_n\, P_n(y_n) (1 + \imath t y'_n - \frac{1}{2} t^2 (y'_n)^2 + \ldots ) \right) = \prod_{n=1}^M \left( (1 - \frac{1}{2} t^2 \sigma_n^2/\sigma_M^2 + \ldots ) \right)\ . </math>

Eksponentioimalla saadaan

<math> p_M(t) \approx \prod_{n=1}^M \exp\left( -\frac{1}{2} t^2 \sigma_n^2/\sigma_M^2 + \ldots \right) \to \exp\left( -\frac{1}{2} t^2 \right)\ . </math>

Toisin sanoen, vaikka muuttujat <math> y'_n </math> eivät olisi identtisesti jakautuneita, pätee kaava (2) erittäin tarkasti pienille poikkeamille keskiarvon ympäristössä myös kun <math> M </math> on äärellinen.


Linkkejä

  • Berry–Esséen theorem
  • Teoreema pätee riittävän heikosti korreloituneille satunnaismuuttujille.
  • korreloimattomuus ei implikoi riippumattomuutta mutta päinvastainen pitää paikkansa .
  • Neljäkin konvoluutiota riittää tuottamaan aproksimatiivisesti Bellin käyrän muodon ei-gaussiselle muuttujalle [1]
  • joint probability concisely expressed in terms of the conditional distribution (chain rule of probability [3] for hidden variables)
  • Multinomial distribution (continuous analogue is multivariate normal distribution) [4]
  • Election fraud investigation in US electronic polling (partywise data comparison and Gaussian distribution of support) [5]
  • Gaussianity of support in Malaysia 2008 compared with Singapore 2006 showing that even in a fair election the won seats a 50%-50% result split between opposition and governing parties may result in a massively non-balanced distribution of seats in the parliament [6]
  • Skenwness [7] (actual numbers and the skewness of the distribution demonstrated)
  • Marginal distribution (hidden var.) [8]


Katso myös


Viitteet