Suurten lukujen laki vaalistatistiikalle

Opasnet Suomista
Versio hetkellä 2. tammikuuta 2012 kello 20.18 – tehnyt Smxb (keskustelu | muokkaukset) (→‎Huomioita)
Siirry navigaatioon Siirry hakuun





Gaussinen jakauma raja-arvona

Tässä kappaleessa perustellaan gaussisen jakautuman käyttöä vaalidatan aktiivisuus- ja kannatausprosenttijakautumien sovituksessa.

Useista aineistoista voidaan havaita että puoluekohtaisten kannatusprosenttien jakautumat kuten maakohtaiset äänestysaktiivisuusjakautumat ovat usein likipitäen normaalijakatuneita. Poikkeamille löytyy syitä, jotka vaihtelevat äänestäjien määrästä tahalliseen huijaukseen. Näiden vaikutusten erottaminen toisistaan on tärkeää oikean tulkinnan varmistamiseksi. Tämän vuoksi tutkimme alla millaisia jakaumia on odotettavissa ns. rehellisissä vaaleissa ja kuinka lähellä ne ovat normaalijakaumaa.

Jos äänestäjät olisivat täysin riippumattomia toisistaan, rehellisissä vaaleissa kokonaisaktiivisuus noudattaisi binomijakaumaa ja puolueiden kannatusjakauma noudattaa M-komponenttista multinomijakaumaa. Näiden jatkuvat vastineet ovat gaussisia normaalijakaumia (riippumattomuus implikoi korreloitumattomuutta). Todellisessa elämässä äänestäjien välillä on kuitenkin riippuvuuksia kuten mm. se että äänestäjät saattavat kuulua samaan puolueeseen tai esim. elää samalla maantieteellisellä alueella. Myös vaalivilppi kuten pakottaminen tai uurnien manipulointi voi indusoida korrelaatiota äänestystuloksiin. Korrelaatiolla ei kuitenkaan ole merkitystä, jos ne ovat ns. heikkoja ja äänestäjiä on riittävän suuri määrä. Heikko korrelaatio tarkoittaa sitä että äänestäjät eivät voi vuorovaikuttaa toistensa kanssa mielivaltaisen pitkän 'etäisyyden' yli (etäisyys voi olla konkreettinen (esim. maantieteellinen) tai abstrakti (esim. tuloluokka). Heikot korrelaatiot tyypillisesti vaimenevat nopeammin kuin potenssilakimuotoisena etäisyyden funktiona.

Mille tahansa satunnaismuuttujan, jolle on tehty affiininen muunnos niin että sen keskiarvo on saatettu nollaan ja varianssi ykköseksi [1] , jakauman karakteristiselle funktiolle pätee seuraava Taylor-laajennos pienillä Y:n arvoilla: <math> p(t) = 1 + \frac{1}{2!}(\imath t)^2 + \frac{1}{3!} (\imath t)^3 + \ldots </math>,

missä <math> \imath </math> tarkoittaa imaginaariyksikköä. N:n samasta jakaumasta generoidun satunnaismuuttujan summan

<math> Y \equiv (x_1 + x_2 + \ldots + x_N)/\sqrt{N}\ \ \ (1)</math>

karakteristinen funktio puolestaan toteuttaa

<math> p_N\left( \frac{t}{\sqrt{N}} \right) = \left[ p\left( \frac{t}{\sqrt{N}} \right) \right]^N \approx \left[ 1 + \frac{1}{N} \left(-\frac{t^2}{2} - \frac{\imath t^3}{6 \sqrt{N}} + \ldots \right) \right]^N \to e^{-t^2/2}\, \left( 1 - \frac{\imath t^3}{6 \sqrt{N}} + \ldots \right)\, ,\ \ N \to \infty\ ,\ \ \ (2) </math>

missä suluissa olevat termit ovat äärelliselle summalle päteviä lisätermejä, jotka tekevät jakautumasta mahdollisesti epäsymmetrisen ja ei-gaussisen. Suorittamalla käänteis-Fourier -muunnoksen ja ottamalla palauttamalla ykkösestä poikkeavan varianssin <math> \langle x^2 \rangle </math> saamme jakauman

<math> P_N(Y) = \frac{1}{ \pi \langle x^2 \rangle }\, \exp\left( -\frac{Y^2}{2 \langle x^2 \rangle} + \frac{1}{\sqrt{N}} [\ldots] \right)\ , </math>

Hakasuluissa oleva lauseke riippuu jakatuman <math> p(x) </math> korkeammista kuin toisesta momentista. Se on lisäksi epäuniversaali siinä mielessä että kertoimet riippuvat satunnaisprosessin yksityiskohdista [2]. Jakautuman kertoimia voidaan käyttää sovitusparametreinä, joita voidaan arvioida erilaisilla tekniikoilla ml. Bayes-inferenssi, jota sovelletaan arvioinnin pääsivulla kappaleessa Hierarkkinen Bayes-malli.

Yllä olevat kaavat pätisivät eksaktisti, mikäli oletamme että satunnaismuuttujat, jotka esiintyvät summassa (1) kuvaavat riippumattomia äänestäjiä ja ovat identtisesti jakautuneita. Kaavat pätevät asymptoottisesti myös ei-identtisille jakaumille [3] ja vaikka äänestäjien päätökset riippuisivatkin toisistaan tietyin edellytyksin. Tarkastellaan ensin kokonaisäänestysaktiivisuutta ja jaetaan summamuuttuja osasummiin

<math> \sqrt{N}\, Y = \sum_{n=1}^M y_n\ ,\ \ \ (0) </math>

jossa osasummassa

<math> y_n \equiv \sum_{i \in B_n} x_i </math>

on <math> N_n </math> alkiota, joista jokainen kuuluu joukkoon <math> B_n </math>. Joukot <math> B_n </math> oletetaan toisensa poissulkeviksi. Mikäli osasummien lukumäärä <math> M </math> on riittävän suuri, voidaan tarkastella kokonaissummaan liittyvää normeerattua muuttujaa

<math> Y' = \sum_{n=1}^M y'_n\ \ \ y'_n \equiv \frac{y_n - \mu_n}{\sigma(M)}\ , </math>

missä siis

<math> \sigma^2(M) \equiv \sum_{n=1}^M \sigma_n^2\ . </math>

Yksittäisen (alijono)muuttujan <math> y_n </math> varianssi on siis <math> \sigma_n </math> ja keskiarvo <math> \mu_n </math>. Jos

<math> N \gg M \gg 1\ , </math>

kaavassa (2) esitetty eksponentiaalinen muoto pätee Lyapunovin teoreeman perusteella kuten alla osoitetaan. Karakteristinen funktio summamuuttujan <math> Y' </math> jakaumalle:

<math> p_M(t) \propto \left\{ \prod_{n=1}^M \int\!\! dy_n \right\} \int dy'\, e^{\imath y' t}\, \delta(y' - Y') \left\{ \prod_{n=1}^M P_n(y_n) \right\}\ .\ \ \ (3) </math>

Tulon ositus antaa

<math> p_M(t) \propto \prod_{n=1}^M \int\!\! dy_n\, e^{\imath y'_n t}\, P_n(y_n)\ .</math>

Laajentaen jokaisen tulon jäsenen pienen argumentin rajalla saamme

<math> p_M(t) \propto \prod_{n=1}^M \left( \int\!\! dy_n\, P_n(y_n) (1 + \imath t y'_n - \frac{1}{2} t^2 (y'_n)^2 + \ldots ) \right) = \prod_{n=1}^M \left( 1 - \frac{1}{2} t^2 \sigma_n^2/\sigma^2(M) + \ldots \right)\ . </math>

Eksponentioimalla saadaan

<math> p_M(t) \approx \prod_{n=1}^M \exp\left( -\frac{1}{2} t^2 \sigma_n^2/\sigma^2(M) + \ldots \right) \to \exp\left( -\frac{t^2}{2} \right)\ . </math>

Toisin sanoen, vaikka muuttujat <math> y'_n </math> eivät olisi identtisesti jakautuneita, pätee kaava (2) erittäin tarkasti pienille poikkeamille keskiarvon ympäristössä myös kun <math> M </math> on äärellinen.

Kaavassa (3) on oletettu todennäköisyysjakauman <math> P_M </math> faktoroituvan täydellisesti:

<math> P_M(y'_1, \ldots, y'_M) = \prod_{n=1}^M P_n(y'_n)\ .\ \ \ (4) </math>

Tämä oletus on liian vahva käytäntöön sovellettuna, ja se voidaan korvata heikommalla oletuksella (vrt. ns. klusterihajotelma kenttäteoriassa). Toisin sanoen, oletus (4) voidaan relaksoida sallimalla osasummamuuttujien <math> y'_n </math> heikot korrelaatiot, siten että

<math> \langle y'_i y'_j \rangle = f(|i-j|)\ ,\ \ \ (5) </math>

missä odotusarvo on laskettu alkuperäisen mikroskooppisen (mahdollisesti korreloituneen) äänestäjäjakauman yli:

<math> \langle (\cdot) \rangle \equiv \prod_n \int\!\! dx_n\, P_N(x_1, \ldots, x_N) (\cdot)\ . </math>

Edelleen kaavassa (5) korrelaatiofunktio <math> f(|r|) </math> heikkenee riittävän nopeasti 'etäisyyden' <math> |r| = |i-j| </math> funktiona. Tällöin lisäämällä osasummamuuttujien summattavien määrää voidaan käytännön laskutoimituksia suorittaa käyttäen approksimaatiota (4) kokonaistodennäköisyysjakaumalle, vaikka se ei eksaktisti pätisikään. Etäisyysparametrina voidaan käyttää esim. maantieteellistä etäisyyttä. Jakaumaa karakterisoivia parametrejä voi olla useita muitakin mutta vaalidata ilmentää eksplisiittisesti ainoastaan vaalipiirien paikkatietoja.

Yllä mainitut seikat pätevät erityisen hyvin äänestysaktiivisuus-muuttujalle, joka on periaatteessa kaksiarvoinen muuttuja (joka saa arvot 'äänestää' tai 'ei äänestä'). Kokonaisäänestysaktiivisuus määritetään kaikkien äänten summana, joten kaikki summamuuttujille kirjattu päättely yllä pätee suoraan. Korrelaatiot ovat myös pienemmät kuin tarkasteltaessa puoluekohtaisia kannatuksia johtuen mm. suuremmasta summan jäsenten lukumäärästä ja siitä että puoluevalintaan kohdistuu monenlaisia vuorovaikutustekijöitä.

Tarkastellaan seuraavaksi puoluekohtaisia kannatusjakaumia. Rehellisissä vaaleissa puoluekohtaisen kannatuksen todennäköisyystiheys K:lle puolueelle mallinetaan multinomijakaumana

<math> P(n_1, \ldots, n_K; p_1, \ldots, p_K, N)\ ,\ \ \ (6) </math>

jossa <math> n_i </math> on puoluetta i äänestäneiden määrä, <math> p_i </math> on puolueen i keskimääräinen kannatustodennäköisyys ja <math> N </math> on äänestäjien kokonaislukumäärä. Yksinkertaisuuden vuoksi oletamme ensin että äänestäjät ovat toisistaan riippumattomia, jolloin yhtälö pätee pienemmillekin äänestäjämäärille. Kun <math> N </math> kasvaa suureksi ja todennäköisyydet <math> p_i </math> eivät lähesty nollaa, jakautuma (6) lähestyy uusien muuttujien

<math> \tilde{n}_i \equiv (n_i - N p_i)/\sigma\ \ \ ;\ \ \ \sigma \equiv \sqrt{\det\Sigma}\ ,\ \ \ (7) </math>

(missä <math> \Sigma_{i j} </math> on kovarianssimatriisi) normaalijakaumaa [4]. Ilman affiinimuunnosta saadaan gaussinen jakauma jossa singulaarinen kovarianssi (7) [5]. Kun <math> M=2 </math> voidaan tämä tulos johtaa tarkastelemalla satulapistelaajennusta keskiarvon ympärillä kuten lähteessä [6]. Jos äänestäjät eivät ole toisistaan riippumattomia, voimme taas olettaa että käytettäessä sopivia summamuuttujia (0) yhdessä klusteroituvuusoletuksen kanssa, ovat summamuuttujat

<math> y_i \equiv \sum_{s \in B_i} n_s\ .\ \ \ (8) </math>

toisistaan riippumattomia, kun summaaan on sisällytetty keskenään korreloituneet satunnaismuuttujat. Jatkamalla summamuuttujien summausta päästään skaalaan jossa summamuuttujien summat ovat gaussisesti jakatuneita. Tämä voidaan edelleen ilmaista yhtälön (8) avulla yksinkertaisesti tekemällä osajoukot <math> B_i </math> riittävän laajoiksi (esim. vaalipiirin kokoisiksi mutta pienemmiksi kuin esim. hallintoalueen koko.) Tällöin pätee

<math> P_M(y_1,\ldots,y_M) \to \frac{1}{\sqrt{\det\Sigma}} \exp\left(-(y_i - \mu_i) \Sigma^{-1}_{i j} (y_j - \mu_j)\right)\ .\ \ \ (9) </math>

Kaava (9) pätee siis riippumattomille muuttujille, joita voivat olla summamuuttujat <math> y_i </math> tai 'mikroskooppiset' riippumattomat muuttujat <math> n_i </math>, jotka noudattavat esim. multinomijakaumaa (6). Jälkimmäisessä tapauksessa <math> \mu_i \equiv N p_i </math> rajalla <math> N \to \infty </math> ja <math> p_i </math> ei-infinitesimaalinen.

Indeksijoukko <math> B_i </math> voidaan jakaa osiin mielivaltaisen monilla tavoilla. Yksi mahdollinen jako on erotella eri äänestyskäyttäytymiseen vaikuttavat selittäjät omiksi dimensioikseen. Tällaisia voivat olla esim. maantieteellinen paikka (useita eri resoluutiota vaikka kylätasolle asti riippuen korrelaatioiden kantamasta) <math> \mathbf{r} </math>, tuloluokka <math> T </math> jne. Siis <math> i = [\mathbf{r}, T, \ldots] </math>. Voimme siis kirjoittaa yhtälön (9) uudelleen:

<math> P[y(\mathbf{r}, T, \ldots)] \to \frac{1}{\sqrt{\det\Sigma}} \prod_{\mathbf{r}, T} \prod_{\mathbf{r}', T'} \exp\left(-(y(\mathbf{r}, T) - \mu(\mathbf{r}, T)) \Sigma^{-1}(\mathbf{r}, T; \mathbf{r}', T') (y(\mathbf{r}', T') - \mu(\mathbf{r}', T')) \right)\ .\ \ \ (10) </math>

Kaavat (9) ja (10) pätevät modulo normalisaatio

<math> \int\!\! {\mathcal D}y(\mathbf{r}, T, \ldots)\, P[y(\mathbf{r}, T, \ldots)] = 1\ . </math>.

Mikäli jakautuma (10) on syntynyt esim. multinomiaaliprosessista rajalla <math> N \to \infty </math>, jolloin <math> \mu(\mathbf{r}, T) = N p(\mathbf{r}, T) </math> voidaan maantieteellinen indeksi <math> \mathbf{r} </math> liittää esim. jokaiseen vaalipiiriin (tällöin sillä on siis diskreetti määrittelyjoukko). Olettamalla vaalipiirit toisistaan riippumattomiksi saadaan täysin faktorisoituva jakauma (10). Myös korrelaatioita voidaan vaalipiirien välillä karkeimmillaan mallintaa olettamalla kovarianssimatriisi <math> \Sigma </math> sellaiseksi että odotusarvot <math> \langle y(\mathbf{r}, T) y(\mathbf{r}', T') \rangle </math> (laskettuna yli jakauman (10)) eivät faktoroidu vaan säilyttävät sellaisen korrelaation asteen, jota vaalidatasetti tukee. Mikäli korrelaatiot ovat voimakkaita, ei oletus jakauman (10) gaussisesta muodosta ole enää välttämättä järkevä ja vaihtoehtoisia muotoja on testattava.

Tuntemattomien selittäjien (piilomuuttujien) olemassaolon vaikutukset (esim. korrelaatiota lisäävät puoluesidonnaisuudet, vaalivilppi tms.) voidaan riittävän heikkojen korrelaatioiden tapauksessa minimoida tai jopa eliminoida summaamalla 'ylimääräisten' muuttujien yli. Esim. summaamalla tuloluokan <math> T </math> yli saadaan muuttuja

<math> \hat{y}(\mathbf{r}) \equiv \sum_T y(\mathbf{r}, T) </math>

joka summamuuttujana voi olla huomatavasti gaussisemmin jakautunut kuin <math> y(\mathbf{r}, T) </math> (ts. summaamalla yli tuloluokan tai puoluesidonnaisuuden saadaan kaikkien samaan vaalipiiriin kuuluvien eri tuloluokkia tai puolueita edustustavien äänestäjien vaikutus 'keskiarvostettua pois'). Jos siis

<math> \langle y(\mathbf{r}, T) y(\mathbf{r}', T') \rangle \propto e^{-|\mathbf{r} - \mathbf{r}'|/\xi_1} e^{-|T - T'|/\xi_2}\ \ \ \Rightarrow\ \ \ \langle \hat{y}(\mathbf{r}) \hat{y}(\mathbf{r}') \rangle \propto e^{-|\mathbf{r} - \mathbf{r}'|/\xi_1}\ ,</math>

missä mahdollisesti <math> \xi_2 > \xi_1 </math> (anisotrooppisessa korrelaatiossa piilomuuttujan <math> T </math> korrelaatiopituus on suurempi). Summauksen (piilomuuttujakeskiarvostuksen) jälkeen ainoastaan maantieteellisellä korrelaatiopituudella <math> \xi_1 </math> on merkitystä. Keskiarvostusargumentti tukee jakautuman muuttumista gaussisempaan suuntaan monijäsenisille summamuuttujille vaikka emme edes pysty tunnistamaan kaikkia <math> y </math>:n argumentteina olevia (piilo)muuttujia.

Maantieteellisessä mielessä pitkänkantaman korrelaatiota voi syntyä esim. puoluesidonnaisuuksista vaikka oletusarvoisesti myös puoluekohtaiset jakautumat ovat likimain gaussisia. Voimaakkaasti ei-gaussinen anomalia, erityisesti suurten kannatusprosenttiosuuksien kohdalla, voi olla myös signaali vaalivilpistä.

Lopuksi voimme todeta, että pyrkimällä suurempiin yksiköihin äänestyskäyttäytymisen tarkastelussa (esim. vaalipiiritasolta hallintoalue/tasavaltatasolle) pitäisi summamuuttujien tulla aina tarkemmin gaussisiksi satunnaismuuttujiksi. Koska pienillä äänestäjämäärillä summamuuttujat sisältävät vähemmän summattavia, eivät korrelaatiot tule välttämättä eliminoiduiksi kovin tehokkasta, ja tästä syystä sekä kokokonaisäänestysaktiivisuuden että puoluekohtaisten kannatusjakaumien käyttäytyminen pienillä äänestysprosenteilla voivat poiketa huomattavasti Bellin käyrän muodosta. Tämä ilmiö onkin näkyvissä monien jakautumien kaksoispiikkirakenteena se. toinen piikki on ilmenee pienillä äänestysprosenteilla lähellä nollaa. Sama poikkeaman mahdollisuus pätee tietysti myös suurilla prosenttiosuuksilla jos vaalipiiri on kooltaan hyvin pieni. Tällaiset vaalipiirit voidaan kuitenkin helposti eliminoida statistiikasta ja voimme olettaa että suurilla prosenttiosuuksilla jakautumien pitäisi käyttäytyä tarkemmin normaalikautuman mukaisesti kuin pienillä.


Huomioita

  • Berry–Esséen theorem
  • korreloimattomuus ei implikoi riippumattomuutta mutta päinvastainen pitää paikkansa .
  • Jo muutama konvoluutio riittää tuottamaan likimain Bellin käyrän muodon jopa vahvasti ei-gaussiselle muuttujalle [1]
  • marginal distriubution (how to construct joint probability distributions with hidden variables using conditional probabilities and chain rule of probability [7].))
  • Multinomial distribution (continuous analogue is multivariate normal distribution) [4]
  • Election fraud investigation in US electronic polling (partywise data comparison and Gaussian distribution of support) [8]
  • Gaussianity of support in Malaysia 2008 compared with Singapore 2006 showing that even in a fair election the won seats a 50%-50% result split between opposition and governing parties may result in a massively non-balanced distribution of seats in the parliament [9]
  • Skewness [10] (actual numbers and the skewness of the distribution demonstrated)
  • Marginal distribution (hidden var.) [11]
  • Basic statistical inference (parameter estimation for fitting distributions to a single realization of a random process [12])

Katso myös


Viitteet