Valheellinen korrelaatio
Mikä on väärä korrelaatio?
Tilastoissa harhaanjohtava korrelaatio (tai harhaanjohtavuus) viittaa kahden muuttujan väliseen yhteyteen, joka näyttää olevan kausaalinen, mutta ei sitä ole. Harhaanjohtavalla korrelaatiolla kaikki havaitut riippuvuudet muuttujien välillä johtuvat vain sattumasta tai molemmat liittyvät johonkin näkymättömään hämmennykseen.
Harhaanjohtavan korrelaation ymmärtäminen
Valheelliset suhteet näyttävät aluksi osoittavan, että yksi muuttuja vaikuttaa suoraan toiseen, mutta näin ei ole. Tämä harhaanjohtava korrelaatio johtuu usein kolmannesta tekijästä, joka ei ole ilmeinen tutkimushetkellä, jota joskus kutsutaan hämmentäväksi tekijäksi.
Kun kaksi satunnaismuuttujaa seuraa toisiaan tiiviisti kaaviossa, on helppo epäillä korrelaatiota, jossa yhden muuttujan muutos aiheuttaa muutoksen toisessa muuttujassa. Jättäen sivuun syy-yhteyden, joka on toinen aihe, tämä havainto voi saada kaavion lukijan uskomaan, että muuttujan A liike liittyy muuttujan B liikkeeseen tai päinvastoin.
Tarkempi tilastollinen tarkastelu voi kuitenkin osoittaa, että kohdistetut liikkeet ovat satunnaisia tai johtuvat kolmannesta tekijästä, joka vaikuttaa kahteen muuttujaan. Tämä on harhaanjohtava korrelaatio. Pienellä otoskoolla tai mielivaltaisilla päätepisteillä tehty tutkimus on erityisen herkkä harhaanjohtamiselle.
Huijauksen havaitseminen
Ilmeisin tapa havaita väärä suhde tutkimustuloksissa on käyttää maalaisjärkeä. Se, että kaksi asiaa esiintyy ja näyttää olevan yhteydessä toisiinsa, ei tarkoita, etteikö muita tekijöitä olisi. Varmuuden vuoksi tutkimusmenetelmiä tarkastellaan kuitenkin kriittisesti.
Tutkimuksissa kaikki muuttujat, jotka voivat vaikuttaa havaintoihin, tulisi sisällyttää tilastolliseen malliin, jotta voidaan hallita niiden vaikutusta riippuvaan muuttujaan.
Harhaanjohtava korrelaatio
Monet harhasuhteet voidaan tunnistaa tervettä järkeä käyttämällä. Jos korrelaatio löytyy, pelissä on yleensä useampi kuin yksi muuttuja, eivätkä muuttujat usein ole heti ilmeisiä.
Esimerkkejä vääristä korrelaatioista
Mielenkiintoisia korrelaatioita on helppo löytää, mutta monet osoittautuvat vääriksi. Kolme esimerkkiä ovat hameen pituusteoria, superkulhoindikaattori ja ehdotettu korrelaatio rodun ja korkeakoulun suorittamisen välillä.
Hameen pituusteoria: 1920-luvulta peräisin olevan hameen pituusteorian mukaan hameen pituudet ja osakemarkkinoiden suunta korreloivat. Jos hamepituudet ovat pitkiä, korrelaatio on, että osakemarkkinat ovat laskevia. Jos paidan pituudet ovat lyhyitä, markkinat ovat nousujohteiset.
Super Bowl -indikaattori: Tammikuun lopulla puhutaan usein niin sanotusta Super Bowl -indikaattorista, mikä viittaa siihen, että American Football Conference -joukkueen voitto tarkoittaa todennäköisesti osakemarkkinoiden laskua lähitulevaisuudessa. vuonna, kun taas National Football Conference -joukkueen voitto ennakoi markkinoiden nousua. Super Bowl -aikakauden alusta lähtien indikaattori on ollut tarkka noin 74 % ajasta eli 40 kertaa 54 vuodesta, OpenMarketsin mukaan. Se on hauska keskustelupala, mutta ei luultavasti jotain, jota vakava taloudellinen neuvonantaja suosittelisi sijoitusstrategiaksi asiakkaille.
Koulutustaso ja rotu: Yhteiskuntatieteilijät ovat keskittyneet tunnistamaan, mitkä muuttujat vaikuttavat koulutustasoon. Hallituksen tutkimuksen mukaan 56 % valkoisista 25–29-vuotiaista oli suorittanut korkeakoulututkinnon vuonna 2019, kun vastaava luku oli vain 36 % samanikäisistä mustista. Seurauksena on, että rodulla on syy-vaikutus korkeakoulujen suorittamiseen.
Rotu ei kuitenkaan välttämättä itse vaikuta koulutustasoon. Tulokset voivat johtua myös rasismin vaikutuksista yhteiskunnassa, joka voi olla kolmas "piilotettu" muuttuja. Rasismi vaikuttaa värikkäisiin ihmisiin ja asettaa heidät epäedulliseen asemaan koulutuksellisesti ja taloudellisesti. Esimerkiksi ei-valkoisten yhteisöjen koulut kohtaavat suurempia haasteita ja saavat vähemmän rahoitusta, ei-valkoisten väestöryhmien vanhemmilla on huonommin palkattu työ ja vähemmän resursseja lastensa koulutukseen, ja monet perheet asuvat ruoka-aavikoissa ja kärsivät aliravitsemuksesta. . Rasismia, ei rotua, voidaan pitää syy-muuttujana, joka vaikuttaa koulutustasoon.
Kohokohdat
Syy-seuraussuhteen ilmaantuminen johtuu usein samankaltaisesta liikkeestä kaaviossa, joka osoittautuu sattumanvaraiseksi tai johtuu kolmannesta "hämmentävästä" tekijästä.
Valheellista korrelaatiota tai harhaanjohtavuutta ilmenee, kun kaksi tekijää näyttävät liittyvän satunnaisesti toisiinsa, mutta eivät sitä ole.
Syy-yhteyden vahvistaminen edellyttää tutkimusta, joka ohjaa kaikkia mahdollisia muuttujia.
Tilastomiehet ja tiedemiehet käyttävät huolellista tilastollista analyysiä virheellisten suhteiden määrittämiseksi.
Harhaanjohtava korrelaatio voi johtua pienistä otoskooista tai mielivaltaisista päätepisteistä.
UKK
Mikä on harhaanjohtava regressio?
Harhaanjohtava regressio on tilastollinen malli, joka osoittaa harhaanjohtavaa tilastollista näyttöä lineaarisesta suhteesta; toisin sanoen harhaanjohtava korrelaatio riippumattomien ei-stationaaristen muuttujien välillä.
Mikä on esimerkki korrelaatiosta, mutta ei syy-yhteydestä?
Esimerkki korrelaatiosta on, että enemmän unta johtaa parempaan suorituskykyyn päivän aikana. Vaikka korrelaatio on olemassa, syy-yhteyttä ei välttämättä ole. Enemmän unta ei ehkä ole syynä siihen, että henkilö suoriutuu paremmin; he voivat esimerkiksi käyttää uutta ohjelmistotyökalua, joka lisää heidän tuottavuuttaan. Syy-yhteyden löytämiseksi on oltava tosiasiallisia todisteita tutkimuksesta, joka osoittaa syy-yhteyden unen ja suorituskyvyn välillä.
Kuinka havaita väärä korrelaatio?
Tilastotyöntekijöiden ja muiden tutkijoiden, jotka analysoivat tietoja, on etsittävä väärennettyjä suhteita koko ajan. Niiden tunnistamiseen käytetään lukuisia menetelmiä, mukaan lukien: - oikean edustavan otoksen varmistaminen - Riittävän otoskoon hankkiminen - Satunnaisten päätepisteiden varominen - Mahdollisimman monen ulkopuolisen muuttujan hallinta - Nollahypoteesin käyttäminen ja vahvan p :n tarkistaminen -arvo
Mikä on väärä syy-yhteys?
Väärä kausaalisuus viittaa olettamukseen, jonka mukaan yksi asia aiheuttaa jotain muuta niiden välisen suhteen vuoksi. Voimme esimerkiksi olettaa, että Harry on harjoitellut lujasti tullakseen nopeammaksi juoksijaksi, koska hänen kilpailuaikansa ovat parantuneet. Todellisuus saattaa kuitenkin olla, että Harryn kilpailuajat ovat parantuneet, koska hänellä on uudet juoksukengät, jotka on valmistettu uusimmalla tekniikalla. Alkuperäinen oletus oli väärä syy-yhteys.