Tilastollinen merkitsevyys

Mikä on tilastollinen merkitsevyys?

Tilastollinen merkitsevyys viittaa väitteeseen, jonka mukaan havaittujen tietojen joukko ei ole sattuman tulosta, vaan sen voidaan katsoa johtuvan tietystä syystä. Tilastollinen merkitys on tärkeä akateemisille tieteenaloille tai ammatinharjoittajille, jotka luottavat voimakkaasti tietojen ja tutkimuksen analysointiin, kuten taloustiede, rahoitus,. sijoittaminen,. lääketiede, fysiikka ja biologia.

Tilastollista merkitsevyyttä voidaan pitää vahvana tai heikkona. Kun analysoidaan datajoukkoa ja tehdään tarvittavia testejä sen selvittämiseksi, onko yhdellä tai useammalla muuttujalla vaikutusta lopputulokseen, vahva tilastollinen merkitsevyys tukee sitä tosiasiaa, että tulokset ovat todellisia eivätkä johdu tuurista tai sattumasta. Yksinkertaisesti sanottuna, jos p-arvo on pieni, tulosta pidetään luotettavampana.

Ongelmia syntyy tilastollisesti merkitsevissä testeissä, koska tutkijat työskentelevät yleensä suurempien populaatioiden näytteiden kanssa, eivät itse populaatioiden kanssa. Näin ollen otosten tulee edustaa perusjoukkoa, joten otokseen sisältyvät tiedot eivät saa olla millään tavalla vääristyneitä. Useimmissa tieteissä, mukaan lukien taloustiede, tulosta voidaan pitää tilastollisesti merkittävänä, jos sen luottamustaso on 95 % (tai joskus 99 %).

Tilastollisen merkityksen ymmärtäminen

Tilastollisen merkitsevyyden laskennassa (merkittävyystestauksessa) on tietty virheaste. Vaikka tiedoilla näyttäisi olevan vahva yhteys, tutkijoiden on otettava huomioon mahdollisuus, että näennäinen korrelaatio syntyi satunnaisen sattuman tai otosvirheen vuoksi.

Näytteen koko on tärkeä tilastollisen merkitsevyyden komponentti, koska suuremmat näytteet ovat vähemmän alttiita flukeille. Merkitystestauksessa tulee käyttää vain satunnaisesti valittuja edustavia näytteitä . Taso, jolla voidaan hyväksyä, onko tapahtuma tilastollisesti merkitsevä,. tunnetaan merkitsevyystasoksi.

p-arvona tunnettua mittausta tilastollisen merkitsevyyden määrittämiseen: jos p-arvo putoaa merkitsevyystason alapuolelle, tulos on tilastollisesti merkitsevä. P-arvo on datanäytteiden keskiarvojen ja keskihajonnan funktio.

P-arvo ilmaisee todennäköisyyden, jolla annettu tilastollinen tulos tapahtui, olettaen, että pelkkä sattuma on vastuussa tuloksesta. Jos tämä todennäköisyys on pieni, tutkija voi päätellä, että jokin muu tekijä voi olla vastuussa havaitusta tiedosta.

Merkitsevyystason vastakohta, joka lasketaan 1 miinus merkitsevyystasolla, on luottamustaso. Se osoittaa luotettavuuden, että tilastollinen tulos ei syntynyt sattumalta tai otosvirheestä. Tavanomainen luottamustaso monissa tilastollisissa testeissä on 95 %, mikä johtaa tavanomaiseen merkitsevyystasoon tai p-arvoon 5 %.

"P-hakkerointi" on käytäntö, jossa verrataan tyhjentävästi monia erilaisia tietojoukkoja tilastollisesti merkitsevän tuloksen etsimiseksi. Tämä on altis raportointiharhalle , koska tutkijat raportoivat vain myönteisistä tuloksista – eivät negatiivisista.

Erityisiä huomioita

Tilastollinen merkitsevyys ei aina tarkoita käytännön merkitystä, joten tuloksia ei voida soveltaa todellisiin liiketoimintatilanteisiin. Lisäksi tilastollinen merkitsevyys voidaan tulkita väärin, jos tutkijat eivät käytä kieltä huolellisesti tulosten raportoinnissa. Se, että tulos on tilastollisesti merkitsevä, ei tarkoita, että se ei olisi sattuman seuraus, vain sitä, että näin ei todennäköisesti ole.

Se, että kahdella tietosarjalla on vahva korrelaatio keskenään, ei tarkoita syy-yhteyttä. Esimerkiksi niiden elokuvien määrä, joissa näyttelijä Nicolas Cage näyttelee tiettynä vuonna, korreloi erittäin voimakkaasti uima-altaissa sattuneiden hukkumisten määrään. Mutta tämä korrelaatio on harhaanjohtava,. koska ei voida esittää teoreettista syy-väittämää.

Toinen ongelma, joka saattaa syntyä tilastollisessa merkityksessä, on se, että menneet tiedot ja niistä saadut tulokset, olivatpa ne tilastollisesti merkittäviä tai eivät, eivät välttämättä kuvasta meneillään olevia tai tulevia olosuhteita. Sijoittamisessa tämä voi ilmetä hinnoittelumallin hajoamisena finanssikriisin aikana, kun korrelaatiot muuttuvat ja muuttujat eivät vuorovaikuta normaalisti. Tilastollinen merkitsevyys voi myös auttaa sijoittajaa havaitsemaan, onko jokin omaisuuserien hinnoittelumalli parempi kuin toinen.

Tilastollisten merkitsevyystestien tyypit

Useita erityyppisiä merkitsevyystestejä käytetään suoritettavasta tutkimuksesta riippuen. Testejä voidaan käyttää esimerkiksi yhdelle, kahdelle tai useammalle erikokoiselle datanäytteelle keskiarvoille, varianssille, suhteille, parillisille tai parittomille tiedoille tai erilaisille datajakaumille.

Merkitystestaukseen on myös erilaisia lähestymistapoja käytettävissä olevan datan tyypin mukaan. Ronald Fisher on ansioitunut yhden joustavimman lähestymistavan muotoilusta sekä asettanut merkitsevyyden normiksi p < 0,05. Koska suurin osa työstä voidaan tehdä sen jälkeen, kun aineisto on jo kerätty, tämä menetelmä on edelleen suosittu lyhytaikaisissa tai ad hoc -tutkimusprojekteissa.

Pyrkiessään kehittämään Fisherin menetelmää Jerzy Neyman ja Egon Pearson päätyivät kehittämään vaihtoehtoista lähestymistapaa. Tämä menetelmä vaatii enemmän työtä ennen tiedon keräämistä, mutta sen avulla tutkijat voivat suunnitella tutkimuksensa tavalla, joka hallitsee väärien johtopäätösten tekemisen todennäköisyyttä.

Nollahypoteesin testaus

Tilastollista merkitsevyyttä käytetään nollahypoteesitestauksessa, jossa tutkijat yrittävät tukea teorioitaan hylkäämällä muut selitykset. Vaikka menetelmää joskus ymmärretään väärin, se on edelleen suosituin tietojen testausmenetelmä lääketieteessä, psykologiassa ja muilla aloilla.

Yleisin nollahypoteesi on, että kyseinen parametri on yhtä suuri kuin nolla (tyypillisesti osoittaen, että muuttujalla on nolla vaikutus kiinnostavaan tulokseen). Jos tutkijat hylkäävät nollahypoteesin 95 %:n tai paremmalla varmuudella, he voivat väittää, että havaittu yhteys on tilastollisesti merkitsevä. Nollahypoteesit voidaan myös testata kahden tai useamman vaihtoehtoisen hoidon tehon yhtäläisyyden suhteen.

Toisin kuin yleinen väärinkäsitys, korkea tilastollinen merkitsevyys ei voi todistaa hypoteesia todeksi tai epätosi. Todellisuudessa tilastollinen merkitsevyys mittaa todennäköisyyttä, että havaittu tulos olisi tapahtunut, olettaen, että nollahypoteesi on totta.

Nollahypoteesin hylkääminen, vaikka erittäin korkea tilastollinen merkitsevyys ei koskaan voisi todistaa jotain, voi vain lisätä tukea olemassa olevalle hypoteesille. Toisaalta nollahypoteesin hylkäämättä jättäminen on usein peruste hypoteesin hylkäämiselle.

Lisäksi vaikutus voi olla tilastollisesti merkittävä, mutta sillä on vain hyvin pieni vaikutus. Esimerkiksi voi olla tilastollisesti merkittävää, että kylpyhuoneissaan kaksikerroksista wc-paperia käyttävillä yrityksillä on tuottavampia työntekijöitä, mutta jokaisen työntekijän absoluuttisen tuottavuuden parantuminen on todennäköisesti vähäistä.

Korjaus – 15. toukokuuta 2022: Tätä artikkelia on muokattu siten, että se tuo esiin mahdollisia virheitä merkityksellisyystestauksessa.

Kohokohdat

Tilastollinen merkitsevyys tarkoittaa väitettä, jonka mukaan testauksen tai kokeilun tuloksena saadun datan tulos on todennäköisesti johtunut tietystä syystä.
Tilastollisen merkitsevyyden laskennassa on tietty virheaste.
Suuri tilastollinen merkitsevyys osoittaa, että havaittu yhteys ei todennäköisesti johdu sattumasta.
Käytetään monenlaisia merkitsevyystestejä riippuen tehdystä tutkimuksesta.
Tilastollinen merkitys voi tulla väärin, jos tutkijat eivät käytä kieltä huolellisesti tulosten raportoinnissa.