Investor's wiki

T-test

T-test

Vad Àr ett T-test?

Ett t-test Àr en typ av inferentiell statistik som anvÀnds för att avgöra om det finns en signifikant skillnad mellan medelvÀrdena för tvÄ grupper, som kan vara relaterade i vissa egenskaper. Det anvÀnds mest nÀr datamÀngderna, som datauppsÀttningen registrerad som resultatet av att vÀnda ett mynt 100 gÄnger, skulle följa en normalfördelning och kan ha okÀnda avvikelser. Ett t-test anvÀnds som ett hypotestestverktyg, vilket möjliggör testning av ett antagande som Àr tillÀmpligt pÄ en population.

Ett t-test tittar pÄ t-statistiken, t-fördelningsvÀrdena och frihetsgraderna för att bestÀmma den statistiska signifikansen. För att genomföra ett test med tre eller fler medel mÄste man anvÀnda en variansanalys.

Förklarar T-testet

I huvudsak lÄter ett t-test oss jÀmföra medelvÀrdena för de tvÄ datamÀngderna och avgöra om de kom frÄn samma population. I exemplen ovan, om vi skulle ta ett urval av elever frÄn klass A och ett annat urval av elever frÄn klass B, skulle vi inte förvÀnta oss att de skulle ha exakt samma medelvÀrde och standardavvikelse. PÄ samma sÀtt bör prover som tagits frÄn den placebomatade kontrollgruppen och de som tagits frÄn den lÀkemedelsförskrivna gruppen ha nÄgot annorlunda medelvÀrde och standardavvikelse.

Matematiskt tar t-testet ett urval frÄn var och en av de tvÄ uppsÀttningarna och etablerar problemformuleringen genom att anta en nollhypotes att de tvÄ medelvÀrdena Àr lika. Baserat pÄ tillÀmpliga formler berÀknas och jÀmförs vissa vÀrden mot standardvÀrdena, och den antagna nollhypotesen accepteras eller förkastas i enlighet med detta.

Om nollhypotesen kvalificerar sig för att förkastas, indikerar det att dataavlÀsningarna Àr starka och förmodligen inte beror pÄ slumpen.

T-testet Àr bara ett av mÄnga test som anvÀnds för detta ÀndamÄl. Statistiker mÄste dessutom anvÀnda andra test Àn t-testet för att undersöka fler variabler och tester med större urvalsstorlekar. För en stor urvalsstorlek anvÀnder statistiker ett z-test. Andra testalternativ inkluderar chi-kvadrattestet och f-testet.

Det finns tre typer av t-tester, och de kategoriseras som beroende och oberoende t-tester.

Tvetydiga testresultat

TÀnk pÄ att en lÀkemedelstillverkare vill testa ett nyuppfunnit lÀkemedel. Det följer standardproceduren att prova lÀkemedlet pÄ en grupp patienter och ge placebo till en annan grupp, kallad kontrollgruppen. Placebo som ges till kontrollgruppen Àr en substans utan avsett terapeutiskt vÀrde och fungerar som ett riktmÀrke för att mÀta hur den andra gruppen, som fÄr det faktiska lÀkemedlet, reagerar.

Efter lÀkemedelsprövningen rapporterade medlemmarna i den placebomatade kontrollgruppen en ökning av medellivslÀngden pÄ tre Är, medan medlemmarna i gruppen som ordineras det nya lÀkemedlet rapporterar en ökning av medellivslÀngden med fyra Är. Omedelbar observation kan indikera att lÀkemedlet verkligen fungerar eftersom resultaten Àr bÀttre för gruppen som anvÀnder lÀkemedlet. Det Àr dock ocksÄ möjligt att observationen kan bero pÄ en tillfÀllighet, sÀrskilt en överraskande tur. Ett t-test Àr anvÀndbart för att dra slutsatsen om resultaten faktiskt Àr korrekta och tillÀmpliga pÄ hela populationen.

I en skola fick 100 elever i klass A i genomsnitt 85 % med en standardavvikelse pĂ„ 3 %. Ytterligare 100 elever som tillhör klass B fick i genomsnitt 87 % med en standardavvikelse pĂ„ 4 %. Även om medeltalet för klass B Ă€r bĂ€ttre Ă€n för klass A, Ă€r det kanske inte korrekt att dra till slutsatsen att den övergripande prestationen för elever i klass B Ă€r bĂ€ttre Ă€n för elever i klass A. Detta beror pĂ„ att det finns naturliga variationer i testresultaten i bĂ„da klasserna, sĂ„ skillnaden kan bero pĂ„ enbart slumpen. Ett t-test kan hjĂ€lpa till att avgöra om en klass klarade sig bĂ€ttre Ă€n den andra.

T-testantaganden

  1. Det första antagandet som gjordes betrÀffande t-tester gÀller mÀtskalan. Antagandet för ett t-test Àr att mÀtskalan som tillÀmpas pÄ insamlade data följer en kontinuerlig eller ordinal skala, sÄsom poÀngen för ett IQ-test.

  2. Det andra antagandet som görs Àr ett enkelt slumpmÀssigt urval, att data samlas in frÄn en representativ, slumpmÀssigt utvald del av den totala populationen.

  3. Det tredje antagandet Àr att data, nÀr de plottas, resulterar i en normalfördelning, klockformad distributionskurva.

  4. Det sista antagandet Àr variansens homogenitet. Homogen, eller lika, varians existerar nÀr standardavvikelserna för prover Àr ungefÀr lika.

BerÀknar T-test

För att berÀkna ett t-test krÀvs tre nyckeldatavÀrden. De inkluderar skillnaden mellan medelvÀrdena frÄn varje datamÀngd (kallad medelskillnad), standardavvikelsen för varje grupp och antalet datavÀrden för varje grupp.

Resultatet av t-testet ger t-vÀrdet. Detta berÀknade t-vÀrde jÀmförs sedan mot ett vÀrde erhÄllet frÄn en kritisk vÀrdetabell (kallad T-fördelningstabell). Denna jÀmförelse hjÀlper till att bestÀmma effekten av enbart slumpen pÄ skillnaden och om skillnaden ligger utanför det chansintervallet. T-testet ifrÄgasÀtter om skillnaden mellan grupperna representerar en sann skillnad i studien eller om det möjligen Àr en meningslös slumpmÀssig skillnad.

T-fördelningstabeller

T-distributionstabellen Àr tillgÀnglig i format med en svans och tvÄ svansar. Den förra anvÀnds för att bedöma fall som har ett fast vÀrde eller intervall med en tydlig riktning (positiv eller negativ). Till exempel, vad Àr sannolikheten för att utmatningsvÀrdet förblir under -3, eller att fÄ mer Àn sju nÀr man kastar ett par tÀrningar? Den senare anvÀnds för avstÄndsbunden analys, som att frÄga om koordinaterna ligger mellan -2 och +2.

BerÀkningarna kan utföras med standardprogram som stöder nödvÀndiga statistiska funktioner, som de som finns i MS Excel.

T-vÀrden och frihetsgrader

t-testet producerar tvÄ vÀrden som dess utdata: t-vÀrde och frihetsgrader. t-vÀrdet Àr ett förhÄllande mellan skillnaden mellan medelvÀrdet av de tvÄ provuppsÀttningarna och variationen som finns inom provuppsÀttningarna. Medan tÀljarvÀrdet (skillnaden mellan medelvÀrdet av de tvÄ provuppsÀttningarna) Àr enkelt att berÀkna, kan nÀmnaren (variationen som finns inom provuppsÀttningarna) bli lite komplicerad beroende pÄ vilken typ av datavÀrden som Àr involverade. NÀmnaren för förhÄllandet Àr ett mÄtt pÄ dispersionen eller variabiliteten. Högre vÀrden pÄ t-vÀrdet, Àven kallat t-score, indikerar att det finns en stor skillnad mellan de tvÄ provuppsÀttningarna. Ju mindre t-vÀrdet Àr, desto mer likhet finns det mellan de tvÄ sampeluppsÀttningarna.

– En stor t-score indikerar att grupperna Ă€r olika.

– En liten t-score indikerar att grupperna Ă€r lika.

Frihetsgrader avser de vÀrden i en studie som har frihet att variera och Àr vÀsentliga för att bedöma nollhypotesens betydelse och giltighet. BerÀkning av dessa vÀrden beror vanligtvis pÄ antalet tillgÀngliga dataposter i provuppsÀttningen.

Korrelerat (eller parat) T-test

Det korrelerade t-testet utförs nĂ€r proven vanligtvis bestĂ„r av matchade par av liknande enheter, eller nĂ€r det finns fall av upprepade mĂ€tningar. Det kan till exempel finnas fall dĂ€r samma patienter testas upprepade gĂ„nger – innan och efter att de fĂ„tt en viss behandling. I sĂ„dana fall anvĂ€nds varje patient som ett kontrollprov mot sig sjĂ€lv.

Denna metod gÀller Àven för fall dÀr proverna Àr relaterade pÄ nÄgot sÀtt eller har matchande egenskaper, som en jÀmförande analys som involverar barn, förÀldrar eller syskon. Korrelerade eller parade t-tester Àr av beroende typ, eftersom dessa involverar fall dÀr de tvÄ uppsÀttningarna av sampel Àr relaterade.

Formeln för att berÀkna t-vÀrdet och frihetsgraderna för ett parat t-test Àr:

T=medelvĂ€rde1−medelvĂ€rde2< mfrac>s(diff)(n)< /mfrac>< /mstyle>dĂ€r:medelvĂ€rde1 och medelvĂ€rde2</ mo>GenomsnittsvĂ€rdena för var och en av provuppsĂ€ttningarnas</ mi>(diff)=Standardavvikelsen av skillnaderna mellan de parade datavĂ€rdena n= Samplestorleken (antalet parade skillnader)</mr ow>n−</ mo>1=Frihetsgraderna< annotation encoding="application/x-tex">\begin&T=\frac{\textit1 - \textit2}{\frac{s(\text)} {\sqrt{(n)}}}\&\textbf{dĂ€r:}\&\textit1\text\textit2=\text{De genomsnittliga vĂ€rdena för varje av urvalsuppsĂ€ttningarna}\&s(\text)=\text{Standardavvikelsen för skillnaderna mellan de parade datavĂ€rdena}\&n=\text{Samplets storlek (antalet parade skillnader)}\&n-1=\text\end<span class="katex-html" aria -hidden="true">< span class="mord">< span class="mord">< span class="mord">< span class="mord">< span class="mord">​>< span class="vlist-t vlist-t2">T=< /span>(n)<svg width='400em' height='1.5428571428571431em' viewBox='0 0 400000 1080' preserveAspectRatio='><5428571428571431em'

c-2.7,0,-7.17,-2.7,-13.5,-8c-5.8,-5.3,-9.5,-10,-9.5,-14

c0,-2,0,3,-3,3,1,-4c1,3,-2,7,23,83,-20,7,67,5,-54

c44.2,-33.3,65.8,-50.3,66.5,-51c1.3,-1.3,3,-2,5,-2c4.7,0,8.7,3.3,12,10

s173,378,173,378c0,7,0,35,3,-71,104,-213c68,7,-142,137,5,-285,206,5,-429

c69,-144,104,5,-217,7,106,5,-221

10 -0

c5.3,-9.3,12,-14,20,-14

H400000v40H845.2724

s-225.272,467,-225.272,467s-235.486,-235.486c-2.7,4.7,-9,7,-19,7

c-6,0,-10,-1,-12,-3s-194,-422,-194,-422s-65,47,-65,47z

M834 80h400000v40h-400000z'/>​ s(</ span>diff)</ span>​ </ span>mean1−mean2< span class="vlist-s">​</ span>dĂ€r:< /span>mean 1 och mean2</ span>=GenomsnittsvĂ€rdena för var och en av provuppsĂ€ttningarnas(diff )=Standardavvikelsen för skillnaderna mellan de parade datavĂ€rdena n< span class="mrel">=Samplestorleken (antalet parade skillnader)n−1=Frihetsgraderna​

De Ă„terstĂ„ende tvĂ„ typerna tillhör de oberoende t-testerna. Proverna av dessa typer vĂ€ljs oberoende av varandra – det vill sĂ€ga att datamĂ€ngderna i de tvĂ„ grupperna inte refererar till samma vĂ€rden. De inkluderar fall som att en grupp pĂ„ 100 patienter delas upp i tvĂ„ uppsĂ€ttningar med 50 patienter vardera. En av grupperna blir kontrollgrupp och fĂ„r placebo medan den andra gruppen fĂ„r den ordinerade behandlingen. Detta utgör tvĂ„ oberoende urvalsgrupper som Ă€r oparade med varandra.

Lika varians (eller poolad) T-test

Lika varians t-testet anvÀnds nÀr antalet sampel i varje grupp Àr detsamma, eller variansen för de tvÄ datamÀngderna Àr liknande. Följande formel anvÀnds för att berÀkna t-vÀrde och frihetsgrader för lika varians t-test:

T-vĂ€rde= mean1−m< /mi>ean2(n1−1)×var1< mn>2+(n2−1)×var22n 1+n2−2< /mfrac>×1n1+1< /mn>n2 < mstyle scriptlevel="0" displaystyle="true">dĂ€r:</ mtr>mean1</ mn> och mean2 =Genomsnittliga vĂ€rden för varjeav exempeluppsĂ€ttningarv</ mi>ar1 och va r2=Varians för var och en av exempeluppsĂ€ttningarna n1 och n2 =Antal poster i varje exempeluppsĂ€ttning\begin&\text = \frac{ mean1 - mean2 }{\frac {(n1 - 1) \times var12 + (n2 - 1) \times var22 }{ n1 +n2 - 2}\times \sqrt{ \frac{1} + \frac{1}} } \&\textbf{dĂ€r:}\&amp ;mean1 \text mean2 = \text{GenomsnittsvĂ€rden för varje} \&\text{av urvalsmĂ€ngderna}\&var1 \text var2 = \text{Varians för vart och ett av urvalet uppsĂ€ttning s}\&n1 \text n2 = \text{Antal poster i varje provuppsĂ€ttning} \end

10 -0

c4,-6.7,10,-10,18,-10 H400000v40

H1013.1s-83.4,268,-264.1,840c-180.7.572,-277.876.3,-289.913c-4.7,4.7,-12.7,7,-24,7

s-12,0,-12,0c-1,3,-3,3,-3,7,-11,7,-7,-25c-35,3,-125,3,-106,7,-373,3,-214,-744

c-10,12,-21,25,-33,39s-32,39,-32,39c-6,-5,3,-15,-14,-27,-26s25,-30,25,-30

c26.7,-32.7,52,-63,76,-91s52,-60,52,-60s208,722,208,722

c56,-175.3,126.3,-397.3,211,-666c84.7,-268.7,153.8,-488.2,207.5,-658.5

c53.7,-170.3,84.5,-266.8,92.5,-289.5z

M1001 80h400000v40h-400000z'/>​ < span class="mord">mea< span class="mord mathnormal">n1< span class="mbin">−m< span class="mord mathnormal">ean2​dĂ€r:< /span>mea< span class="mord mathnormal">n1 och </ span>mean2< span class="mspace" style="margin-right:0.2777777777777778em;">=Genomsnittliga vĂ€rden för varje< span class="mord text">av provuppsĂ€ttningarna< span class="psrut" style="height:3.32144em;">var 1 och var2= Varians för var och en av provuppsĂ€ttningarnan1 och n2= Antal poster i varje provuppsĂ€ttning​</ span>

och,

Frihetsgrader=n< mn>1+n2−2 dĂ€r:< /mtr>n1 och n2< /mn>=Antal poster i varje provuppsĂ€ttning</m tr>\begin &\text = n1 + n2 - 2 \ &\textbf{dĂ€r:}\ &n1 \text n2 = \text{Antal poster i varje exempeluppsĂ€ttning} \ \end

OjÀmn varians T-Test

OjÀmlika varians t-testet anvÀnds nÀr antalet sampel i varje grupp Àr olika, och variansen för de tvÄ datamÀngderna Àr ocksÄ olika. Detta test kallas Àven Welchs t-test. Följande formel anvÀnds för att berÀkna t-vÀrde och frihetsgrader för ett t-test med ojÀmn varians:

T-vĂ€rde= mean1−m< /mi>ean2(var1 n1+v</ mi>ar2n2< /mrow>)</ mtr>dĂ€r: me an1 och me</ mi>an2=Genomsnittliga vĂ€rden för varje< /mstyle>av exempeluppsĂ€ttningarnavar1 och var2=Varians för var och en av provuppsĂ€ttningarna mtext> n1 och n2=Antal av poster i varje exempeluppsĂ€ttning\begin&\text {T-vĂ€rde}=\frac{\sqrt{\bigg(\frac{+\frac\bigg)}}}\&\textbf {dĂ€r:}\&mean1 \text mean2 = \text{GenomsnittsvĂ€rden för varje} \&\text{i exempelmĂ€ngderna} \&var1 \text var2 = \text \&n1 \text n2 = \text{Antal poster i varje provuppsĂ€ttning} \end< /span>>T-vĂ€rde< /span>=>< span class="vlist-r">( n1 var 1​ >< /span>+< span class="mfrac"><span class="mord mtight" ">n2< /span>var2​ )<path d='M473,2793

c339.3,-1799.3,509.3,-2700,510,-2702 l0 -0

c3.3,-7.3,9.3,-11,18,-11 H400000v40H1017.7

s-90.5,478,-276.2,1466c-185.7,988,-279.5,1483,-281.5,1485c-2,6,-10,9,-24,9

c-8,0,-12,-0,7,-12,-2c0,-1,3,-5,3,-32,-16,-92c-50,7,-293,3,-119,7,-693,3,-207,-1200

c0,-1,3,-5,3,8,7,-16,30c-10,7,21,3,-21,3,42,7,-32,64s-16,33,-16,33s-26,-26,-26,-26

s76,-153,76,-153s77,-151,77,-151c0.7,0.7,35.7,202,105,604c67.3,400.7,102,602.7,104,

606zM1001 80h400000v40H1017.7z'/>​ < span class="mord">mea< span class="mord mathnormal">n1< span class="mbin">−m< span class="mord mathnormal">ean2​​ span class="vlist" style="height:2.93em;"></ span>dĂ€r: mea n1 och < /span>mean2=Genomsnittliga vĂ€rden för varje av provuppsĂ€ttningarnavar1 och v ar2=</ span>Varians för var och en av provuppsĂ€ttningarna<span class="mord" mord mathnormal">n1 och n2=Antal poster i varje provuppsĂ€ttning​

och,

Frihetsgrader= (var1 2n1 +var22 n2)</ mo>2(< mi>var12 n1)2</ mn>n1−1 +(v</ mi>ar22n2)2n2−1</ mfrac></ mtd>dĂ€r: var1 och var2=Varians för var och en av exempeluppsĂ€ttningarna n1 och n< /mi>2=Antal poster i varje exempeluppsĂ€ttning< /mtable>\begin &\text = \frac{ \left ( \frac{ var12 } + \frac{ var22 } \right )2 }{ \frac{ \left ( \frac{ var12 } \right )2 }{ n1 - 1 } + \frac{ \left ( \frac { var22 } \right )^2 }{ n2 - 1}} \ &\textbf{dĂ€r:}\ &var1 \text var2 = \text{Varians för var och en av exempeluppsĂ€ttningar} \ &n1 \text n2 = \text{Antal poster i varje provuppsĂ€ttning} \ \end< span class="katex-html" aria-hidden="true">< /span>​> </sp an>Degrees of Freedom< /span>= </ span>n1< /span>−1< /span>( <span class="mord mathnormal mtight" ">n1 < span class="psrut" style="height:3em;">var1< span class="vlist-r">2​)<span style=="pstrut" "height:2.5em;">2​</ span></ span>+n2−1</ span>(< span class="mord mtight">n2< /span>var< /span>22 ​ /span>) 2< /span>​ (n1var1>< span class="vlist-r">2</ span>​< /span>< /span>+ n2< /span> v span>ar2</ span>2 ​ )2 ​ mord text">dĂ€r:var< span class="mord">1 och var span>2=</ span>Varians för var och en av provuppsĂ€ttningarnan1 och < span class="mord mathnormal">n2< span class="mrel">=Antal poster i varje provuppsĂ€ttning​</ span>

BestÀmma det rÀtta T-testet som ska anvÀndas

Följande flödesschema kan anvÀndas för att bestÀmma vilket t-test som ska anvÀndas baserat pÄ egenskaperna hos provuppsÀttningarna. De nyckelpunkter som ska beaktas inkluderar huruvida provposterna Àr lika, antalet dataposter i varje provuppsÀttning och variansen för varje provuppsÀttning.

OjÀmn varians T-Test Exempel

Antag att vi tar ett diagonalt mÄtt pÄ mÄlningar som tagits emot i ett konstgalleri. En grupp av prover omfattar 10 mÄlningar, medan den andra innehÄller 20 mÄlningar. DatauppsÀttningarna, med motsvarande medelvÀrde och variansvÀrden, Àr följande:

TTT

Även om medelvĂ€rdet för set 2 Ă€r högre Ă€n för set 1, kan vi inte dra slutsatsen att populationen som motsvarar set 2 har ett högre medelvĂ€rde Ă€n populationen som motsvarar set 1. Beror skillnaden frĂ„n 19,4 till 21,6 enbart pĂ„ slumpen, eller gör det Finns det verkligen skillnader i den totala populationen av alla mĂ„lningar som tas emot i konsthallen? Vi etablerar problemet genom att anta nollhypotesen att medelvĂ€rdet Ă€r detsamma mellan de tvĂ„ urvalsuppsĂ€ttningarna och genomför ett t-test för att testa om hypotesen Ă€r rimlig.

Eftersom antalet dataposter Àr olika (n1 = 10 och n2 = 20) och variansen ocksÄ Àr olika, berÀknas t-vÀrdet och frihetsgraderna för ovanstÄende datamÀngd med hjÀlp av formeln som nÀmns i OjÀmlika varians T-testet sektion.

t-vÀrdet Àr -2,24787. Eftersom minustecknet kan ignoreras nÀr man jÀmför de tvÄ t-vÀrdena, Àr det berÀknade vÀrdet 2,24787.

VÀrdet för frihetsgrader Àr 24,38 och reduceras till 24, pÄ grund av att formeldefinitionen krÀver avrundning nedÄt av vÀrdet till minsta möjliga heltalsvÀrde.

Man kan ange en sannolikhetsnivÄ (alfanivÄ, signifikansnivÄ, p) som kriterium för acceptans. I de flesta fall kan ett vÀrde pÄ 5 % antas.

Om man anvÀnder frihetsgradsvÀrdet som 24 och en signifikansnivÄ pÄ 5 %, ger en titt pÄ t-vÀrdesfördelningstabellen ett vÀrde pÄ 2,064. Att jÀmföra detta vÀrde med det berÀknade vÀrdet pÄ 2,247 indikerar att det berÀknade t-vÀrdet Àr större Àn tabellvÀrdet vid en signifikansnivÄ pÄ 5 %. DÀrför Àr det sÀkert att förkasta nollhypotesen att det inte finns nÄgon skillnad mellan medel. BefolkningsuppsÀttningen har inneboende skillnader, och de Àr inte av en slump.

Höjdpunkter

  • Ett t-test Ă€r en typ av inferentiell statistik som anvĂ€nds för att avgöra om det finns en signifikant skillnad mellan medelvĂ€rdena för tvĂ„ grupper, som kan vara relaterade i vissa egenskaper.

– T-testet Ă€r ett av mĂ„nga test som anvĂ€nds för hypotesprövning i statistik.

– Det finns flera olika typer av t-test som kan utföras beroende pĂ„ vilken data och typ av analys som krĂ€vs.

  • För att berĂ€kna ett t-test krĂ€vs tre nyckeldatavĂ€rden. De inkluderar skillnaden mellan medelvĂ€rdena frĂ„n varje datamĂ€ngd (kallad medelskillnad), standardavvikelsen för varje grupp och antalet datavĂ€rden för varje grupp.