Investor's wiki

Goodness-of-Fit

Goodness-of-Fit

Vad Àr Goodness-of-Fit?

Termen goodness-of-fit hÀnvisar till ett statistiskt test som bestÀmmer hur vÀl urvalsdata passar en fördelning frÄn en population med normalfördelning. Enkelt uttryckt, hypoteser om ett urval Àr skevt eller representerar de data du förvÀntar dig att hitta i den faktiska populationen.

Goodness-of-fit faststÀller diskrepansen mellan de observerade vÀrdena och de som förvÀntas av modellen i ett normalfördelningsfall. Det finns flera metoder för att bestÀmma passform, inklusive chi-kvadrat.

FörstÄ Goodness-of-Fit

Goodness-of-fit-tester Àr statistiska metoder som drar slutsatser om observerade vÀrden. Du kan till exempel avgöra om en urvalsgrupp verkligen Àr representativ för hela populationen. Som sÄdana bestÀmmer de hur faktiska vÀrden Àr relaterade till de förutsagda vÀrdena i en modell. NÀr de anvÀnds i beslutsfattande gör goodness-of-fit-tester det lÀttare att förutsÀga trender och mönster i framtiden.

Som nÀmnts ovan finns det flera typer av godhetstester. De inkluderar chi-kvadrattestet, som Àr det vanligaste, samt Kolmogorov-Smirnov-testet och Shipiro-Wilk-testet. Testerna utförs normalt med hjÀlp av datorprogram. Men statistiker kan göra dessa tester med hjÀlp av formler som Àr skrÀddarsydda för den specifika typen av test.

För att genomföra testet behöver du en viss variabel, tillsammans med ett antagande om hur den Àr fördelad. Du behöver ocksÄ en datamÀngd med tydliga och explicita vÀrden, som:

  • De observerade vĂ€rdena, som hĂ€rleds frĂ„n den faktiska datamĂ€ngden

  • De förvĂ€ntade vĂ€rdena, som Ă€r hĂ€mtade frĂ„n gjorda antaganden

  • Det totala antalet kategorier i uppsĂ€ttningen

Goodness-of-fit-tester anvÀnds vanligtvis för att testa normaliteten hos rester eller för att avgöra om tvÄ prover samlas in frÄn identiska fördelningar.

SÀrskilda övervÀganden

För att tolka ett passformstest Àr det viktigt för statistiker att faststÀlla en alfanivÄ, till exempel p-vÀrdet för chi-kvadrattestet. P-vÀrdet hÀnvisar till sannolikheten att fÄ resultat nÀra ytterligheterna av de observerade resultaten. Detta förutsÀtter att nollhypotesen Àr korrekt. En nollhypotes hÀvdar att det inte finns nÄgot samband mellan variabler, och den alternativa hypotesen antar att ett samband existerar.

IstÀllet mÀts frekvensen av de observerade vÀrdena och anvÀnds sedan med förvÀntade vÀrden och frihetsgraderna att berÀkna chi-kvadrat. Om resultatet Àr lÀgre Àn alfa Àr nollhypotesen ogiltig, vilket indikerar att det finns ett samband mellan variablerna.

Typer av passformstest

Chi-Square Test

< mi>χ2=∑i< mo>=1k( Oi−Ei)2/E i\chi2=\sum\limitsk_(O_i-E_i)^ 2/E_i

Chi -kvadrattestet,. som ocksÄ Àr kÀnt som chi-kvadrattestet för oberoende, Àr en inferentiell statistikmetod som testar giltigheten av ett pÄstÄende om en population baserat pÄ ett slumpmÀssigt urval.

AnvÀnds uteslutande för data som Àr uppdelade i klasser (bins), det krÀver en tillrÀcklig urvalsstorlek för att ge korrekta resultat. Men det indikerar inte typen eller intensiteten av förhÄllandet. Till exempel drar den inte slutsatsen om förhÄllandet Àr positivt eller negativt.

För att berÀkna en chi-kvadrats godhet, stÀll in önskad alfanivÄ av signifikans. SÄ om din konfidensnivÄ Àr 95 % (eller 0,95), sÄ Àr alfa 0,05. Identifiera sedan de kategoriska variablerna som ska testas och definiera sedan hypotespÄstÄenden om sambanden mellan dem.

Variabler mÄste utesluta varandra för att kvalificera sig för chi-kvadrattestet för oberoende. Och chi goodness-of-fit-testet bör inte anvÀndas för data som Àr kontinuerliga.

Kolmogorov-Smirnov Test

D =max⁥1< mo>≀i≀N(</ mo>F(Yi)−i−1N,iN< mo>−F(Yi))D=\max\limits_{ 1\leq i\leq N}\bigg(F(Y_i)-\frac,\frac-F(Y_i)\bigg)(F(Y i</ span>​)− span class="vlist" style="height:0.855664em;">< span class="sizing reset-size6 size3 mtight">N>i−1 ​,< span style="top:-2.6550000000000002em;">Ni​−F( Yi​< /span>))

Uppkallad efter de ryska matematikerna Andrey Kolmogorov och Nikolai Smirnov, Àr Kolmogorov-Smirnov-testet (Àven kÀnt som KS-testet) en statistisk metod som avgör om ett urval kommer frÄn en specifik fördelning inom en population.

Detta test, som rekommenderas för stora prover (t.ex. över 2000), Àr icke-parametriskt. Det betyder att den inte förlitar sig pÄ nÄgon distribution för att vara giltig. MÄlet Àr att bevisa nollhypotesen, som Àr provet av normalfördelningen.

Liksom chi-kvadrat, anvÀnder den en noll och alternativ hypotes och en alfa-nivÄ av signifikans. Null indikerar att data följer en specifik fördelning inom populationen, och alternativ indikerar att data inte följde en specifik fördelning inom populationen. Alfa anvÀnds för att bestÀmma det kritiska vÀrdet som anvÀnds i testet. Men till skillnad frÄn chi-kvadrattestet gÀller Kolmogorov-Smirnov-testet kontinuerliga distributioner.

Den berÀknade teststatistiken betecknas ofta som D. Den avgör om nollhypotesen accepteras eller förkastas. Om D Àr större Àn det kritiska vÀrdet vid alfa,. förkastas nollhypotesen. Om D Àr mindre Àn det kritiska vÀrdet accepteras nollhypotesen.

Shipiro-Wilk Test

W =(∑i< /mi>=1nai (x(i))2∑i=1 n(xi</ msub>−xˉ) 2,W=\frac{\big(\sum^n_a_i(x_{(i)}\big)2}{\sumn_(x_i-\bar)^2},< span class="mord">∑i=1n< /span>​( span>x>< /span>i​ − xˉ) 2 (∑.5.5 style="em;ight:2" style="em;ight:2" i =1n ​a span class="vlist" style="height:0.3280857142857143em;">i< /span>​< span>( span class="mord mathnormal mtight">x(i )​ )2​,

Shipiro-Wilk-testet avgör om ett prov följer en normalfördelning. Testet kontrollerar endast normalitet nÀr ett urval med en variabel av kontinuerliga data anvÀnds och rekommenderas för smÄ urvalsstorlekar upp till 2000.

Shipiro-Wilk-testet anvÀnder ett sannolikhetsdiagram som kallas QQ Plot, som visar tvÄ uppsÀttningar av kvantiler pÄ y-axeln som Àr arrangerade frÄn minsta till största. Om varje kvantil kom frÄn samma fördelning Àr serien av plotter linjÀra.

QQ-plotten anvÀnds för att uppskatta variansen. Genom att anvÀnda QQ Plot-varians tillsammans med populationens uppskattade varians kan man avgöra om urvalet tillhör en normalfördelning. Om kvoten för bÄda varianserna Àr lika med eller nÀra 1, kan nollhypotesen accepteras. Om det Àr betydligt lÀgre Àn 1 kan det avvisas.

Precis som testerna som nÀmns ovan anvÀnder den hÀr alfa och bildar tvÄ hypoteser: noll och alternativ. Nollhypotesen anger att urvalet kommer frÄn normalfördelningen, medan den alternativa hypotesen anger att urvalet inte kommer frÄn normalfördelningen.

Goodness-of-Fit-exempel

HÀr Àr ett hypotetiskt exempel för att visa hur godhetstestet fungerar.

Anta att ett litet gemenskapsgym fungerar under antagandet att den högsta nÀrvaron Àr pÄ mÄndagar, tisdagar och lördagar, genomsnittlig nÀrvaro pÄ onsdagar och torsdagar och lÀgst nÀrvaro pÄ fredagar och söndagar. Baserat pÄ dessa antaganden, sysselsÀtter gymmet ett visst antal anstÀllda varje dag för att checka in medlemmar, stÀda lokaler, erbjuda trÀningstjÀnster och undervisa i klasser.

Men gymmet gĂ„r inte bra ekonomiskt och Ă€garen vill veta om dessa nĂ€rvaroantaganden och bemanningsnivĂ„er Ă€r korrekta. Ägaren bestĂ€mmer sig för att rĂ€kna antalet gymdeltagare varje dag i sex veckor. De kan sedan jĂ€mföra gymmets antagna nĂ€rvaro med dess observerade nĂ€rvaro genom att till exempel anvĂ€nda ett chi-kvadrat-test för god passform.

Nu nÀr de har den nya informationen kan de avgöra hur de bÀst sköter gymmet och förbÀttrar lönsamheten.

PoÀngen

Goodness-of-fit-test avgör hur vÀl urvalsdata passar vad som förvÀntas av en population. FrÄn provdata samlas ett observerat vÀrde in och jÀmförs med det berÀknade förvÀntade vÀrdet med hjÀlp av ett diskrepansmÄtt. Det finns olika hypotestester för god passform beroende pÄ vilket resultat du söker.

Att vÀlja rÀtt goodness-of-fit-test beror till stor del pÄ vad du vill veta om ett prov och hur stort urvalet Àr. Om du till exempel vill veta om observerade vÀrden för kategoridata matchar förvÀntade vÀrden för kategoridata, anvÀnd chi-kvadrat. Om man vill veta om ett litet urval följer en normalfördelning kan Shipiro-Wilk-testet vara fördelaktigt. Det finns mÄnga tester tillgÀngliga för att faststÀlla god passform.

Höjdpunkter

  • En goodness-of-fit Ă€r ett statistiskt test som försöker avgöra om en uppsĂ€ttning observerade vĂ€rden matchar de som förvĂ€ntas under den tillĂ€mpliga modellen.

  • De kan visa dig om dina urvalsdata passar en förvĂ€ntad uppsĂ€ttning data frĂ„n en population med normalfördelning.

  • Chi-kvadrattestet avgör om det finns ett samband mellan kategoriska data.

– Det finns flera typer av godhetstester, men det vanligaste Ă€r chi-kvadrattestet.

– Kolmogorov-Smirnov-testet avgör om ett urval kommer frĂ„n en specifik fördelning av en population.

Vanliga frÄgor

Vad Àr Goodness-of-Fit i Chi-Square-testet?

Chi-kvadrattestet om det finns samband mellan kategoriska variabler och om urvalet representerar helheten. Den uppskattar hur nÀra de observerade uppgifterna speglar de förvÀntade uppgifterna, eller hur vÀl de passar.

Vad betyder passform?

Goodness-of-Fit Àr ett statistiskt hypotestest som anvÀnds för att se hur nÀra observerade data speglar förvÀntade data. Goodness-of-Fit-test kan hjÀlpa till att avgöra om ett urval följer en normalfördelning, om kategoriska variabler Àr relaterade eller om slumpmÀssiga urval kommer frÄn samma fördelning.

Hur gör du godhetstestet?

Goodness-of-FIt-testet bestÄr av olika testmetoder. MÄlet med testet kommer att hjÀlpa till att avgöra vilken metod som ska anvÀndas. Om mÄlet till exempel Àr att testa normalitet pÄ ett relativt litet urval kan Shipiro-Wilk-testet vara lÀmpligt. Om man vill avgöra om ett urval kom frÄn en specifik fördelning inom en population, kommer Kolmogorov-Smirnov-testet att anvÀndas. Varje test anvÀnder sin egen unika formel. De har dock gemensamma drag, sÄsom en nollhypotes och signifikansnivÄ.

Varför Àr god passform viktigt?

Goodness-of-Fit-test hjĂ€lper till att avgöra om observerade data överensstĂ€mmer med vad som förvĂ€ntas. Beslut kan fattas utifrĂ„n resultatet av det genomförda hypotestestet. Till exempel vill en Ă„terförsĂ€ljare veta vilket produktutbud som tilltalar unga mĂ€nniskor. ÅterförsĂ€ljaren undersöker ett slumpmĂ€ssigt urval av gamla och unga för att identifiera vilken produkt som Ă€r att föredra. Med hjĂ€lp av chi-square identifierar de att det, med 95 % tillförsikt, finns ett förhĂ„llande mellan produkt A och ungdomar. Baserat pĂ„ dessa resultat kunde det faststĂ€llas att detta urval representerar populationen av unga vuxna. ÅterförsĂ€ljare kan anvĂ€nda detta för att reformera sina kampanjer.