Investor's wiki

Dobroć dopasowania

Dobroć dopasowania

Co to jest dobroć dopasowania?

Termin dobroć dopasowania odnosi się do testu statystycznego, który określa, jak dobrze dane próbki pasują do rozkładu z populacji o rozkładzie normalnym. Mówiąc prościej, stawia hipotezę, czy próbka jest przekrzywiona, czy reprezentuje dane, których można się spodziewać w rzeczywistej populacji.

Dobroć dopasowania określa rozbieżność między wartościami obserwowanymi a oczekiwanymi w modelu w przypadku rozkładu normalnego. Istnieje wiele metod określania dopasowania, w tym chi-kwadrat.

Zrozumienie dobroci dopasowania

Testy dobroci dopasowania to metody statystyczne, które pozwalają wnioskować o obserwowanych wartościach. Na przykład możesz określić, czy próbka jest rzeczywiście reprezentatywna dla całej populacji. W związku z tym określają, w jaki sposób rzeczywiste wartości są powiązane z przewidywanymi wartościami w modelu. Testy dobroci dopasowania stosowane w procesie podejmowania decyzji ułatwiają przewidywanie trendów i wzorców w przyszłości.

Jak wspomniano powyżej, istnieje kilka rodzajów testów dopasowania. Obejmują one test chi-kwadrat, który jest najczęstszy, a także test Kołmogorowa-Smirnowa i test Shipiro-Wilka. Testy są zwykle przeprowadzane przy użyciu oprogramowania komputerowego. Ale statystycy mogą wykonywać te testy przy użyciu formuł dostosowanych do konkretnego typu testu.

Do przeprowadzenia testu potrzebna jest pewna zmienna wraz z założeniem jej rozkładu. Potrzebujesz również zestawu danych z jasnymi i wyraźnymi wartościami, takimi jak:

  • Obserwowane wartości, które pochodzą z rzeczywistego zestawu danych

  • Oczekiwane wartości, które wynikają z przyjętych założeń

  • Całkowita liczba kategorii w zestawie

Testy dobroci dopasowania są powszechnie stosowane do testowania normalności reszt lub do określenia, czy dwie próbki zostały zebrane z identycznych rozkładów.

Uwagi specjalne

Aby zinterpretować test dobroci dopasowania, ważne jest, aby statystycy ustalili poziom alfa, taki jak wartość p dla testu chi-kwadrat. Wartość p odnosi się do prawdopodobieństwa uzyskania wyników zbliżonych do ekstremów obserwowanych wyników. Zakłada się, że hipoteza zerowa jest poprawna. Hipoteza zerowa zakłada, że nie istnieje związek między zmiennymi, a hipoteza alternatywna zakłada istnienie związku.

Zamiast tego mierzy się częstotliwość obserwowanych wartości, a następnie stosuje się je z wartościami oczekiwanymi i stopniami swobody do obliczenia chi-kwadrat. Jeśli wynik jest niższy niż alfa, hipoteza zerowa jest nieważna, co wskazuje na istnienie związku między zmiennymi.

Rodzaje testów dopasowania

Test chi-kwadrat

< mi>χ2=i< mo>=1k( OiEi)2/E i\chi2=\sum\limitsk_(O_i-E_i)^ 2/E_i

Test chi-kwadrat,. znany również jako test niezależności chi-kwadrat, to inferencyjna metoda statystyki, która sprawdza słuszność twierdzenia dotyczącego populacji na podstawie próby losowej.

Używany wyłącznie do danych, które są podzielone na klasy (pakiety), wymaga wystarczającej wielkości próbki, aby uzyskać dokładne wyniki. Ale nie wskazuje na rodzaj ani intensywność związku. Na przykład nie stwierdza, czy związek jest pozytywny czy negatywny.

Aby obliczyć dobroć dopasowania chi-kwadrat, ustaw żądany poziom istotności alfa. Więc jeśli twój poziom ufności wynosi 95% (lub 0,95), to alfa wynosi 0,05. Następnie zidentyfikuj zmienne kategorialne do przetestowania, a następnie zdefiniuj hipotezy dotyczące relacji między nimi.

Zmienne muszą się wzajemnie wykluczać, aby kwalifikować się do testu niezależności chi-kwadrat. A testu dobroci dopasowania chi nie należy stosować do danych, które są ciągłe.

Test Kołmogorowa-Smirnowa

D =maks1< mo>≤iN(</ mo>F(Yi)i1N, iN< mo>−F(Yi)))D=\max\limits_{ 1\leq i\leq N}\bigg(F(Y_i)-\frac,\frac-F(Y_i)\bigg)(F(Y i</ span>))<span class="mspace" style="margin-right:0.2222222222222222em; >< span class="vlist" style="height:0.855664em;">< span class="sizing reset-size6 size3 mtight">N<span class="pstrut" style="height:3em; >i1 ,< span style="top:-2.6550000000000002em;">NiF( Yi< /span>)))

Nazwany na cześć rosyjskich matematyków Andrieja Kołmogorowa i Nikołaja Smirnowa, test Kołmogorowa-Smirnowa (znany również jako test KS) jest metodą statystyczną, która określa, czy próbka pochodzi z określonego rozkładu w populacji.

Ten test, zalecany dla dużych próbek (np. powyżej 2000), jest nieparametryczny. Oznacza to, że nie zależy od jakiejkolwiek dystrybucji, aby była ważna. Celem jest udowodnienie hipotezy zerowej, która jest próbą rozkładu normalnego.

Podobnie jak chi-kwadrat, wykorzystuje hipotezę zerową i alternatywną oraz poziom istotności alfa. Wartość Null wskazuje, że dane mają określony rozkład w populacji, a alternatywa wskazuje, że dane nie mają określonego rozkładu w populacji. Alfa służy do określenia wartości krytycznej użytej w teście. Ale w przeciwieństwie do testu chi-kwadrat, test Kołmogorowa-Smirnowa stosuje się do rozkładów ciągłych.

Obliczona statystyka testowa jest często oznaczana jako D. Określa ona, czy hipoteza zerowa jest akceptowana lub odrzucona. Jeśli D jest większe niż wartość krytyczna w alpha,. hipoteza zerowa jest odrzucana. Jeśli D jest mniejsze niż wartość krytyczna, przyjmuje się hipotezę zerową.

Test Shipiro-Wilka

W =(i< /mi>=1nai (x(i)))2i=1 n(xi</ msub>xˉ) 2,W=\frac{\big(\sum^n_a_i(x_{(i)}\big)2}{\sumn_(x_i-\bar)^2},< span class="mord">i=1n< /span>(</ span>x< /span>i xˉ) 2 ( i =1n a< span class="vlist" style="height:0.3280857142857143em;">i< /span>< span>(< span class="mord mathnormal mtight">x(i ) ))2,

Test Shipiro-Wilka określa, czy próbka ma rozkład normalny. Test sprawdza normalność tylko przy użyciu próbki z jedną zmienną danych ciągłych i jest zalecany dla małych próbek o wielkości do 2000.

Test Shipiro-Wilka wykorzystuje wykres prawdopodobieństwa zwany wykresem QQ, który wyświetla dwa zestawy kwantylów na osi y, ułożone od najmniejszego do największego. Jeśli każdy kwantyl pochodził z tego samego rozkładu, szeregi wykresów są liniowe.

Wykres QQ służy do oszacowania wariancji. Wykorzystując wariancję wykresu QQ wraz z oszacowaną wariancją populacji, można określić, czy próbka należy do rozkładu normalnego. Jeżeli iloraz obu wariancji jest równy lub bliski 1, można przyjąć hipotezę zerową. Jeśli jest znacznie niższy niż 1, może zostać odrzucony.

Podobnie jak w testach wymienionych powyżej, ten używa alfy i stawia dwie hipotezy: zerowa i alternatywna. Hipoteza zerowa mówi, że próbka pochodzi z rozkładu normalnego, natomiast hipoteza alternatywna mówi, że próbka nie pochodzi z rozkładu normalnego.

Przykład dobroci dopasowania

Oto hipotetyczny przykład pokazujący, jak działa test dobroci dopasowania.

Załóżmy, że mała siłownia społeczna działa przy założeniu, że najwyższa frekwencja występuje w poniedziałki, wtorki i soboty, średnia frekwencja w środy i czwartki, a najniższa frekwencja w piątki i niedziele. W oparciu o te założenia siłownia każdego dnia zatrudnia określoną liczbę pracowników, którzy meldują się, czyszczą obiekty, oferują usługi szkoleniowe i prowadzą zajęcia.

Ale siłownia nie radzi sobie dobrze finansowo i właściciel chce wiedzieć, czy te założenia dotyczące frekwencji i poziomu personelu są prawidłowe. Właściciel postanawia liczyć liczbę uczestników siłowni każdego dnia przez sześć tygodni. Następnie mogą porównać zakładaną frekwencję na siłowni z jej obserwowaną frekwencją, na przykład za pomocą testu chi-kwadrat dopasowania.

Teraz, gdy mają nowe dane, mogą określić, jak najlepiej zarządzać siłownią i poprawiać rentowność.

Podsumowanie

Testy dobroci dopasowania określają, jak dobrze dane próbki pasują do oczekiwań populacji. Z danych próbki zbierana jest obserwowana wartość i porównywana z obliczoną wartością oczekiwaną przy użyciu miary rozbieżności. Dostępne są różne testy hipotezy dobroci dopasowania w zależności od oczekiwanego wyniku.

Wybór odpowiedniego testu dobroci dopasowania w dużej mierze zależy od tego, co chcesz wiedzieć o próbce i jak duża jest próbka. Na przykład, jeśli chcesz wiedzieć, czy obserwowane wartości dla danych kategorialnych odpowiadają oczekiwanym wartościom dla danych kategorialnych, użyj chi-kwadrat. Jeśli chcesz wiedzieć, czy mała próbka ma rozkład normalny, test Shipiro-Wilk może być korzystny. Dostępnych jest wiele testów pozwalających określić dopasowanie.

Przegląd najważniejszych wydarzeń

  • Dopasowanie jest testem statystycznym, który próbuje określić, czy zbiór obserwowanych wartości odpowiada tym oczekiwanym w odpowiednim modelu.

  • Mogą pokazać, czy dane próbki pasują do oczekiwanego zestawu danych z populacji o rozkładzie normalnym.

  • Test chi-kwadrat określa, czy istnieje związek między danymi kategorycznymi.

  • Istnieje wiele rodzajów testów dopasowania, ale najczęstszym jest test chi-kwadrat.

  • Test Kołmogorowa-Smirnowa określa, czy próbka pochodzi z określonego rozkładu populacji.

FAQ

Czym jest dobroć dopasowania w teście chi-kwadrat?

Test chi-kwadrat, czy istnieją relacje między zmiennymi kategorialnymi i czy próba reprezentuje całość. Szacuje, jak bardzo obserwowane dane odzwierciedlają dane oczekiwane lub jak dobrze pasują.

Co oznacza dobroć dopasowania?

Dopasowanie jest testem hipotezy statystycznej używanym do sprawdzenia, w jaki sposób dokładnie obserwowane dane odzwierciedlają dane oczekiwane. Testy dopasowania mogą pomóc w ustaleniu, czy próbka ma rozkład normalny, czy zmienne kategoryczne są ze sobą powiązane lub czy próbki losowe mają ten sam rozkład.

Jak wykonać test dopasowania?

Test dobroci dopasowania składa się z różnych metod testowania. Cel testu pomoże określić, której metody użyć. Na przykład, jeśli celem jest przetestowanie normalności na stosunkowo małej próbce, odpowiedni może być test Shipiro-Wilk. Jeśli chcesz ustalić, czy próbka pochodzi z określonego rozkładu w populacji, użyjemy testu Kołmogorowa-Smirnowa. Każdy test wykorzystuje swoją unikalną formułę. Mają jednak cechy wspólne, takie jak hipoteza zerowa i poziom istotności.

Dlaczego dopasowanie jest ważne?

Testy dobroci dopasowania pomagają określić, czy zaobserwowane dane są zgodne z oczekiwaniami. Decyzje mogą być podejmowane na podstawie wyników przeprowadzonego testu hipotez. Na przykład detalista chce wiedzieć, jaka oferta produktów przemawia do młodych ludzi. Sprzedawca przeprowadza ankietę na losowej próbie osób starszych i młodych, aby określić, który produkt jest preferowany. Używając chi-kwadrat, identyfikują, z 95% pewnością, że istnieje związek między produktem A a młodymi ludźmi. Na podstawie tych wyników można było ustalić, że ta próba reprezentuje populację młodych dorosłych. Sprzedawcy detaliczni mogą to wykorzystać do zreformowania swoich kampanii.