Investor's wiki

Homoskedastyczny

Homoskedastyczny

Co to jest homoskedastyka?

Homoskedastic (pisane również jako „homoskedastic”) odnosi się do stanu, w którym wariancja resztkowego lub terminu błędu w modelu regresji jest stała. Oznacza to, że składnik błędu nie zmienia się tak bardzo, jak zmienia się wartość zmiennej predykcyjnej. Innym sposobem powiedzenia tego jest to, że wariancja punktów danych jest mniej więcej taka sama dla wszystkich punktów danych.

Sugeruje to poziom spójności i ułatwia modelowanie i pracę z danymi za pomocą regresji; jednak brak homoskedastyczności może sugerować, że model regresji może wymagać uwzględnienia dodatkowych zmiennych predykcyjnych w celu wyjaśnienia działania zmiennej zależnej.

Jak działa homoskedastyczność

Homoskedastyczność jest jednym z założeń li w pobliżu modelowania regresji,. a dane tego typu działają dobrze z metodą najmniejszych kwadratów. Jeśli wariancja błędów wokół linii regresji jest bardzo zróżnicowana, model regresji może być słabo zdefiniowany.

Przeciwieństwem homoskedastyczności jest heteroskedastyczność, tak jak przeciwieństwem „homogenicznego” jest „heterogeniczne”. Heteroskedastyczność (nazywana również „heteroskedastycznością”) odnosi się do stanu, w którym wariancja składnika błędu w równaniu regresji nie jest stała.

Uwagi specjalne

Prosty model regresji lub równanie składa się z czterech członów. Po lewej stronie znajduje się zmienna zależna. Reprezentuje zjawisko, które model stara się „wyjaśnić”. Po prawej stronie znajduje się stała, zmienna predykcyjna i składnik rezydualny lub błąd. Składnik błędu pokazuje wielkość zmienności zmiennej zależnej, która nie jest wyjaśniona przez zmienną predykcyjną.

Przykład homoskedastyki

Załóżmy na przykład, że chcesz wyjaśnić wyniki testów uczniów za pomocą ilości czasu, jaki każdy uczeń spędził na nauce. W tym przypadku wyniki testu byłyby zmienną zależną, a czas spędzony na studiowaniu byłby zmienną predykcyjną.

Składnik błędu pokaże wielkość wariancji w wynikach testu, która nie została wyjaśniona ilością czasu poświęconego na naukę. Jeśli ta wariancja jest jednolita lub homoskedastyczna, to sugerowałoby to, że model może być adekwatnym wyjaśnieniem wydajności testu – wyjaśniając to w kategoriach czasu spędzonego na studiowaniu.

Ale wariancja może być heteroskedastyczna. Wykres danych terminów błędu może wykazywać, że duża ilość czasu badania bardzo ściśle odpowiadała wysokim wynikom testu, ale wyniki testu o niskim czasie badania były bardzo zróżnicowane, a nawet zawierały bardzo wysokie wyniki.

Tak więc wariancja wyników nie byłaby dobrze wyjaśniona po prostu przez jedną zmienną predykcyjną – ilość czasu na studiowanie. W tym przypadku prawdopodobnie działa jakiś inny czynnik, a model może wymagać ulepszenia w celu zidentyfikowania tego lub ich.

Biorąc pod uwagę, że wariancja jest zmierzoną różnicą między przewidywanym wynikiem a rzeczywistym wynikiem danej sytuacji, określenie homoskedastyczności może pomóc w ustaleniu, które czynniki należy skorygować pod kątem dokładności.

Dalsze badania mogą ujawnić, że niektórzy uczniowie widzieli odpowiedzi na test przed czasem lub że wcześniej wykonywali podobny test, a zatem nie musieli uczyć się do tego konkretnego testu. Zresztą może się po prostu okazać, że studenci mieli różne poziomy umiejętności zdawania testów niezależnie od czasu nauki i wyników na poprzednich testach, niezależnie od przedmiotu.

Aby ulepszyć model regresji, badacz musiałby wypróbować inne zmienne objaśniające, które mogłyby zapewnić dokładniejsze dopasowanie do danych. Gdyby, na przykład, niektórzy uczniowie widzieli odpowiedzi z wyprzedzeniem, model regresji miałby wtedy dwie zmienne wyjaśniające: czas nauki i to, czy uczeń posiadał wcześniejszą wiedzę na temat odpowiedzi.

Dzięki tym dwóm zmiennym wyjaśniono by więcej wariancji wyników testu, a wariancja składnika błędu może być wówczas homoskedastyczna, co sugeruje, że model był dobrze zdefiniowany.

Przegląd najważniejszych wydarzeń

  • Jeśli wariancja składnika błędu jest homoskedastyczna, model był dobrze zdefiniowany. Jeśli wariancja jest zbyt duża, model może nie być dobrze zdefiniowany.

  • Homoskedastyczność występuje, gdy wariancja składnika błędu w modelu regresji jest stała.

  • Przeciwnie, heteroskedastyczność występuje, gdy wariancja składnika błędu nie jest stała.

  • Dodanie dodatkowych zmiennych predykcyjnych może pomóc w wyjaśnieniu wydajności zmiennej zależnej.

FAQ

Dlaczego homoskedastyczność jest ważna?

Homoskedastyczność jest ważna, ponieważ identyfikuje różnice w populacji. Wszelkie odchylenia w populacji lub próbce, które nie są równe, dadzą wyniki, które są wypaczone lub tendencyjne, czyniąc analizę nieprawidłową lub bezwartościową.

Co oznacza heteroskedastyczność?

Heteroskedastyczność w statystyce to wariancja błędu. Jest to zależność rozproszenia występującego w próbce z co najmniej jedną zmienną niezależną. Oznacza to, że odchylenie standardowe przewidywalnej zmiennej nie jest stałe.

Jak możesz stwierdzić, czy regresja jest homoskedastyczna?

Możesz stwierdzić, czy regresja jest homoskedastyczna, patrząc na stosunek między największą wariancją a najmniejszą wariancją. Jeśli stosunek wynosi 1,5 lub mniej, regresja jest homoskedastyczna.