Investor's wiki

Хи-квадрат (χ2) Статистика

Хи-квадрат (χ2) Статистика

Что такое статистика хи-квадрат?

Статистика хи-квадрат (χ2) ^^ — это тест, который измеряет, как модель сравнивается с фактическими наблюдаемыми данными. Данные, используемые при расчете статистики хи-квадрат,. должны быть случайными, необработанными, взаимоисключающими,. взятыми из независимых переменных и из достаточно большой выборки. Например, результаты подбрасывания правильной монеты соответствуют этим критериям.

Тесты хи-квадрат часто используются при проверке гипотез. Статистика хи-квадрат сравнивает размер любых расхождений между ожидаемыми результатами и фактическими результатами, учитывая размер выборки и количество переменных в отношениях.

Для этих тестов используются степени свободы,. чтобы определить, можно ли отвергнуть определенную нулевую гипотезу на основе общего количества переменных и выборок в эксперименте. Как и в случае с любой статистикой, чем больше размер выборки, тем надежнее результаты.

Формула хи-квадрата

χc2 =(O iEi)2Ei</ mfrac></ mtd>где: c=Степени свободыO=Наблюдаемые значенияE=Ожидаемое значение(я)\begin&\chi^2_c = \sum \frac{(O_i - E_i )^2} \&\textbf{где:}\&c=\text{Степени свободы}\&O=\text{Наблюдаемые значения}\&E =\text{Ожидаемые значения}\end

Что вам говорит статистика хи-квадрат?

Существует два основных вида тестов хи-квадрат: тест на независимость, в котором задается вопрос об отношениях, например: «Есть ли связь между полом студента и выбором курса?»; и тест на соответствие,. который спрашивает что-то вроде «Насколько хорошо монета в моей руке соответствует теоретически честной монете?»

Анализ хи-квадрат применяется к категориальным переменным и особенно полезен, когда эти переменные являются номинальными (где порядок не имеет значения, например, семейное положение или пол).

Независимость

При рассмотрении пола студента и выбора курса можно использовать тест χ2 на независимость. Чтобы провести этот тест, исследователь собирал данные по двум выбранным переменным (пол и выбранные курсы), а затем сравнивал частоту, с которой учащиеся мужского и женского пола выбирают среди предложенных классов, используя формулу, приведенную выше, и χ^ 2^ статистическая таблица.

Если между полом и выбором курса нет связи (то есть, если они независимы), то следует ожидать, что фактическая частота, с которой студенты мужского и женского пола выбирают каждый предлагаемый курс, будет примерно равной, или, наоборот, соотношение мужчин и женщин доля студенток на любом выбранном курсе должна быть примерно равна доле студентов мужского и женского пола в выборке.

Тест на независимость χ2 может сказать нам, насколько вероятно, что случайный случай может объяснить любую наблюдаемую разницу между фактическими частотами в данных и этими теоретическими ожиданиями.

Качество подгонки

χ2 позволяет проверить, насколько хорошо выборка данных соответствует (известным или предполагаемым) характеристикам большей совокупности, которую должна представлять выборка. Это известно как хорошее соответствие. Если данные выборки не соответствуют ожидаемым свойствам интересующей нас совокупности, то мы не хотели бы использовать эту выборку, чтобы делать выводы о большей совокупности.

Пример

Например, рассмотрим воображаемую монету, вероятность выпадения орла или решки ровно 50/50, и реальную монету, которую вы подбрасываете 100 раз. Если эта монета честная, то она также будет иметь равную вероятность приземления на обе стороны, и ожидаемый результат 100-кратного подбрасывания монеты состоит в том, что орел выпадет 50 раз, а решка - 50 раз.

В этом случае χ2 может сказать нам, насколько хорошо фактические результаты 100 подбрасываний монеты сравниваются с теоретической моделью, согласно которой честная монета даст результаты 50/50. Фактическая жеребьевка может быть 50/50, или 60/40, или даже 90/10. Чем дальше действительные результаты 100 подбрасываний от 50/50, тем хуже соответствие этого набора подбрасываний теоретическому ожиданию 50/50, и тем более вероятно, что мы могли бы заключить, что эта монета на самом деле не является монетой. честная монета.

Когда использовать критерий хи-квадрат

Тест хи-квадрат используется, чтобы помочь определить, соответствуют ли наблюдаемые результаты ожидаемым результатам, и исключить случайность наблюдений. Для этого подходит критерий хи-квадрат, когда анализируемые данные взяты из случайной выборки и когда рассматриваемая переменная является категориальной переменной. Категориальная переменная состоит из таких вариантов выбора, как тип автомобиля, раса, уровень образования, мужчина или женщина, насколько кому-то нравится политический кандидат (от очень до очень мало) и т. д.

Эти типы данных часто собираются с помощью ответов на опросы или анкет. Таким образом, анализ хи-квадрат часто наиболее полезен при анализе этого типа данных.

Особенности

  • χ2 зависит от величины разницы между фактическими и наблюдаемыми значениями, степеней свободы и размера выборки.

  • Хи-квадрат (χ2) ^^статистика — это мера разницы между наблюдаемой и ожидаемой частотой результатов набора событий или переменных.

  • Хи-квадрат полезен для анализа таких различий в категориальных переменных, особенно номинальных по своей природе.

  • Его также можно использовать для проверки соответствия между наблюдаемым распределением и теоретическим распределением частот.

  • χ2 можно использовать для проверки того, связаны ли две переменные или независимы друг от друга.

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

Используется ли анализ хи-квадрат, когда независимая переменная является номинальной или порядковой?

Номинальная переменная — это категориальная переменная, отличающаяся качеством, но порядок номеров которой может не иметь значения. Например, если спросить кого-нибудь о его любимом цвете, получится номинальная переменная. С другой стороны, если спросить кого-то о возрасте, получится порядковый набор данных. Хи-квадрат лучше всего применять к номинальным данным.

Кто использует анализ хи-квадрат?

Поскольку хи-квадрат применяется к категориальным переменным, он чаще всего используется исследователями, которые изучают данные ответов на опросы. Этот тип исследований может варьироваться от демографии до потребительских и маркетинговых исследований, политических наук и экономики.

Для чего используется критерий хи-квадрат?

Хи-квадрат — это статистический тест, используемый для изучения различий между категориальными переменными из случайной выборки, чтобы оценить соответствие между ожидаемыми и наблюдаемыми результатами.