Investor's wiki

Добросовестность

Добросовестность

Что такое качество подгонки?

Термин «доброподгонка» относится к статистическому тесту, который определяет, насколько хорошо выборочные данные соответствуют распределению из совокупности с нормальным распределением. Проще говоря, он выдвигает гипотезу о том, является ли выборка искаженной или представляет данные, которые вы ожидаете найти в реальной совокупности.

Качество соответствия устанавливает несоответствие между наблюдаемыми значениями и теми, которые ожидаются от модели в случае нормального распределения. Существует несколько методов определения степени соответствия, включая хи-квадрат.

Понимание качества подгонки

Критерии согласия — это статистические методы, которые делают выводы о наблюдаемых значениях. Например, вы можете определить, действительно ли группа выборки репрезентативна для всего населения. Таким образом, они определяют, как фактические значения связаны с прогнозируемыми значениями в модели. При использовании в процессе принятия решений тесты на соответствие облегчают прогнозирование тенденций и закономерностей в будущем.

Как отмечалось выше, существует несколько типов тестов согласия. К ним относятся тест хи-квадрат, который является наиболее распространенным, а также тест Колмогорова-Смирнова и тест Шипиро-Уилка. Тесты обычно проводятся с использованием компьютерного программного обеспечения. Но статистики могут проводить эти тесты, используя формулы, адаптированные к конкретному типу теста.

Чтобы провести тест, вам нужна определенная переменная, а также предположение о том, как она распределяется. Вам также нужен набор данных с четкими и явными значениями, например:

  • Наблюдаемые значения, полученные из фактического набора данных

  • Ожидаемые значения, взятые из сделанных предположений

  • Общее количество категорий в наборе

Критерии согласия обычно используются для проверки нормальности остатков или для определения того, собраны ли две выборки из идентичных распределений.

Особые соображения

Чтобы интерпретировать критерий согласия, статистикам важно установить альфа-уровень, например, значение p для критерия хи-квадрат. Значение p относится к вероятности получения результатов, близких к крайним значениям наблюдаемых результатов. Это предполагает, что нулевая гипотеза верна. Нулевая гипотеза утверждает, что между переменными нет взаимосвязи, а альтернативная гипотеза предполагает, что взаимосвязь существует.

Вместо этого измеряется частота наблюдаемых значений и впоследствии используется с ожидаемыми значениями и степенями свободы для расчета хи-квадрат. Если результат ниже альфа, нулевая гипотеза неверна, что указывает на наличие связи между переменными.

Типы тестов согласия

Тест хи-квадрат

< mi>χ2=i< mo>=1k( OiEi)2/E i\chi2=\sum\limitsk_(O_i-E_i)^ 2/E_i

Тест хи-квадрат,. также известный как тест хи-квадрат на независимость, представляет собой метод статистического вывода, который проверяет обоснованность утверждения, сделанного о совокупности на основе случайной выборки.

Используется исключительно для данных, разделенных на классы (бины), и требует достаточного размера выборки для получения точных результатов. Но это не указывает на тип или интенсивность отношений. Например, он не делает вывод, является ли отношение положительным или отрицательным.

Чтобы вычислить хи-квадрат согласия, установите желаемый альфа-уровень значимости. Итак, если ваш уровень достоверности составляет 95% (или 0,95), то альфа равна 0,05. Затем определите категориальные переменные для проверки, а затем определите утверждения гипотезы об отношениях между ними.

Переменные должны быть взаимоисключающими, чтобы соответствовать критерию хи-квадрат на независимость. И критерий согласия хи не следует использовать для непрерывных данных.

Тест Колмогорова-Смирнова

D =макс.1< mo>≤iN<mo забор="false">(</ mo>F(Yi)i1N,iN< mo>−F(Yi)<mo забор="false">)D=\max\limits_{ 1\leq i\leq N}\bigg(F(Y_i)-\frac,\frac-F(Y_i)\bigg)(F(Y i</ span>)< span class="vlist" style="height:0.855664em;">< span class="sizing reset-size6 size3 mtight">Ni1 ,< span style="top:-2.6550000000000002em;">NiF( Yi< /span>))

Названный в честь русских математиков Андрея Колмогорова и Николая Смирнова, тест Колмогорова-Смирнова (также известный как тест КС) представляет собой статистический метод, который определяет, относится ли выборка к определенному распределению в популяции.

Этот тест, который рекомендуется для больших выборок (например, более 2000), является непараметрическим. Это означает, что он не зависит от какого-либо дистрибутива. Цель состоит в том, чтобы доказать нулевую гипотезу, которая является выборкой нормального распределения.

Как и хи-квадрат, он использует нулевую и альтернативную гипотезы и альфа-уровень значимости. Null указывает, что данные следуют определенному распределению внутри совокупности, а альтернатива указывает, что данные не подчиняются определенному распределению внутри совокупности. Альфа используется для определения критического значения, используемого в тесте. Но в отличие от критерия хи-квадрат, критерий Колмогорова-Смирнова применим к непрерывным распределениям.

Рассчитанная тестовая статистика часто обозначается буквой D. Она определяет, принимается или отвергается нулевая гипотеза. Если D больше критического значения при альфа,. нулевая гипотеза отклоняется. Если D меньше критического значения, принимается нулевая гипотеза.

Тест Шипиро-Уилка

W =<mo забор="false">(i< /mi>=1nai (x(i)<mo забор="false">)2i=1 n(xi</ msub>xˉ) 2,W=\frac{\big(\sum^n_a_i(x_{(i)}\big)2}{\sumn_(x_i-\bar)^2},=< span class="mord"><span class ="Всписок" ул. yle="высота:0.7046857142857144em;">i=1n< /span>(</ span>x<span класс ="vlist-r">< /span>i x<span класс ="mord mtight">ˉ) 2 ( i =1n a< span class="vlist" style="height:0.3280857142857143em;">i< /span>< span>(< span class="mord mathnormal mtight">x(i ) )2,

Тест Шипиро-Уилка определяет, соответствует ли выборка нормальному распределению. Тест проверяет нормальность только при использовании выборки с одной переменной непрерывных данных и рекомендуется для небольших размеров выборки до 2000.

В тесте Шипиро-Уилка используется вероятностный график, называемый графиком QQ, который отображает два набора квантилей по оси Y, расположенных от наименьшего к наибольшему. Если каждый квантиль получен из одного и того же распределения, ряд графиков будет линейным.

График QQ используется для оценки дисперсии. Используя дисперсию графика QQ вместе с оценочной дисперсией населения, можно определить, принадлежит ли выборка нормальному распределению. Если отношение обеих дисперсий равно или близко к 1, можно принять нулевую гипотезу. Если значение значительно ниже 1, оно может быть отклонено.

Как и упомянутые выше тесты, этот использует альфу и формирует две гипотезы: нулевую и альтернативную. Нулевая гипотеза утверждает, что выборка исходит из нормального распределения, тогда как альтернативная гипотеза утверждает, что выборка не исходит из нормального распределения.

Пример согласия

Вот гипотетический пример, показывающий, как работает критерий согласия.

Предположим, что небольшой общественный спортзал работает исходя из предположения, что самая высокая посещаемость приходится на понедельник, вторник и субботу, средняя посещаемость — на среду и четверг, а самая низкая посещаемость — на пятницу и воскресенье. Исходя из этих предположений, в тренажерном зале каждый день работает определенное количество сотрудников, которые регистрируют участников, убирают помещения, предлагают услуги по обучению и проводят занятия.

Но спортзал не работает в финансовом отношении, и владелец хочет знать, верны ли эти предположения о посещаемости и уровне укомплектования персоналом. Владелец решает подсчитывать количество посетителей спортзала каждый день в течение шести недель. Затем они могут сравнить предполагаемую посещаемость тренажерного зала с наблюдаемой посещаемостью, используя, например, критерий согласия хи-квадрат.

Теперь, когда у них есть новые данные, они могут определить, как лучше управлять тренажерным залом и повысить прибыльность.

Нижняя линия

Критерии согласия определяют, насколько хорошо выборочные данные соответствуют ожиданиям от совокупности. Из выборочных данных собирается наблюдаемое значение и сравнивается с рассчитанным ожидаемым значением с использованием меры несоответствия. Существуют различные тесты гипотез согласия в зависимости от того, какой результат вы ищете.

Выбор правильного критерия согласия во многом зависит от того, что вы хотите знать о выборке, и от того, насколько она велика. Например, если вы хотите узнать, соответствуют ли наблюдаемые значения категориальных данных ожидаемым значениям категориальных данных, используйте хи-квадрат. Если вы хотите узнать, соответствует ли небольшая выборка нормальному распределению, может оказаться полезным тест Шипиро-Уилка. Существует множество тестов, позволяющих определить соответствие.

Особенности

  • Качество подгонки — это статистический тест, который пытается определить, соответствует ли набор наблюдаемых значений тем, которые ожидаются в рамках применимой модели.

  • Они могут показать вам, соответствуют ли ваши выборочные данные ожидаемому набору данных из совокупности с нормальным распределением.

  • Тест хи-квадрат определяет, существует ли связь между категориальными данными.

  • Существует несколько типов тестов согласия, но наиболее распространенным является тест хи-квадрат.

  • Критерий Колмогорова-Смирнова определяет, происходит ли выборка из определенного распределения генеральной совокупности.

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

Что такое критерий согласия в тесте хи-квадрат?

Хи-квадрат проверяет, существуют ли отношения между категориальными переменными и представляет ли выборка целое. Он оценивает, насколько точно наблюдаемые данные отражают ожидаемые данные или насколько хорошо они соответствуют.

Что означает качество подгонки?

Goodness-of-Fit — это проверка статистической гипотезы, используемая для проверки того, насколько близко наблюдаемые данные отражают ожидаемые данные. Тесты согласия могут помочь определить, соответствует ли выборка нормальному распределению, связаны ли категориальные переменные или случайные выборки относятся к одному и тому же распределению.

Как вы проводите тест на пригодность?

Тест Goodness-of-FIt состоит из различных методов тестирования. Цель теста поможет определить, какой метод использовать. Например, если цель состоит в том, чтобы проверить нормальность на относительно небольшой выборке, может подойти тест Шипиро-Уилка. Если необходимо определить, была ли выборка получена из определенного распределения внутри совокупности, будет использоваться критерий Колмогорова-Смирнова. В каждом тесте используется своя уникальная формула. Однако у них есть общие черты, такие как нулевая гипотеза и уровень значимости.

Почему важно качество подгонки?

Тесты согласия помогают определить, соответствуют ли наблюдаемые данные ожидаемым. Решения могут быть приняты на основе результатов проведенной проверки гипотезы. Например, розничный торговец хочет знать, какие товары нравятся молодежи. Розничный продавец опрашивает случайную выборку пожилых и молодых людей, чтобы определить, какой продукт предпочтительнее. Используя хи-квадрат, они определили, что с достоверностью 95% существует связь между продуктом А и молодыми людьми. Основываясь на этих результатах, можно определить, что эта выборка представляет собой популяцию молодых людей. Розничные маркетологи могут использовать это для реформирования своих кампаний.