Пошаговая регрессия
Что такое пошаговая регрессия?
Пошаговая регрессия — это пошаговое итеративное построение регрессионной модели, которое включает выбор независимых переменных для использования в окончательной модели. Он включает последовательное добавление или удаление потенциальных объясняющих переменных и проверку статистической значимости после каждой итерации.
Наличие пакетов статистического программного обеспечения делает возможной пошаговую регрессию даже в моделях с сотнями переменных.
Типы пошаговой регрессии
Основная цель ступенчатой регрессии состоит в том, чтобы с помощью серии тестов (например, F-тестов, t-тестов ) найти набор независимых переменных, которые значительно влияют на зависимую переменную. Это делается с помощью компьютеров посредством итерации, которая представляет собой процесс получения результатов или решений путем прохождения повторяющихся раундов или циклов анализа. Автоматическое проведение тестов с помощью пакетов статистического программного обеспечения позволяет сэкономить время и уменьшить количество ошибок.
Пошаговая регрессия может быть достигнута либо путем тестирования одной независимой переменной за раз и включения ее в модель регрессии, если она статистически значима,. либо путем включения в модель всех потенциальных независимых переменных и исключения тех, которые не являются статистически значимыми. Некоторые используют комбинацию обоих методов, поэтому существует три подхода к пошаговой регрессии:
Прямой отбор начинается с отсутствия переменных в модели, проверяется каждая переменная по мере ее добавления в модель, затем сохраняются те из них, которые считаются наиболее статистически значимыми — процесс повторяется до тех пор, пока результаты не будут оптимальными.
Обратное исключение начинается с набора независимых переменных, удаляя по одной, а затем проверяя, является ли удаленная переменная статистически значимой.
Двунаправленное исключение — это комбинация первых двух методов, которые проверяют, какие переменные следует включить или исключить.
Пример
Примером пошаговой регрессии с использованием метода обратного исключения может быть попытка понять использование энергии на заводе с использованием таких переменных, как время работы оборудования, возраст оборудования, численность персонала, температура снаружи и время года. Модель включает все переменные, затем каждая из них удаляется по одной, чтобы определить, какая из них наименее статистически значима. В конце концов, модель может показать, что время года и температура имеют наибольшее значение, что, возможно, предполагает пиковое потребление энергии на заводе, когда использование кондиционера является максимальным.
Ограничения пошаговой регрессии
Регрессионный анализ, как линейный, так и многомерный, сегодня широко используется в экономике и инвестиционном мире. Идея часто состоит в том, чтобы найти модели, существовавшие в прошлом, которые также могут повториться в будущем. Например, простая линейная регрессия может рассматривать соотношение цены и прибыли и доходность акций за многие годы, чтобы определить, предлагают ли акции с низким коэффициентом P/E (независимая переменная) более высокую доходность (зависимая переменная). Проблема с этим подходом заключается в том, что рыночные условия часто меняются, а отношения, существовавшие в прошлом, не обязательно сохранятся в настоящем или будущем.
Между тем, у процесса пошаговой регрессии много критиков и даже есть призывы вообще отказаться от использования этого метода. Статистики отмечают несколько недостатков этого подхода, в том числе неверные результаты, неотъемлемую предвзятость самого процесса и необходимость значительной вычислительной мощности для разработки сложных регрессионных моделей посредством итерации.
Особенности
Однако пошаговая регрессия имеет свои недостатки, так как это подход, который вписывает данные в модель для достижения желаемого результата.
Метод обратного исключения начинается с полной модели, загруженной несколькими переменными, а затем удаляется одна переменная, чтобы проверить ее важность по отношению к общим результатам.
Пошаговая регрессия — это метод, который итеративно исследует статистическую значимость каждой независимой переменной в модели линейной регрессии.
Подход прямого отбора начинается с нуля и постепенно добавляет каждую новую переменную, проверяя статистическую значимость.