Régression pas à pas
Qu'est-ce que la régression pas à pas ?
La régression pas à pas est la construction itérative étape par étape d'un modèle de régression qui implique la sélection de variables indépendantes à utiliser dans un modèle final. Il s'agit d'ajouter ou de supprimer successivement des variables explicatives potentielles et de tester la signification statistique après chaque itération.
La disponibilité de progiciels statistiques rend possible la régression pas à pas, même dans les modèles comportant des centaines de variables.
Types de régression pas à pas
L'objectif sous-jacent de la régression pas à pas est, à travers une série de tests (par exemple, les tests F, les tests t ) de trouver un ensemble de variables indépendantes qui influencent de manière significative la variable dépendante. Cela se fait avec des ordinateurs par itération, qui est le processus d'obtention de résultats ou de décisions en passant par des cycles ou des cycles d'analyse répétés. La réalisation automatique de tests à l'aide de progiciels statistiques présente l'avantage de gagner du temps et de limiter les erreurs.
La régression pas à pas peut être obtenue soit en essayant une variable indépendante à la fois et en l'incluant dans le modèle de régression si elle est statistiquement significative,. soit en incluant toutes les variables indépendantes potentielles dans le modèle et en éliminant celles qui ne sont pas statistiquement significatives. Certains utilisent une combinaison des deux méthodes et il existe donc trois approches de régression pas à pas :
La sélection avancée commence sans aucune variable dans le modèle, teste chaque variable au fur et à mesure qu'elle est ajoutée au modèle, puis conserve celles qui sont jugées les plus statistiquement significatives, en répétant le processus jusqu'à ce que les résultats soient optimaux.
L'élimination en amont commence par un ensemble de variables indépendantes, en en supprimant une à la fois, puis en testant si la variable supprimée est statistiquement significative.
L'élimination bidirectionnelle est une combinaison des deux premières méthodes qui testent les variables à inclure ou à exclure.
Exemple
Un exemple de régression par étapes utilisant la méthode d'élimination vers l'arrière serait une tentative de comprendre la consommation d'énergie dans une usine en utilisant des variables telles que la durée de fonctionnement de l'équipement, l'âge de l'équipement, la taille du personnel, les températures extérieures et la période de l'année. Le modèle inclut toutes les variables, puis chacune est supprimée, une à la fois, pour déterminer celle qui est la moins significative sur le plan statistique. En fin de compte, le modèle pourrait montrer que la période de l'année et les températures sont les plus importantes, suggérant peut-être que le pic de consommation d'énergie à l'usine se produit lorsque l'utilisation du climatiseur est la plus élevée.
Limites de la régression pas à pas
L'analyse de régression, à la fois linéaire et multivariée, est aujourd'hui largement utilisée dans le monde de l'économie et de l'investissement. L'idée est souvent de trouver des modèles qui existaient dans le passé et qui pourraient également se reproduire à l'avenir. Une régression linéaire simple, par exemple, pourrait examiner les ratios cours/bénéfices et les rendements des actions sur de nombreuses années pour déterminer si les actions avec de faibles ratios P/E (variable indépendante) offrent des rendements plus élevés (variable dépendante). Le problème avec cette approche est que les conditions du marché changent souvent et que les relations qui ont existé dans le passé ne sont pas nécessairement vraies dans le présent ou l'avenir.
Pendant ce temps, le processus de régression par étapes a de nombreuses critiques et il y a même des appels à cesser complètement d'utiliser la méthode. Les statisticiens notent plusieurs inconvénients à l'approche, notamment des résultats incorrects, un biais inhérent au processus lui-même et la nécessité d'une puissance de calcul importante pour développer des modèles de régression complexes par itération.
Points forts
La régression pas à pas a cependant ses inconvénients, car il s'agit d'une approche qui intègre les données dans un modèle pour obtenir le résultat souhaité.
La méthode d'élimination vers l'arrière commence par un modèle complet chargé de plusieurs variables, puis supprime une variable pour tester son importance par rapport aux résultats globaux.
La régression pas à pas est une méthode qui examine de manière itérative la signification statistique de chaque variable indépendante dans un modèle de régression linéaire.
L'approche de sélection directe commence avec rien et ajoute chaque nouvelle variable progressivement, en testant la signification statistique.