Facteur d'inflation de variance (VIF)
Qu'est-ce qu'un facteur d'inflation de variance (VIF) ?
Le facteur d'inflation de la variance (VIF) est une mesure de la quantité de multicolinéarité dans un ensemble de variables de régression multiples . Mathématiquement, le VIF d'une variable de modèle de régression est égal au rapport de la variance globale du modèle à la variance d'un modèle qui ne comprend qu'une seule variable indépendante. Ce ratio est calculé pour chaque variable indépendante. Un VIF élevé indique que la variable indépendante associée est fortement colinéaire avec les autres variables du modèle.
Comprendre un facteur d'inflation de variance (VIF)
Un facteur d'inflation de la variance est un outil permettant d'identifier le degré de multicolinéarité. Une régression multiple est utilisée lorsqu'une personne veut tester l'effet de plusieurs variables sur un résultat particulier. La variable dépendante est le résultat sur lequel agissent les variables indépendantes, c'est-à -dire les entrées du modèle. La multicolinéarité existe lorsqu'il existe une relation linéaire, ou corrélation, entre une ou plusieurs variables indépendantes ou entrées.
La multicolinéarité crée un problème dans la régression multiple car les entrées s'influencent toutes les unes les autres. Par conséquent, ils ne sont pas réellement indépendants et il est difficile de tester dans quelle mesure la combinaison des variables indépendantes affecte la variable dépendante, ou le résultat, dans le modèle de régression.
En termes statistiques, un modèle de régression multiple où la multicolinéarité est élevée rendra plus difficile l'estimation de la relation entre chacune des variables indépendantes et la variable dépendante. De petits changements dans les données utilisées ou dans la structure de l'équation du modèle peuvent produire des changements importants et erratiques dans les coefficients estimés sur les variables indépendantes.
Pour s'assurer que le modèle est correctement spécifié et fonctionne correctement, il existe des tests qui peuvent être exécutés pour la multicolinéarité. Le facteur d'inflation de la variance est l'un de ces outils de mesure. L'utilisation de facteurs d'inflation de la variance permet d'identifier la gravité de tout problème de multicolinéarité afin que le modèle puisse être ajusté. Le facteur d'inflation de la variance mesure à quel point le comportement (variance) d'une variable indépendante est influencé, ou gonflé, par son interaction/corrélation avec les autres variables indépendantes.
Les facteurs d'inflation de la variance permettent une mesure rapide de la contribution d'une variable à l' erreur type dans la régression. Lorsque des problèmes de multicolinéarité importants existent, le facteur d'inflation de la variance sera très important pour les variables impliquées. Une fois ces variables identifiées, plusieurs approches peuvent être utilisées pour éliminer ou combiner des variables colinéaires, résolvant ainsi le problème de multicolinéarité.
Multicolinéarité
Bien que la multicolinéarité ne réduise pas la puissance prédictive globale d'un modèle, elle peut produire des estimations des coefficients de régression qui ne sont pas statistiquement significatives. En un sens, cela peut être considéré comme une sorte de double comptage dans le modèle.
Lorsque deux variables indépendantes ou plus sont étroitement liées ou mesurent presque la même chose, l'effet sous-jacent qu'elles mesurent est pris en compte deux fois (ou plus) dans les variables. Il devient difficile voire impossible de dire quelle variable influence réellement la variable indépendante. C'est un problème car l'objectif de nombreux modèles économétriques est de tester exactement ce type de relation statistique entre les variables indépendantes et la variable dépendante.
Par exemple, supposons qu'un économiste veuille tester s'il existe une relation statistiquement significative entre le taux de chômage (variable indépendante) et le taux d'inflation (variable dépendante). L'inclusion de variables indépendantes supplémentaires liées au taux de chômage , telles que de nouvelles demandes initiales d'assurance-chômage , serait susceptible d'introduire une multicolinéarité dans le modèle.
Le modèle global peut montrer un pouvoir explicatif fort et statistiquement suffisant, mais être incapable d'identifier si l'effet est principalement dû au taux de chômage ou aux nouvelles demandes initiales d'assurance-chômage. C'est ce que le VIF détecterait, et il suggérerait peut-être de supprimer l'une des variables du modèle ou de trouver un moyen de les consolider pour capturer leur effet conjoint en fonction de l'hypothèse spécifique que le chercheur souhaite tester.
Points forts
Un facteur d'inflation de la variance (VIF) fournit une mesure de la multicolinéarité entre les variables indépendantes dans un modèle de régression multiple.
La détection de la multicolinéarité est importante car si la multicolinéarité ne réduit pas le pouvoir explicatif du modèle, elle réduit la signification statistique des variables indépendantes.
Un facteur d'inflation de grande variance (VIF) sur une variable indépendante indique une relation fortement colinéaire avec les autres variables qui devrait être considérée ou ajustée dans la structure du modèle et la sélection des variables indépendantes.