homoscédastique

Qu'est-ce que l'homoscédastique ?

Homoscédastique (également orthographié "homoscédastique") fait référence à une condition dans laquelle la variance du résidu, ou terme d'erreur,. dans un modèle de régression est constante. Autrement dit, le terme d'erreur ne varie pas beaucoup lorsque la valeur de la variable prédictive change. Une autre façon de dire cela est que la variance des points de données est à peu près la même pour tous les points de données.

Cela suggère un niveau de cohérence et facilite la modélisation et l'utilisation des données par régression ; cependant, l'absence d'homoscédasticité peut suggérer que le modèle de régression peut devoir inclure des variables prédictives supplémentaires pour expliquer la performance de la variable dépendante.

Comment fonctionne l'homoscédasticité

L'homoscédasticité est une hypothèse de la modélisation par régression proche et les données de ce type fonctionnent bien avec la méthode des moindres carrés. Si la variance des erreurs autour de la ligne de régression varie beaucoup, le modèle de régression peut être mal défini.

L'opposé de l'homoscédasticité est l'hétéroscédasticité, tout comme l'opposé de "homogène" est "hétérogène". L'hétéroscédasticité (également orthographiée «hétéroscédasticité») fait référence à une condition dans laquelle la variance du terme d'erreur dans une équation de régression n'est pas constante.

Considérations particulières

Un modèle de régression simple, ou équation, se compose de quatre termes. A gauche se trouve la variable dépendante. Il représente le phénomène que le modèle cherche à « expliquer ». Sur le côté droit se trouvent une constante, une variable prédictive et un terme résiduel ou d'erreur. Le terme d'erreur montre la quantité de variabilité dans la variable dépendante qui n'est pas expliquée par la variable prédictive.

Exemple d'homoscédastique

Par exemple, supposons que vous vouliez expliquer les résultats des tests des étudiants en utilisant le temps que chaque étudiant a passé à étudier. Dans ce cas, les résultats aux tests seraient la variable dépendante et le temps passé à étudier serait la variable prédictive.

Le terme d'erreur montrerait la quantité de variance dans les résultats des tests qui n'a pas été expliquée par le temps passé à étudier. Si cette variance est uniforme ou homoscédastique, cela suggérerait que le modèle peut être une explication adéquate de la performance du test, en l'expliquant en termes de temps passé à étudier.

Mais la variance peut être hétéroscédastique. Un graphique des données du terme d'erreur peut montrer qu'une grande quantité de temps d'étude correspondait très étroitement à des scores de test élevés, mais que les scores de test de temps d'étude faibles variaient considérablement et comprenaient même des scores très élevés.

Ainsi, la variance des scores ne serait pas bien expliquée simplement par une variable prédictive - la durée d'étude. Dans ce cas, un autre facteur est probablement à l'œuvre, et le modèle peut avoir besoin d'être amélioré afin de l'identifier.

Lorsque l'on considère que la variance est la différence mesurée entre le résultat prédit et le résultat réel d'une situation donnée, la détermination de l'homoscédasticité peut aider à déterminer quels facteurs doivent être ajustés pour plus de précision.

Une enquête plus approfondie peut révéler que certains élèves avaient vu les réponses au test à l'avance ou qu'ils avaient déjà passé un test similaire, et n'avaient donc pas besoin d'étudier pour ce test particulier. D'ailleurs, il peut simplement s'avérer que les étudiants avaient différents niveaux de capacité de réussite aux tests indépendamment de leur temps d'étude et de leurs performances aux tests précédents, quel que soit le sujet.

Pour améliorer le modèle de régression, le chercheur devrait essayer d'autres variables explicatives qui pourraient fournir un ajustement plus précis aux données. Si, par exemple, certains étudiants avaient vu les réponses à l'avance, le modèle de régression aurait alors deux variables explicatives : le temps passé à étudier et si l'étudiant avait une connaissance préalable des réponses.

Avec ces deux variables, une plus grande partie de la variance des scores aux tests serait expliquée et la variance du terme d'erreur pourrait alors être homoscédastique, suggérant que le modèle était bien défini.

Points forts

Si la variance du terme d'erreur est homoscédastique, le modèle était bien défini. S'il y a trop de variance, le modèle peut ne pas être bien défini.
L'homoscédasticité se produit lorsque la variance du terme d'erreur dans un modèle de régression est constante.
A l'opposé, l'hétéroscédasticité se produit lorsque la variance du terme d'erreur n'est pas constante.
L'ajout de variables prédictives supplémentaires peut aider à expliquer les performances de la variable dépendante.

FAQ

Pourquoi l'homoscédasticité est-elle importante ?

L'homoscédasticité est importante car elle identifie les dissemblances dans une population. Toute variance dans une population ou un échantillon qui n'est pas pair produira des résultats faussés ou biaisés, rendant l'analyse incorrecte ou sans valeur.

Que signifie l'hétéroscédasticité ?

L'hétéroscédasticité en statistique est la variance d'erreur. Il s'agit de la dépendance de la diffusion qui se produit dans un échantillon avec au moins une variable indépendante. Cela signifie que l'écart type d'une variable prévisible n'est pas constant.

Comment savoir si une régression est homoscédastique ?

Vous pouvez savoir si une régression est homoscédastique en regardant le rapport entre la plus grande variance et la plus petite variance. Si le rapport est égal ou inférieur à 1,5, la régression est homoscédastique.