Degrés de liberté
Que sont les degrés de liberté ?
Les degrés de liberté font référence au nombre maximal de valeurs logiquement indépendantes, qui sont des valeurs qui ont la liberté de varier, dans l'échantillon de données.
Comprendre les degrés de liberté
Le moyen le plus simple de comprendre conceptuellement les degrés de liberté consiste à prendre un exemple :
Considérons un échantillon de données composé, par souci de simplicité, de cinq entiers positifs. Les valeurs peuvent être n'importe quel nombre sans relation connue entre elles. Cet échantillon de données aurait, théoriquement, cinq degrés de liberté.
Quatre des nombres de l'échantillon sont {3, 8, 5 et 4} et la moyenne de l'ensemble de l'échantillon de données se révèle être 6.
Cela doit signifier que le cinquième nombre doit être 10. Ce ne peut être rien d'autre. Il n'a pas la liberté de varier.
Ainsi, les degrés de liberté pour cet échantillon de données sont de 4.
La formule des degrés de liberté est égale à la taille de l'échantillon de données moins un :
Les degrés de liberté sont couramment discutés en relation avec diverses formes de tests d'hypothèses dans les statistiques, comme le chi carré . Il est essentiel de calculer les degrés de liberté lorsque l'on essaie de comprendre l'importance d'une statistique du chi carré et la validité de l'hypothèse nulle.
Tests du chi carré
Il existe deux types différents de tests du chi carré : le test d'indépendance, qui pose une question de relation, telle que « Y a-t-il une relation entre le sexe et les scores SAT ? » ; et le test d'ajustement,. qui demande quelque chose comme "Si une pièce est lancée 100 fois, tombera-t-elle pile 50 fois et pile 50 fois ?"
Pour ces tests, des degrés de liberté sont utilisés pour déterminer si une certaine hypothèse nulle peut être rejetée en fonction du nombre total de variables et d'échantillons dans l'expérience. Par exemple, lorsque l'on considère les étudiants et le choix des cours, un échantillon de 30 ou 40 étudiants n'est probablement pas assez grand pour générer des données significatives. Obtenir des résultats identiques ou similaires à partir d'une étude utilisant un échantillon de 400 ou 500 étudiants est plus valable.
Histoire des degrés de liberté
Le concept le plus ancien et le plus fondamental des degrés de liberté a été noté au début des années 1800, entrelacé dans les travaux du mathématicien et astronome Carl Friedrich Gauss. L'usage et la compréhension modernes du terme ont d'abord été exposés par William Sealy Gosset, un statisticien anglais, dans son article "L'erreur probable d'une moyenne", publié dans Biometrika en 1908 sous un nom de plume pour préserver son anonymat.
Dans ses écrits, Gosset n'a pas spécifiquement utilisé le terme « degrés de liberté ». Il a cependant donné une explication du concept tout au long du développement de ce qui serait finalement connu sous le nom de T-distribution de Student. Le terme réel n'a été rendu populaire qu'en 1922. Le biologiste et statisticien anglais Ronald Fisher a commencé à utiliser le terme «degrés de liberté» lorsqu'il a commencé à publier des rapports et des données sur son travail de développement des chi-carrés.
Points forts
Les degrés de liberté sont couramment discutés en relation avec diverses formes de tests d'hypothèses dans les statistiques, comme le chi carré.
Les degrés de liberté font référence au nombre maximum de valeurs logiquement indépendantes, qui sont des valeurs qui ont la liberté de varier, dans l'échantillon de données.
Le calcul des degrés de liberté est essentiel pour comprendre l'importance d'une statistique du chi carré et la validité de l'hypothèse nulle.