Statistique du chi carré (χ2)

Qu'est-ce qu'une statistique du chi carré ?

Une statistique du chi carré (χ²) ^^est un test qui mesure la façon dont un modèle se compare aux données réelles observées. Les données utilisées pour calculer une statistique du chi carré doivent être aléatoires, brutes, mutuellement exclusives,. tirées de variables indépendantes et tirées d'un échantillon suffisamment grand. Par exemple, les résultats du lancer d'une pièce juste répondent à ces critères.

Les tests du chi carré sont souvent utilisés dans les tests d'hypothèses. La statistique du chi carré compare la taille de tout écart entre les résultats attendus et les résultats réels, compte tenu de la taille de l'échantillon et du nombre de variables dans la relation.

Pour ces tests, des degrés de liberté sont utilisés pour déterminer si une certaine hypothèse nulle peut être rejetée en fonction du nombre total de variables et d'échantillons dans l'expérience. Comme pour toute statistique, plus la taille de l'échantillon est grande, plus les résultats sont fiables.

La formule du chi carré est

$\begin&\chi^2_c = \sum \frac{(O_i - E_i )^2} \&\textbf{où :}\&c=\text{Degrés de liberté}\&O=\text{Valeur(s) observée(s)}\&E =\text{Valeur(s) attendue(s)}\end$

Que vous dit une statistique du chi carré ?

Il existe deux principaux types de tests du chi carré : le test d'indépendance, qui pose une question de relation, telle que « Y a-t-il une relation entre le sexe de l'étudiant et le choix de cours ? » ; et le test d'ajustement,. qui demande quelque chose comme "Dans quelle mesure la pièce dans ma main correspond-elle à une pièce théoriquement juste?"

L'analyse du chi carré est appliquée aux variables catégorielles et est particulièrement utile lorsque ces variables sont nominales (où l'ordre n'a pas d'importance, comme l'état matrimonial ou le sexe).

Indépendance

Lorsque l'on considère le sexe de l'étudiant et le choix de cours, un test d'indépendance χ² pourrait être utilisé. Pour faire ce test, le chercheur recueillerait des données sur les deux variables choisies (sexe et cours choisis), puis comparerait les fréquences auxquelles les étudiants masculins et féminins sélectionnent parmi les cours proposés en utilisant la formule donnée ci-dessus et un χ^ 2^ tableau statistique.

S'il n'y a pas de relation entre le sexe et le choix de cours (c'est-à-dire s'ils sont indépendants), alors les fréquences réelles auxquelles les étudiants masculins et féminins choisissent chaque cours proposé devraient être à peu près égales, ou inversement, la proportion d'hommes et de femmes le nombre d'étudiantes dans n'importe quel cours sélectionné doit être approximativement égal à la proportion d'étudiants masculins et féminins dans l'échantillon.

Un test χ² d'indépendance peut nous dire dans quelle mesure il est probable que le hasard puisse expliquer toute différence observée entre les fréquences réelles dans les données et ces attentes théoriques.

Qualité de l'ajustement

χ² fournit un moyen de tester dans quelle mesure un échantillon de données correspond aux caractéristiques (connues ou supposées) de la population plus large que l'échantillon est censé représenter. C'est ce qu'on appelle la qualité de l'ajustement. Si les données de l'échantillon ne correspondent pas aux propriétés attendues de la population qui nous intéresse, nous ne voudrions pas utiliser cet échantillon pour tirer des conclusions sur l'ensemble de la population.

Exemple

Par exemple, considérez une pièce imaginaire avec exactement 50/50 de chances d'atterrir pile ou face et une pièce réelle que vous lancez 100 fois. Si cette pièce est juste, alors elle aura également une probabilité égale d'atterrir de chaque côté, et le résultat attendu de lancer la pièce 100 fois est que les têtes sortiront 50 fois et les piles 50 fois.

Dans ce cas, ** χ ** ^ 2 ^ peut nous dire dans quelle mesure les résultats réels de 100 lancers de pièces se comparent au modèle théorique selon lequel une pièce équitable donnera des résultats 50/50. Le tirage au sort réel pourrait donner 50/50, ou 60/40, ou même 90/10. Plus les résultats réels des 100 lancers sont éloignés de 50/50, moins cet ensemble de lancers correspond à l'attente théorique de 50/50, et plus il est probable que nous pourrions conclure que cette pièce n'est pas réellement un pièce juste.

Quand utiliser un test du chi carré

Un test du chi carré est utilisé pour aider à déterminer si les résultats observés sont conformes aux résultats attendus et pour exclure que les observations soient dues au hasard. Un test du chi carré est approprié pour cela lorsque les données analysées proviennent d'un échantillon aléatoire et lorsque la variable en question est une variable catégorielle. Une variable catégorielle est une variable qui consiste en des sélections telles que le type de voiture, la race, le niveau d'instruction, homme contre femme, combien quelqu'un aime un candidat politique (de très à très peu), etc.

Ces types de données sont souvent collectées via des réponses à des enquêtes ou des questionnaires. Par conséquent, l'analyse du chi carré est souvent la plus utile pour analyser ce type de données.

Points forts

χ² dépend de la taille de la différence entre les valeurs réelles et observées, des degrés de liberté et de la taille de l'échantillon.
Une statistique du chi carré (χ²) ^^ est une mesure de la différence entre les fréquences observées et attendues des résultats d'un ensemble d'événements ou de variables.
Le chi carré est utile pour analyser de telles différences dans les variables catégorielles, en particulier celles de nature nominale.
Il peut également être utilisé pour tester la qualité de l'ajustement entre une distribution observée et une distribution théorique des fréquences.
χ² peut être utilisé pour tester si deux variables sont liées ou indépendantes l'une de l'autre.

FAQ

L'analyse du chi carré est-elle utilisée lorsque la variable indépendante est nominale ou ordinale ?

Une variable nominale est une variable catégorique qui diffère par la qualité, mais dont l'ordre numérique peut ne pas être pertinent. Par exemple, demander à quelqu'un sa couleur préférée produirait une variable nominale. Demander l'âge de quelqu'un, en revanche, produirait un ensemble ordinal de données. Le chi carré peut être mieux appliqué aux données nominales.

Qui utilise l'analyse du chi carré ?

Étant donné que le chi carré s'applique aux variables catégorielles, il est surtout utilisé par les chercheurs qui étudient les données de réponse aux enquêtes. Ce type de recherche peut aller de la démographie à la recherche sur les consommateurs et le marketing en passant par les sciences politiques et l'économie.

À quoi sert un test du chi carré ?

Le chi carré est un test statistique utilisé pour examiner les différences entre les variables catégorielles d'un échantillon aléatoire afin de juger de la qualité de l'ajustement entre les résultats attendus et observés.