Qualité de l'ajustement
Qu'est-ce que la qualité d'ajustement ?
Le terme qualité de l'ajustement fait référence à un test statistique qui détermine dans quelle mesure les données d'un échantillon correspondent à une distribution d'une population avec une distribution normale. En termes simples, il émet l'hypothèse si un échantillon est biaisé ou représente les données que vous vous attendez à trouver dans la population réelle.
La qualité de l'ajustement établit l'écart entre les valeurs observées et celles attendues du modèle dans un cas de distribution normale. Il existe plusieurs méthodes pour déterminer la qualité de l'ajustement, y compris le chi carré.
Comprendre la qualité de l'ajustement
Les tests de qualité d'ajustement sont des méthodes statistiques qui font des inférences sur les valeurs observées. Par exemple, vous pouvez déterminer si un échantillon de groupe est vraiment représentatif de l'ensemble de la population. En tant que tels, ils déterminent comment les valeurs réelles sont liées aux valeurs prédites dans un modèle. Lorsqu'ils sont utilisés dans la prise de décision, les tests d'adéquation facilitent la prédiction des tendances et des modèles à venir.
Comme indiqué ci-dessus, il existe plusieurs types de tests d'adéquation. Ils comprennent le test du chi carré, qui est le plus courant, ainsi que le test de Kolmogorov-Smirnov et le test de Shipiro-Wilk. Les tests sont normalement effectués à l'aide d'un logiciel informatique. Mais les statisticiens peuvent effectuer ces tests en utilisant des formules adaptées au type spécifique de test.
Pour effectuer le test, vous avez besoin d'une certaine variable, ainsi que d'une hypothèse sur la façon dont elle est distribuée. Vous avez également besoin d'un ensemble de données avec des valeurs claires et explicites, telles que :
Les valeurs observées, qui sont dérivées de l'ensemble de données réel
Les valeurs attendues, qui sont tirées des hypothèses faites
Le nombre total de catégories dans l'ensemble
Les tests de qualité d'ajustement sont couramment utilisés pour tester la normalité des résidus ou pour déterminer si deux échantillons sont collectés à partir de distributions identiques.
Considérations particulières
Afin d'interpréter un test d'adéquation, il est important que les statisticiens établissent un niveau alpha, tel que la valeur de p pour le test du chi carré. La valeur p fait référence à la probabilité d'obtenir des résultats proches des extrêmes des résultats observés. Cela suppose que l' hypothèse nulle est correcte. Une hypothèse nulle affirme qu'il n'existe aucune relation entre les variables, et l'hypothèse alternative suppose qu'une relation existe.
Au lieu de cela, la fréquence des valeurs observées est mesurée et ensuite utilisée avec les valeurs attendues et les degrés de liberté pour calculer le chi carré. Si le résultat est inférieur à alpha, l'hypothèse nulle n'est pas valide, indiquant qu'une relation existe entre les variables.
Types de tests d'adéquation de l'ajustement
Test du chi carré
Le test du chi carré,. également connu sous le nom de test du chi carré pour l'indépendance, est une méthode statistique inférentielle qui teste la validité d'une affirmation faite à propos d'une population basée sur un échantillon aléatoire.
Utilisé exclusivement pour les données séparées en classes (bacs), il nécessite une taille d'échantillon suffisante pour produire des résultats précis. Mais cela n'indique pas le type ou l'intensité de la relation. Par exemple, il ne conclut pas si la relation est positive ou négative.
Pour calculer une qualité d'ajustement du chi carré, définissez le niveau de signification alpha souhaité. Donc, si votre niveau de confiance est de 95 % (ou 0,95), alors l'alpha est de 0,05. Ensuite, identifiez les variables catégorielles à tester, puis définissez les énoncés d'hypothèses sur les relations entre elles.
Les variables doivent être mutuellement exclusives afin de se qualifier pour le test du chi carré d'indépendance. Et le test d'adéquation du chi ne doit pas être utilisé pour des données continues.
Essai de Kolmogorov-Smirnov
(F(O i</ span>)−< span class="vlist" style="height:0.855664em;">< span class="dimensionnement reset-size6 size3 mtight">Ni−1 ,< span style="top:-2.6550000000000002em ;">Ni−F( Oi< /span>))
Nommé d'après les mathématiciens russes Andrey Kolmogorov et Nikolai Smirnov, le test de Kolmogorov-Smirnov (également connu sous le nom de test KS) est une méthode statistique qui détermine si un échantillon provient d'une distribution spécifique au sein d'une population.
Ce test, qui est recommandé pour les grands échantillons (par exemple, plus de 2000), est non paramétrique. Cela signifie qu'il ne repose sur aucune distribution pour être valide. Le but est de prouver l'hypothèse nulle, qui est l'échantillon de la distribution normale.
Comme le chi carré, il utilise une hypothèse nulle et alternative et un niveau de signification alpha. Null indique que les données suivent une distribution spécifique au sein de la population, et alternative indique que les données n'ont pas suivi une distribution spécifique au sein de la population. L'alpha est utilisé pour déterminer la valeur critique utilisée dans le test. Mais contrairement au test du chi carré, le test de Kolmogorov-Smirnov s'applique aux distributions continues.
La statistique de test calculée est souvent notée D. Elle détermine si l'hypothèse nulle est acceptée ou rejetée. Si D est supérieur à la valeur critique à alpha,. l'hypothèse nulle est rejetée. Si D est inférieur à la valeur critique, l'hypothèse nulle est acceptée.
Test de Shipiro-Wilk
< span class="mord">∑i=1n< /span>(</ span>x< /span>i − xˉ) 2 (∑ i =1n a< span class="vlist" style="height:0.3280857142857143em;">i< /span>< span>(< span class="mord mathnormal mtight">x(i ) )2,
Le test de Shipiro-Wilk détermine si un échantillon suit une distribution normale. Le test vérifie uniquement la normalité lors de l'utilisation d'un échantillon avec une variable de données continues et est recommandé pour les petits échantillons jusqu'à 2000.
Le test de Shipiro-Wilk utilise un diagramme de probabilité appelé QQ Plot, qui affiche deux ensembles de quantiles sur l'axe des ordonnées, classés du plus petit au plus grand. Si chaque quantile provient de la même distribution, la série de graphiques est linéaire.
Le QQ Plot est utilisé pour estimer la variance. En utilisant la variance QQ Plot avec la variance estimée de la population, on peut déterminer si l'échantillon appartient à une distribution normale. Si le quotient des deux variances est égal ou proche de 1, l'hypothèse nulle peut être acceptée. S'il est considérablement inférieur à 1, il peut être rejeté.
Tout comme les tests mentionnés ci-dessus, celui-ci utilise alpha et forme deux hypothèses : nulle et alternative. L'hypothèse nulle indique que l'échantillon provient de la distribution normale, tandis que l'hypothèse alternative indique que l'échantillon ne provient pas de la distribution normale.
Exemple de qualité d'ajustement
Voici un exemple hypothétique pour montrer comment fonctionne le test d'adéquation.
Supposons qu'un petit gymnase communautaire fonctionne en supposant que la fréquentation la plus élevée a lieu les lundis, mardis et samedis, la fréquentation moyenne les mercredis et jeudis et la plus faible fréquentation les vendredis et dimanches. Sur la base de ces hypothèses, le gymnase emploie chaque jour un certain nombre de membres du personnel pour enregistrer les membres, nettoyer les installations, offrir des services de formation et donner des cours.
Mais la salle de gym ne fonctionne pas bien financièrement et le propriétaire veut savoir si ces hypothèses de fréquentation et les niveaux de personnel sont corrects. Le propriétaire décide de compter le nombre de participants au gymnase chaque jour pendant six semaines. Ils peuvent ensuite comparer la fréquentation supposée de la salle de sport avec sa fréquentation observée à l'aide d'un test d'adéquation du chi carré par exemple.
Maintenant qu'ils disposent des nouvelles données, ils peuvent déterminer comment gérer au mieux la salle de sport et améliorer la rentabilité.
L'essentiel
Les tests de qualité d'ajustement déterminent dans quelle mesure les données d'un échantillon correspondent à ce que l'on attend d'une population. À partir des données d'échantillon, une valeur observée est recueillie et comparée à la valeur attendue calculée à l'aide d'une mesure d'écart. Il existe différents tests d'hypothèse de qualité d'ajustement disponibles en fonction du résultat que vous recherchez.
Le choix du bon test d'adéquation dépend en grande partie de ce que vous voulez savoir sur un échantillon et de sa taille. Par exemple, si vous souhaitez savoir si les valeurs observées pour les données catégorielles correspondent aux valeurs attendues pour les données catégorielles, utilisez le chi carré. Si vous voulez savoir si un petit échantillon suit une distribution normale, le test de Shipiro-Wilk peut être avantageux. Il existe de nombreux tests disponibles pour déterminer la qualité de l'ajustement.
Points forts
Une qualité d'ajustement est un test statistique qui tente de déterminer si un ensemble de valeurs observées correspond à celles attendues dans le cadre du modèle applicable.
Ils peuvent vous montrer si vos données d'échantillon correspondent à un ensemble de données attendu d'une population avec une distribution normale.
Le test du chi carré détermine s'il existe une relation entre les données catégorielles.
Il existe plusieurs types de tests d'adéquation, mais le plus courant est le test du chi carré.
Le test de Kolmogorov-Smirnov détermine si un échantillon provient d'une distribution spécifique d'une population.
FAQ
Qu'est-ce que la qualité de l'ajustement dans le test du chi carré ?
Le test du chi carré s'il existe des relations entre les variables catégorielles et si l'échantillon représente l'ensemble. Il estime à quel point les données observées reflètent les données attendues, ou dans quelle mesure elles correspondent.
Que signifie la qualité d'ajustement ?
La qualité de l'ajustement est un test d'hypothèse statistique utilisé pour voir dans quelle mesure les données observées reflètent les données attendues. Les tests de qualité d'ajustement peuvent aider à déterminer si un échantillon suit une distribution normale, si des variables catégorielles sont liées ou si des échantillons aléatoires proviennent de la même distribution.
Comment faites-vous le test d'adéquation de l'ajustement ?
Le test Goodness-of-FIT consiste en différentes méthodes de test. L'objectif du test aidera à déterminer la méthode à utiliser. Par exemple, si l'objectif est de tester la normalité sur un échantillon relativement petit, le test de Shipiro-Wilk peut convenir. Si vous souhaitez déterminer si un échantillon provient d'une distribution spécifique au sein d'une population, le test de Kolmogorov-Smirnov sera utilisé. Chaque test utilise sa propre formule unique. Cependant, ils ont des points communs, comme une hypothèse nulle et un niveau de signification.
Pourquoi la qualité de l'ajustement est-elle importante ?
Les tests de qualité d'ajustement aident à déterminer si les données observées correspondent à ce qui est attendu. Les décisions peuvent être prises en fonction du résultat du test d'hypothèse effectué. Par exemple, un détaillant veut savoir quelle offre de produits plaît aux jeunes. Le détaillant interroge un échantillon aléatoire de personnes âgées et jeunes pour identifier quel produit est préféré. À l'aide du chi carré, ils identifient qu'avec une confiance de 95 %, une relation existe entre le produit A et les jeunes. Sur la base de ces résultats, il a pu être déterminé que cet échantillon représente la population de jeunes adultes. Les spécialistes du marketing de détail peuvent l'utiliser pour réformer leurs campagnes.