Investor's wiki

Signification statistique

Signification statistique

Qu'est-ce que la signification statistique ?

La signification statistique fait référence à l'affirmation selon laquelle un ensemble de données observées n'est pas le résultat du hasard mais peut plutôt être attribué à une cause spécifique. La signification statistique est importante pour les disciplines universitaires ou les praticiens qui s'appuient fortement sur l'analyse des données et la recherche, comme l'économie, la finance,. l' investissement,. la médecine, la physique et la biologie.

La signification statistique peut être considérée comme forte ou faible. Lors de l'analyse d'un ensemble de données et de la réalisation des tests nécessaires pour discerner si une ou plusieurs variables ont un effet sur un résultat, une forte signification statistique aide à soutenir le fait que les résultats sont réels et non causés par la chance ou le hasard. En termes simples, si une valeur de p est petite, le résultat est considéré comme plus fiable.

Des problèmes surviennent dans les tests de signification statistique parce que les chercheurs travaillent généralement avec des échantillons de populations plus importantes et non avec les populations elles-mêmes. Par conséquent, les échantillons doivent être représentatifs de la population, de sorte que les données contenues dans l'échantillon ne doivent en aucun cas être biaisées. Dans la plupart des sciences, y compris l'économie, un résultat peut être considéré comme statistiquement significatif s'il a un niveau de confiance de 95 % (ou parfois de 99 %).

Comprendre la signification statistique

Le calcul de la signification statistique (test de signification) est sujet à un certain degré d'erreur. Même si les données semblent avoir une forte relation, les chercheurs doivent tenir compte de la possibilité qu'une corrélation apparente soit apparue en raison d'un hasard aléatoire ou d'une erreur d'échantillonnage.

La taille de l'échantillon est une composante importante de la signification statistique dans la mesure où les échantillons plus grands sont moins sujets aux douves. Seuls des échantillons représentatifs choisis au hasard doivent être utilisés dans les tests de signification. Le niveau auquel on peut accepter qu'un événement soit statistiquement significatif est connu sous le nom de niveau de signification.

Les chercheurs utilisent une mesure connue sous le nom de valeur p pour déterminer la signification statistique : si la valeur p tombe en dessous du seuil de signification, le résultat est statistiquement significatif. La valeur p est une fonction des moyennes et des écarts types des échantillons de données.

La valeur p indique la probabilité sous laquelle le résultat statistique donné s'est produit, en supposant que le hasard seul est responsable du résultat. Si cette probabilité est faible, le chercheur peut conclure qu'un autre facteur pourrait être responsable des données observées.

L'opposé du niveau de signification, calculé comme 1 moins le niveau de signification, est le niveau de confiance. Il indique le degré de confiance que le résultat statistique ne s'est pas produit par hasard ou par erreur d'échantillonnage. Le niveau de confiance habituel dans de nombreux tests statistiques est de 95 %, ce qui conduit à un niveau de signification habituel ou à une valeur p de 5 %.

Le « P-hacking » est la pratique consistant à comparer de manière exhaustive de nombreux ensembles de données différents à la recherche d'un résultat statistiquement significatif. Ceci est sujet à un biais de déclaration car les chercheurs ne rapportent que des résultats favorables, et non négatifs.

Considérations particulières

La signification statistique n'indique pas toujours une signification pratique, ce qui signifie que les résultats ne peuvent pas être appliqués à des situations commerciales réelles. De plus, la signification statistique peut être mal interprétée lorsque les chercheurs n'utilisent pas le langage avec précaution dans la communication de leurs résultats. Le fait qu'un résultat soit statistiquement significatif n'implique pas qu'il ne soit pas le résultat du hasard, mais simplement que cela est moins susceptible d'être le cas.

Ce n'est pas parce que deux séries de données sont fortement corrélées l'une à l'autre qu'il y a causalité. Par exemple, le nombre de films dans lesquels l'acteur Nicolas Cage joue une année donnée est très fortement corrélé au nombre de noyades accidentelles en piscine. Mais cette corrélation est fausse car il n'y a aucune affirmation causale théorique qui puisse être faite.

Un autre problème qui peut survenir avec la signification statistique est que les données passées et les résultats de ces données, qu'ils soient statistiquement significatifs ou non, peuvent ne pas refléter les conditions actuelles ou futures. En matière d'investissement, cela peut se manifester par un modèle de tarification qui s'effondre en période de crise financière, car les corrélations changent et les variables n'interagissent pas comme d'habitude. La signification statistique peut également aider un investisseur à déterminer si un modèle d'évaluation des actifs est meilleur qu'un autre.

Types de tests de signification statistique

Plusieurs types de tests de signification sont utilisés selon la recherche menée. Par exemple, des tests peuvent être utilisés pour un, deux ou plusieurs échantillons de données de différentes tailles pour les moyennes, les variances, les proportions, les données appariées ou non appariées ou différentes distributions de données.

Il existe également différentes approches des tests de signification, selon le type de données disponibles. On attribue à Ronald Fisher la formulation de l'une des approches les plus flexibles, ainsi que la définition de la norme de signification à p < 0,05. Étant donné que la majeure partie du travail peut être effectuée après la collecte des données, cette méthode reste populaire pour les projets de recherche à court terme ou ponctuels.

Cherchant à s'appuyer sur la méthode de Fisher, Jerzy Neyman et Egon Pearson ont fini par développer une approche alternative. Cette méthode nécessite plus de travail avant que les données ne soient collectées, mais elle permet aux chercheurs de concevoir leur étude de manière à contrôler la probabilité de parvenir à de fausses conclusions.

Test d'hypothèse nulle

La signification statistique est utilisée dans les tests d' hypothèses nulles où les chercheurs tentent de soutenir leurs théories en rejetant d'autres explications. Bien que la méthode soit parfois mal comprise, elle reste la méthode de test de données la plus populaire en médecine, en psychologie et dans d'autres domaines.

L'hypothèse nulle la plus courante est que le paramètre en question est égal à zéro (indiquant généralement qu'une variable n'a aucun effet sur le résultat d'intérêt). Si les chercheurs rejettent l'hypothèse nulle avec une confiance de 95 % ou mieux, ils peuvent affirmer qu'une relation observée est statistiquement significative. Les hypothèses nulles peuvent également être testées pour l'égalité d'effet pour deux traitements alternatifs ou plus.

Contrairement aux idées reçues, un haut niveau de signification statistique ne peut pas prouver qu'une hypothèse est vraie ou fausse. En réalité, la signification statistique mesure la probabilité qu'un résultat observé se soit produit, en supposant que l'hypothèse nulle est vraie.

Le rejet de l'hypothèse nulle, même si un degré très élevé de signification statistique ne peut jamais prouver quelque chose, ne peut que renforcer une hypothèse existante. D'autre part, le fait de ne pas rejeter une hypothèse nulle est souvent un motif de rejet d'une hypothèse.

De plus, un effet peut être statistiquement significatif mais n'avoir qu'un très faible impact. Par exemple, il peut être statistiquement significatif que les entreprises qui utilisent du papier hygiénique à deux épaisseurs dans leurs salles de bains aient des employés plus productifs, mais l'amélioration de la productivité absolue de chaque travailleur est susceptible d'être minuscule.

Correction–15 mai 2022 : Cet article a été modifié pour mettre en évidence les erreurs potentielles dans les tests de signification.

Points forts

  • La signification statistique fait référence à l'affirmation selon laquelle un résultat à partir de données générées par des tests ou une expérimentation est susceptible d'être attribuable à une cause spécifique.

  • Le calcul de la signification statistique est sujet à un certain degré d'erreur.

  • Un degré élevé de signification statistique indique qu'il est peu probable qu'une relation observée soit due au hasard.

  • Plusieurs types de tests de signification sont utilisés selon les recherches menées.

  • La signification statistique peut être mal interprétée lorsque les chercheurs n'utilisent pas le langage avec précaution dans la communication de leurs résultats.