Statistiques non paramétriques
Que sont les statistiques non paramétriques ?
Les statistiques non paramétriques font référence à une méthode statistique dans laquelle les données ne sont pas supposées provenir de modèles prescrits déterminés par un petit nombre de paramètres; des exemples de tels modèles incluent le modèle de distribution normale et le modèle de régression linéaire. Les statistiques non paramétriques utilisent parfois des données ordinales, ce qui signifie qu'elles ne reposent pas sur des nombres, mais plutôt sur un classement ou un ordre de tri. Par exemple, une enquête exprimant les préférences des consommateurs allant de "J'aime" à "Je n'aime pas" serait considérée comme des données ordinales.
Les statistiques non paramétriques incluent les statistiques descriptives non paramétriques,. les modèles statistiques, l'inférence et les tests statistiques. La structure de modèle des modèles non paramétriques n'est pas spécifiée a priori mais est plutôt déterminée à partir des données. Le terme non paramétrique ne signifie pas que ces modèles manquent complètement de paramètres, mais plutôt que le nombre et la nature des paramètres sont flexibles et non fixés à l'avance. Un histogramme est un exemple d'estimation non paramétrique d'une distribution de probabilité.
Comprendre les statistiques non paramétriques
En statistique, les statistiques paramétriques incluent des paramètres tels que la moyenne, l'écart type, la corrélation de Pearson, la variance, etc. Cette forme de statistique utilise les données observées pour estimer les paramètres de la distribution. Dans les statistiques paramétriques, les données sont souvent supposées provenir d'une distribution normale avec des paramètres inconnus μ (moyenne de la population) et σ2 (variance de la population), qui sont ensuite estimés à l'aide de la moyenne et de la variance de l'échantillon.
Les statistiques non paramétriques ne font aucune hypothèse sur la taille de l'échantillon ou si les données observées sont quantitatives.
Les statistiques non paramétriques ne supposent pas que les données sont tirées d'une distribution normale. Au lieu de cela, la forme de la distribution est estimée sous cette forme de mesure statistique. Bien qu'il existe de nombreuses situations dans lesquelles une distribution normale peut être supposée, il existe également des scénarios dans lesquels le véritable processus de génération de données est loin d'être distribué normalement.
Exemples de statistiques non paramétriques
Dans le premier exemple, considérons un analyste financier qui souhaite estimer la valeur à risque (VaR) d'un investissement. L'analyste rassemble les données sur les bénéfices de centaines d'investissements similaires sur un horizon temporel similaire. Plutôt que de supposer que les revenus suivent une distribution normale, ils utilisent l'histogramme pour estimer la distribution de manière non paramétrique. Le 5e centile de cet histogramme fournit alors à l'analyste une estimation non paramétrique de la VaR.
Pour un deuxième exemple, considérons un chercheur différent qui veut savoir si le nombre moyen d'heures de sommeil est lié à la fréquence à laquelle on tombe malade. Étant donné que de nombreuses personnes tombent rarement malades, voire pas du tout, et que d'autres tombent parfois malades beaucoup plus souvent que la plupart des autres, la distribution de la fréquence des maladies est clairement non normale, étant asymétrique à droite et sujette aux valeurs aberrantes. Ainsi, plutôt que d'utiliser une méthode qui suppose une distribution normale pour la fréquence des maladies, comme cela se fait dans l'analyse de régression classique, par exemple, le chercheur décide d'utiliser une méthode non paramétrique telle que l'analyse de régression quantile.
Considérations particulières
Les statistiques non paramétriques ont gagné en popularité en raison de leur facilité d'utilisation. Au fur et à mesure que le besoin de paramètres est soulagé, les données deviennent plus applicables à une plus grande variété de tests. Ce type de statistiques peut être utilisé sans la moyenne, la taille de l'échantillon, l'écart type ou l'estimation de tout autre paramètre connexe lorsqu'aucune de ces informations n'est disponible.
Étant donné que les statistiques non paramétriques font moins d'hypothèses sur les données de l'échantillon, leur application a une portée plus large que les statistiques paramétriques. Dans les cas où les tests paramétriques sont plus appropriés, les méthodes non paramétriques seront moins efficaces. En effet, les statistiques non paramétriques ignorent certaines informations disponibles dans les données, contrairement aux statistiques paramétriques.
Points forts
Ce type d'analyse est souvent le mieux adapté lorsque l'on considère l'ordre de quelque chose, où même si les données numériques changent, les résultats resteront probablement les mêmes.
Les statistiques non paramétriques sont faciles à utiliser mais n'offrent pas la précision extrême des autres modèles statistiques.