Répartition T
Qu'est-ce qu'une distribution T ?
La distribution T, également connue sous le nom de distribution t de Student, est un type de distribution de probabilité similaire à la distribution normale avec sa forme en cloche mais avec des queues plus lourdes. Les distributions T ont plus de chances d'avoir des valeurs extrêmes que les distributions normales, d'où les queues plus épaisses.
Que vous dit une distribution T ?
La lourdeur de la queue est déterminée par un paramètre de la distribution T appelé degrés de liberté,. avec des valeurs plus petites donnant des queues plus lourdes et des valeurs plus élevées faisant ressembler la distribution T à une distribution normale standard avec une moyenne de 0 et un écart type de 1. La distribution T est également connue sous le nom de "distribution T de Student".
Lorsqu'un échantillon de n observations est tiré d'une population normalement distribuée ayant une moyenne M et un écart type D, la moyenne de l'échantillon, m, et l'écart type de l'échantillon, d, différeront de M et D en raison du caractère aléatoire de l'échantillon.
Un score z peut être calculé avec l'écart-type de la population tel que Z = (x - M)/D, et cette valeur a la distribution normale avec une moyenne de 0 et un écart-type de 1. Mais lors de l'utilisation de l'écart-type estimé, un t-score est calculé comme T = (m – M)/{d/sqrt(n)}, la différence entre d et D fait de la distribution une distribution T avec (n - 1) degrés de liberté plutôt que la distribution normale avec une moyenne de 0 et écart type 1.
Exemple d'utilisation d'une distribution en T
Prenons l'exemple suivant pour savoir comment les distributions t sont utilisées dans l'analyse statistique. Tout d'abord, rappelez-vous qu'un intervalle de confiance pour la moyenne est une plage de valeurs, calculée à partir des données, destinée à capturer une moyenne de « population ». Cet intervalle est m +- t*d/sqrt(n), où t est une valeur critique de la distribution T.
Par exemple, un intervalle de confiance à 95 % pour le rendement moyen du Dow Jones Industrial Average dans les 27 jours de bourse précédant le 11/09/2001 est de -0,33 %, (+/- 2,055) * 1,07 / sqrt(27), donnant un rendement moyen (persistant) sous la forme d'un nombre compris entre -0,75 % et +0,09 %. Le nombre 2,055, la quantité d'erreurs standard à ajuster, est trouvé à partir de la distribution T.
Étant donné que la distribution T a des queues plus épaisses qu'une distribution normale, elle peut être utilisée comme modèle pour les rendements financiers qui présentent un kurtosis excessif, ce qui permettra un calcul plus réaliste de la valeur à risque ( VaR ) dans de tels cas.
La différence entre une distribution T et une distribution normale
Les distributions normales sont utilisées lorsque la distribution de la population est supposée normale. La distribution T est similaire à la distribution normale, juste avec des queues plus grosses. Les deux supposent une population normalement distribuée. Les distributions T ont un kurtosis plus élevé que les distributions normales. La probabilité d'obtenir des valeurs très éloignées de la moyenne est plus grande avec une distribution T qu'avec une distribution normale.
Limitations de l'utilisation d'une distribution T
La distribution T peut fausser l'exactitude par rapport à la distribution normale. Son défaut n'apparaît que lorsqu'il y a un besoin de normalité parfaite. La distribution T ne doit être utilisée que lorsque l'écart type de la population n'est pas connu. Si l'écart-type de la population est connu et que la taille de l'échantillon est suffisamment grande, la distribution normale doit être utilisée pour obtenir de meilleurs résultats.
Points forts
La distribution T est une distribution de probabilité continue du score z lorsque l'écart type estimé est utilisé comme dénominateur plutôt que l'écart type réel.
La distribution T, comme la distribution normale, est en forme de cloche et symétrique, mais elle a des queues plus lourdes, ce qui signifie qu'elle a tendance à produire des valeurs qui tombent loin de sa moyenne.
Les tests T sont utilisés dans les statistiques pour estimer la signification.