Théorème central limite (CLT)
Qu'est-ce que le théorème central limite (CLT) ?
En théorie des probabilités, le théorème central limite (CLT) stipule que la distribution d'une variable d'échantillon se rapproche d'une distribution normale (c'est-à-dire une « courbe en cloche ») à mesure que la taille de l'échantillon augmente, en supposant que tous les échantillons sont de taille identique, et indépendamment de la forme réelle de la distribution de la population.
En d'autres termes, le CLT est une prémisse statistique selon laquelle, étant donné une taille d'échantillon suffisamment grande à partir d'une population avec un niveau de variance fini, la moyenne de toutes les variables échantillonnées de la même population sera approximativement égale à la moyenne de l'ensemble de la population. De plus, ces échantillons se rapprochent d'une distribution normale,. leurs variances étant approximativement égales à la variance de la population à mesure que la taille de l'échantillon augmente, selon la loi des grands nombres.
Bien que ce concept ait été développé pour la première fois par Abraham de Moivre en 1733, il n'a été formalisé qu'en 1930, lorsque le célèbre mathématicien hongrois George Pólya l'a surnommé le théorème central limite.
Comprendre le théorème central limite (CLT)
Selon le théorème central limite, la moyenne d'un échantillon de données sera plus proche de la moyenne de la population globale en question, à mesure que la taille de l'échantillon augmente, nonobstant la distribution réelle des données. En d'autres termes, les données sont exactes, que la distribution soit normale ou aberrante.
En règle générale, des tailles d'échantillon d'environ 30 à 50 sont jugées suffisantes pour que le CLT soit valable, ce qui signifie que la distribution des moyennes de l'échantillon est distribuée assez normalement. Par conséquent, plus on prend d'échantillons, plus les résultats représentés graphiquement prennent la forme d'une distribution normale. Notez, cependant, que le théorème central limite sera toujours approximé dans de nombreux cas pour des tailles d'échantillon beaucoup plus petites, telles que n = 8 ou n = 5.
Le théorème central limite est souvent utilisé en conjonction avec la loi des grands nombres, qui stipule que la moyenne des moyennes et des écarts types de l'échantillon se rapprochera de l'égalité de la moyenne et de l'écart type de la population à mesure que la taille de l'échantillon augmente, ce qui est extrêmement utile dans prédire avec précision les caractéristiques des populations.
Composants clés du théorème central limite
Le théorème central limite est composé de plusieurs caractéristiques clés. Ces caractéristiques tournent en grande partie autour des échantillons, des tailles d'échantillon et de la population de données.
L'échantillonnage est successif. Cela signifie que certaines unités d'échantillonnage sont communes avec des unités d'échantillonnage sélectionnées à des occasions précédentes.
L'échantillonnage est aléatoire. Tous les échantillons doivent être sélectionnés au hasard afin qu'ils aient la même possibilité statistique d'être sélectionnés.
Les échantillons doivent être indépendants. Les sélections ou les résultats d'un échantillon ne doivent pas avoir d'incidence sur les échantillons futurs ou les résultats d'autres échantillons.
** Les échantillons doivent être limités. ** Il est souvent indiqué qu'un échantillon ne doit pas représenter plus de 10 % d'une population si l'échantillonnage est effectué sans remplacement. En général, des tailles de population plus importantes justifient l'utilisation d'échantillons de plus grande taille.
La taille de l'échantillon augmente. Le théorème central limite est pertinent à mesure que davantage d'échantillons sont sélectionnés.
Le théorème central limite en finance
Le CLT est utile lors de l'examen des rendements d'une action individuelle ou d'indices plus larges, car l'analyse est simple, en raison de la facilité relative à générer les données financières nécessaires. Par conséquent, les investisseurs de tous types s'appuient sur le CLT pour analyser les rendements boursiers, construire des portefeuilles et gérer les risques.
Supposons, par exemple, qu'un investisseur souhaite analyser le rendement global d'un indice boursier composé de 1 000 actions. Dans ce scénario, cet investisseur peut simplement étudier un échantillon aléatoire d'actions pour cultiver les rendements estimés de l'indice total. Pour être sûr, au moins 30 à 50 actions sélectionnées au hasard dans divers secteurs doivent être échantillonnées pour que le théorème central limite soit valable. De plus, les actions précédemment sélectionnées doivent être remplacées par des noms différents pour aider à éliminer les biais.
Points forts
Le théorème central limite (CLT) stipule que la distribution des moyennes d'échantillon se rapproche d'une distribution normale à mesure que la taille de l'échantillon augmente, quelle que soit la distribution de la population.
Des tailles d'échantillon égales ou supérieures à 30 sont souvent considérées comme suffisantes pour que le CLT soit valable.
Un aspect clé du CLT est que la moyenne des moyennes et des écarts-types de l'échantillon sera égale à la moyenne et à l'écart-type de la population.
Une taille d'échantillon suffisamment grande permet de prédire plus précisément les caractéristiques d'une population.
Le CLT est utile en finance lors de l'analyse d'une grande collection de titres pour estimer les distributions de portefeuille et les caractéristiques des rendements, du risque et de la corrélation.
FAQ
Pourquoi le théorème central limite est-il utile ?
Le théorème central limite est utile lors de l'analyse de grands ensembles de données car il permet de supposer que la distribution d'échantillonnage de la moyenne sera normalement distribuée dans la plupart des cas. Cela permet une analyse statistique et une inférence plus faciles. Par exemple, les investisseurs peuvent utiliser le théorème central limite pour agréger les données de performance des titres individuels et générer une distribution de moyennes d'échantillons qui représentent une distribution de population plus large pour les rendements des titres sur une période de temps.
Quelle est la formule du théorème central limite ?
Le théorème central limite n'a pas sa propre formule, mais il repose sur la moyenne de l'échantillon et l'écart type. Au fur et à mesure que les moyennes d'échantillon sont collectées à partir de la population, l'écart type est utilisé pour répartir les données sur une courbe de distribution de probabilité.
Pourquoi la taille d'échantillon de minimisation du théorème central limite est-elle de 30 ?
Une taille d'échantillon de 30 est assez courante dans toutes les statistiques. Une taille d'échantillon de 30 augmente souvent suffisamment l'intervalle de confiance de votre ensemble de données de population pour justifier des affirmations par rapport à vos résultats. Plus la taille de votre échantillon est élevée, plus l'échantillon sera représentatif de votre ensemble de population.