Statistiques
Qu'est-ce que les statistiques ?
La statistique est une branche des mathématiques appliquées qui implique la collecte, la description, l'analyse et l'inférence de conclusions à partir de données quantitatives. Les théories mathématiques sous-jacentes aux statistiques s'appuient fortement sur le calcul différentiel et intégral, l'algèbre linéaire et la théorie des probabilités.
Les statisticiens, les personnes qui font des statistiques, sont particulièrement soucieux de déterminer comment tirer des conclusions fiables sur les grands groupes et les événements généraux à partir du comportement et d'autres caractéristiques observables de petits échantillons. Ces petits échantillons représentent une partie du grand groupe ou un nombre limité d'instances d'un phénomène général.
Comprendre les statistiques
Les statistiques sont utilisées dans pratiquement toutes les disciplines scientifiques telles que les sciences physiques et sociales, ainsi que dans les affaires, les sciences humaines, le gouvernement et la fabrication. La statistique est fondamentalement une branche des mathématiques appliquées qui s'est développée à partir de l'application d'outils mathématiques, notamment le calcul différentiel et l'algèbre linéaire, à la théorie des probabilités.
En pratique, les statistiques sont l'idée que nous pouvons apprendre sur les propriétés de grands ensembles d'objets ou d'événements (une population ) en étudiant les caractéristiques d'un plus petit nombre d'objets ou d'événements similaires (un échantillon ). Étant donné que, dans de nombreux cas, la collecte de données complètes sur une population entière est trop coûteuse, difficile ou carrément impossible, les statistiques commencent par un échantillon qui peut être observé de manière pratique ou abordable.
Deux types de méthodes statistiques sont utilisées dans l'analyse des données : les statistiques descriptives et les statistiques inférentielles. Les statisticiens mesurent et recueillent des données sur les individus ou les éléments d'un échantillon, puis analysent ces données pour générer des statistiques descriptives. Ils peuvent ensuite utiliser ces caractéristiques observées des données de l'échantillon, qui sont correctement appelées «statistiques», pour faire des inférences ou des suppositions éclairées sur les caractéristiques non mesurées (ou non mesurées) de la population plus large, appelées paramètres.
Les statistiques remontent officieusement à des siècles. Un premier enregistrement de correspondance entre les mathématiciens français Pierre de Fermat et Blaise Pascal en 1654 est souvent cité comme un exemple précoce d'analyse de probabilité statistique.
Statistiques descriptives et inférentielles
Les deux principaux domaines des statistiques sont connus sous le nom de statistiques descriptives, qui décrivent les propriétés des données d'échantillon et de population, et les statistiques inférentielles, qui utilisent ces propriétés pour tester des hypothèses et tirer des conclusions. Les statistiques descriptives incluent la moyenne (moyenne), la variance, l'asymétrie et l'aplatissement. Les statistiques inférentielles incluent l' analyse de régression linéaire,. l' analyse de la variance (ANOVA), les modèles logit/probit et les tests d'hypothèse nulle.
Statistiques descriptives
Les statistiques descriptives se concentrent principalement sur la tendance centrale, la variabilité et la distribution des données d'échantillon. La tendance centrale désigne l'estimation des caractéristiques, un élément typique d'un échantillon ou d'une population, et comprend des statistiques descriptives telles que la moyenne,. la médiane et le mode. La variabilité fait référence à un ensemble de statistiques qui montrent la différence entre les éléments d'un échantillon ou d'une population selon les caractéristiques mesurées, et comprend des mesures telles que la plage,. la variance et l'écart type.
La distribution fait référence à la "forme" globale des données, qui peut être représentée sur un graphique tel qu'un histogramme ou un diagramme à points, et inclut des propriétés telles que la fonction de distribution de probabilité, l'asymétrie et l'aplatissement. Les statistiques descriptives peuvent également décrire les différences entre les caractéristiques observées des éléments d'un ensemble de données. Les statistiques descriptives nous aident à comprendre les propriétés collectives des éléments d'un échantillon de données et constituent la base pour tester des hypothèses et faire des prédictions à l'aide de statistiques inférentielles.
Statistiques déductives
Les statistiques inférentielles sont des outils que les statisticiens utilisent pour tirer des conclusions sur les caractéristiques d'une population, tirées des caractéristiques d'un échantillon, et pour décider dans quelle mesure ils peuvent être certains de la fiabilité de ces conclusions. Sur la base de la taille et de la distribution de l'échantillon, les statisticiens peuvent calculer la probabilité que les statistiques, qui mesurent la tendance centrale, la variabilité, la distribution et les relations entre les caractéristiques au sein d'un échantillon de données, fournissent une image précise des paramètres correspondants de l'ensemble de la population à partir de laquelle l'échantillon est tiré.
Les statistiques inférentielles sont utilisées pour faire des généralisations sur de grands groupes, comme l'estimation de la demande moyenne d'un produit en sondant un échantillon d'habitudes d'achat des consommateurs ou pour tenter de prédire des événements futurs, comme la projection du rendement futur d'un titre ou d'une classe d'actifs en fonction de retourne dans une période d'échantillonnage.
régression est une technique d'inférence statistique largement utilisée pour déterminer la force et la nature de la relation (c'est-à-dire la corrélation ) entre une variable dépendante et une ou plusieurs variables explicatives (indépendantes). La sortie d'un modèle de régression est souvent analysée pour la signification statistique,. qui fait référence à l'affirmation selon laquelle un résultat de résultats générés par des tests ou des expérimentations n'est probablement pas survenu au hasard ou par hasard, mais est susceptible d'être attribuable à une cause spécifique élucidée par les données. Avoir une signification statistique est important pour les disciplines universitaires ou les praticiens qui s'appuient fortement sur l'analyse des données et la recherche.
Comprendre les données statistiques
La racine des statistiques est pilotée par des variables. Une variable est un ensemble de données pouvant être comptées qui marque une caractéristique ou un attribut d'un élément. Par exemple, une voiture peut avoir des variables telles que la marque, le modèle, l'année, le kilométrage, la couleur ou l'état. En combinant les variables à travers un ensemble de données (c'est-à-dire les couleurs de toutes les voitures dans un parking donné), les statistiques nous permettent de mieux comprendre les tendances et les résultats.
Il existe deux grands types de variables. Premièrement, les variables qualitatives sont des attributs spécifiques souvent non numériques. Bon nombre des exemples donnés dans l'exemple de la voiture sont qualitatifs. D'autres exemples de variables qualitatives dans les statistiques sont le sexe, la couleur des yeux ou la ville de naissance. Les données qualitatives sont le plus souvent utilisées pour déterminer quel pourcentage d'un résultat se produit pour une variable qualitative donnée, et l'analyse qualitative ne repose souvent pas sur des chiffres. Par exemple, essayer de déterminer quel pourcentage de femmes possèdent une entreprise analyse des données qualitatives.
Le deuxième type de variable en statistique est les variables quantitatives. Les variables quantitatives sont étudiées numériquement et n'ont de poids que lorsqu'elles portent sur un descripteur non numérique. Semblable à l'analyse quantitative,. cette information est enracinée dans les chiffres. Dans l'exemple de voiture ci-dessus, le kilométrage parcouru est une variable quantitative. Cependant, le nombre 60 000 n'a aucune valeur à moins qu'il ne soit entendu qu'il s'agit du nombre total de kilomètres parcourus.
Les variables quantitatives peuvent être subdivisées en deux catégories. Premièrement, les variables discrètes ont des limites statistiques et impliquent qu'il existe des écarts entre les valeurs potentielles des variables discrètes. Le nombre de points marqués dans un match de football est une variable discrète car (1) il ne peut y avoir de décimales et (2) il est impossible pour une équipe de marquer seulement 1 point.
Deuxièmement, les statistiques utilisent également des variables quantitatives continues. Ces valeurs suivent une échelle - alors que les valeurs discrètes ont des limites, les variables continues sont souvent mesurées en décimales. Lors de la mesure de la taille des joueurs de football, n'importe quelle valeur (dans les limites possibles) peut être obtenue, et les hauteurs peuvent être mesurées jusqu'à 1/16ème de pouce, sinon plus.
Les statisticiens peuvent occuper différents titres et fonctions au sein d'une entreprise. Selon Glassdoor, la rémunération totale moyenne d'un statisticien en décembre 2021 était de 98 034 $. Un rôle tout aussi analytique de data scientist a généré une rémunération annuelle de près de 119 000 $.
Niveaux statistiques de mesure
Après avoir analysé les variables et les résultats dans le cadre des statistiques, plusieurs niveaux de mesure en résultent. Les statistiques peuvent quantifier les résultats de ces différentes manières :
Mesure du niveau nominal. Il n'y a pas de valeur numérique ou quantitative et les qualités ne sont pas classées. Au lieu de cela, les mesures de niveau nominal sont simplement des étiquettes ou des catégories attribuées à d'autres variables. Il est plus facile de considérer les mesures de niveau nominal comme des faits non numériques concernant une variable. Exemple : Le nom du président élu en 2020 était Joseph Robinette Biden, Jr.
Mesure de niveau ordinal : Les résultats peuvent être classés dans un ordre, cependant, toutes les valeurs de données ont la même valeur ou le même poids. Bien que numériques, les mesures de niveau ordinal dans les statistiques ne peuvent pas être soustraites les unes aux autres car seule la position du point de données compte. Souvent incorporés dans les statistiques non paramétriques,. les niveaux ordinaux sont souvent comparés au groupe variable total. Exemple : l'Américain Fred Kerley a été le 2e homme le plus rapide aux Jeux olympiques de Tokyo en 2020 sur la base des temps de sprint de 100 mètres.
Mesure du niveau d'intervalle : Les résultats peuvent être classés dans l'ordre ; cependant, les différences entre les valeurs des données peuvent maintenant avoir un sens. Deux points de données différents sont souvent utilisés pour comparer le passage du temps ou l'évolution des conditions au sein d'un ensemble de données. Il n'y a souvent pas de "point de départ" pour la plage de valeurs de données, et les dates calendaires ou les températures peuvent ne pas avoir de valeur zéro intrinsèque significative. Exemple : l'inflation a atteint 8,6 % en mai 2022. La dernière fois que l'inflation a été aussi élevée, c'était en décembre 1981.
Mesure du niveau de ratio : Les résultats peuvent être classés dans l'ordre, et les différences entre les valeurs des données ont désormais un sens. Cependant, il existe maintenant un point de départ ou « valeur zéro » qui peut être utilisé pour fournir davantage de valeur à une valeur statistique. Le rapport entre les valeurs des données a maintenant un sens, y compris sa distance par rapport à zéro. Exemple : la température météorologique la plus basse enregistrée était de -128,6 degrés Fahrenheit en Antarctique.
Techniques d'échantillonnage statistique
Pour collecter des informations statistiques, il serait souvent impossible de collecter des données à partir de chaque point de données au sein d'une population. Au lieu de cela, les statistiques reposent sur différentes techniques d'échantillonnage pour créer un sous-ensemble représentatif de la population qui est plus facile à analyser. En statistique, il existe plusieurs principaux types d'échantillonnage.
L'échantillonnage aléatoire simple exige que chaque membre de la population ait une chance égale d'être sélectionné pour l'analyse. L'ensemble de la population sert de base à l'échantillonnage, et tout générateur aléatoire basé sur le hasard peut sélectionner les éléments de l'échantillon. Par exemple, 100 individus sont alignés et 10 sont choisis au hasard.
L'échantillonnage systématique nécessite également un échantillon aléatoire. Cependant, sa technique est légèrement modifiée pour en faciliter la conduite. Un nombre aléatoire unique est généré, et les individus sont ensuite sélectionnés à un intervalle régulier spécifié jusqu'à ce que la taille de l'échantillon soit complète. Par exemple, 100 individus sont alignés et numérotés. Le 7e individu est sélectionné pour l'échantillon, suivi de chaque 9e individu suivant jusqu'à ce que 10 éléments de l'échantillon aient été sélectionnés.
L'échantillonnage stratifié demande plus de contrôle sur votre échantillon. La population est divisée en sous-groupes en fonction de caractéristiques similaires. Ensuite, vous calculez combien de personnes de chaque sous-groupe représenteraient l'ensemble de la population. Par exemple, 100 individus sont regroupés par sexe et race. Ensuite, un échantillon de chaque sous-groupe sera prélevé dans la proportion de la représentativité de ce sous-groupe de la population.
L'échantillonnage en grappes appelle également des sous-groupes. Cependant, chaque sous-groupe doit être représentatif de la population. Au lieu de sélectionner au hasard des individus au sein d'un sous-groupe, le sous-groupe entier est sélectionné au hasard.
Vous ne savez pas quel joueur de la Ligue majeure de baseball aurait dû remporter le titre de joueur le plus utile l'an dernier ? Les statistiques, souvent utilisées pour déterminer la valeur, sont souvent citées lorsque le prix du meilleur joueur est décerné. Les statistiques peuvent inclure la moyenne au bâton, le nombre de circuits touchés et les buts volés.
Exemples de statistiques
Les statistiques sont importantes dans la finance, l'investissement, les affaires et le monde. Une grande partie des informations que vous voyez et des données qui vous sont fournies proviennent de statistiques, qui sont utilisées dans toutes les facettes d'une entreprise.
En investissement, les statistiques incluent le volume moyen des transactions, le plus bas sur 52 semaines, le plus haut sur 52 semaines, le bêta et la corrélation entre les classes d'actifs ou les titres.
En économie, les statistiques incluent le PIB, le chômage, les prix à la consommation, l'inflation et d'autres indicateurs de croissance économique
Dans marketing, les statistiques incluent les taux de conversion, les taux de clics, les quantités de recherche et les mesures des médias sociaux.
En comptabilité, les statistiques incluent les indicateurs de liquidité, de solvabilité et de rentabilité au fil du temps.
Dans les technologies de l'information, les statistiques incluent la bande passante, les capacités du réseau et la logistique du matériel.
En ressources humaines,. les statistiques incluent le roulement du personnel, la satisfaction des employés et la rémunération moyenne par rapport au marché.
Points forts
Un certain nombre de techniques d'échantillonnage peuvent être utilisées pour compiler des données statistiques, y compris un échantillonnage aléatoire simple, systématique, stratifié ou en grappes.
Les statistiques peuvent être communiquées à différents niveaux allant du descripteur non numérique (niveau nominal) au numérique en référence à un point zéro (niveau ratio).
Les statistiques sont présentes dans presque tous les départements de chaque entreprise et font également partie intégrante de l'investissement.
Les statistiques sont l'étude et la manipulation des données, y compris les moyens de recueillir, d'examiner, d'analyser et de tirer des conclusions à partir des données.
Les deux principaux domaines de la statistique sont les statistiques descriptives et inférentielles.
FAQ
Quelle est la différence entre les statistiques descriptives et inférentielles ?
Les statistiques descriptives sont utilisées pour décrire ou résumer les caractéristiques d'un échantillon ou d'un ensemble de données, telles que la moyenne, l'écart type ou la fréquence d'une variable. Les statistiques inférentielles, en revanche, utilisent un certain nombre de techniques pour relier les variables d'un ensemble de données les unes aux autres, par exemple en utilisant une analyse de corrélation ou de régression. Ceux-ci peuvent ensuite être utilisés pour estimer les prévisions ou déduire la causalité.
Pourquoi les statistiques sont-elles importantes ?
Les statistiques fournissent les informations nécessaires pour comprendre comment les choses fonctionnent. Les statistiques sont utilisées pour mener des recherches, évaluer les résultats, développer la pensée critique et prendre des décisions éclairées. Les statistiques peuvent être utilisées pour enquêter sur presque tous les domaines d'études afin de déterminer pourquoi les choses se produisent, quand elles se produisent et si leur réapparition est prévisible.
Qui utilise les statistiques ?
Les statistiques sont largement utilisées dans un éventail d'applications et de professions. Chaque fois que des données sont recueillies et analysées, des statistiques sont établies. Cela peut aller des agences gouvernementales à la recherche universitaire en passant par l'analyse des investissements.
Comment les statistiques sont-elles utilisées en économie et en finance ?
Les économistes collectent et examinent toutes sortes de données, allant des dépenses de consommation aux mises en chantier, en passant par l'inflation et la croissance du PIB. En finance, les analystes et les investisseurs collectent des données sur les entreprises, les industries, le sentiment et les données du marché sur les prix et les volumes. Ensemble, l'utilisation de statistiques inférentielles dans ces domaines est connue sous le nom d' économétrie. Plusieurs modèles financiers importants, du CAPM à la théorie moderne du portefeuille (MPT) et au modèle d'évaluation des options de Black-Scholes , reposent sur l'inférence statistique.