Investor's wiki

Statistiche

Statistiche

Che cos'è la statistica?

La statistica è una branca della matematica applicata che implica la raccolta, la descrizione, l'analisi e l'inferenza di conclusioni da dati quantitativi. Le teorie matematiche alla base della statistica si basano fortemente sul calcolo differenziale e integrale, sull'algebra lineare e sulla teoria della probabilità.

Gli statistici, persone che fanno statistica, sono particolarmente interessati a determinare come trarre conclusioni affidabili su grandi gruppi ed eventi generali dal comportamento e da altre caratteristiche osservabili di piccoli campioni. Questi piccoli campioni rappresentano una parte del grande gruppo o un numero limitato di istanze di un fenomeno generale.

Capire le statistiche

Le statistiche sono utilizzate praticamente in tutte le discipline scientifiche come le scienze fisiche e sociali, nonché negli affari, nelle scienze umane, nel governo e nella produzione. La statistica è fondamentalmente una branca della matematica applicata che si è sviluppata dall'applicazione di strumenti matematici tra cui il calcolo e l'algebra lineare alla teoria della probabilità.

In pratica, la statistica è l'idea che possiamo conoscere le proprietà di grandi insiemi di oggetti o eventi (una popolazione ) studiando le caratteristiche di un numero minore di oggetti o eventi simili (un campione ). Poiché in molti casi la raccolta di dati completi su un'intera popolazione è troppo costosa, difficile o addirittura impossibile, le statistiche iniziano con un campione che può essere osservato in modo conveniente o conveniente.

Nell'analisi dei dati vengono utilizzati due tipi di metodi statistici: statistica descrittiva e statistica inferenziale. Gli statistici misurano e raccolgono dati sugli individui o sugli elementi di un campione, quindi analizzano questi dati per generare statistiche descrittive. Possono quindi utilizzare queste caratteristiche osservate dei dati del campione, che sono propriamente chiamate "statistiche", per fare inferenze o ipotesi plausibili sulle caratteristiche non misurate (o non misurate) della popolazione più ampia, note come parametri.

Le statistiche risalgono in modo informale a secoli fa. Una prima registrazione di corrispondenza tra i matematici francesi Pierre de Fermat e Blaise Pascal nel 1654 è spesso citata come un primo esempio di analisi statistica della probabilità.

Statistiche descrittive e inferenziali

Le due principali aree della statistica sono note come statistica descrittiva, che descrive le proprietà dei dati del campione e della popolazione, e statistica inferenziale, che utilizza tali proprietà per verificare ipotesi e trarre conclusioni. Le statistiche descrittive includono media (media), varianza, asimmetria e curtosi. Le statistiche inferenziali includono l'analisi di regressione lineare,. l' analisi della varianza (ANOVA), i modelli logit/Probit e il test di ipotesi nulla.

Statistiche descrittive

Le statistiche descrittive si concentrano principalmente sulla tendenza centrale, sulla variabilità e sulla distribuzione dei dati del campione. Tendenza centrale indica la stima delle caratteristiche, un elemento tipico di un campione o di una popolazione, e include statistiche descrittive come media,. mediana e moda. La variabilità si riferisce a un insieme di statistiche che mostrano quanta differenza c'è tra gli elementi di un campione o di una popolazione lungo le caratteristiche misurate e include parametri come intervallo,. varianza e deviazione standard.

La distribuzione si riferisce alla "forma" complessiva dei dati, che può essere rappresentata su un grafico come un istogramma o un dot plot, e include proprietà come la funzione di distribuzione di probabilità, l'asimmetria e la curtosi. Le statistiche descrittive possono anche descrivere le differenze tra le caratteristiche osservate degli elementi di un set di dati. Le statistiche descrittive ci aiutano a comprendere le proprietà collettive degli elementi di un campione di dati e costituiscono la base per testare ipotesi e fare previsioni utilizzando la statistica inferenziale.

Statistica inferenziale

Le statistiche inferenziali sono strumenti che gli statistici utilizzano per trarre conclusioni sulle caratteristiche di una popolazione, tratte dalle caratteristiche di un campione, e per decidere quanto possono essere certi dell'affidabilità di tali conclusioni. Sulla base della dimensione del campione e della distribuzione gli statistici possono calcolare la probabilità che le statistiche, che misurano la tendenza centrale, la variabilità, la distribuzione e le relazioni tra le caratteristiche all'interno di un campione di dati, forniscano un quadro accurato dei parametri corrispondenti dell'intera popolazione da cui il campione è disegnato.

Le statistiche inferenziali vengono utilizzate per fare generalizzazioni su grandi gruppi, come stimare la domanda media di un prodotto esaminando un campione delle abitudini di acquisto dei consumatori o per tentare di prevedere eventi futuri, come proiettare il rendimento futuro di un titolo o di una classe di attività basata su resi in un periodo campione.

regressione è una tecnica di inferenza statistica ampiamente utilizzata per determinare la forza e la natura della relazione (cioè la correlazione ) tra una variabile dipendente e una o più variabili esplicative (indipendenti). L'output di un modello di regressione viene spesso analizzato per la significatività statistica,. che si riferisce all'affermazione secondo cui è probabile che il risultato di risultati generati da test o sperimentazioni non sia avvenuto casualmente o per caso, ma è probabile che sia attribuibile a una causa specifica chiarita da i dati. Avere un significato statistico è importante per le discipline accademiche o per i professionisti che fanno molto affidamento sull'analisi dei dati e della ricerca.

Comprendere i dati statistici

La radice della statistica è guidata da variabili. Una variabile è un insieme di dati che può essere contato che contrassegna una caratteristica o un attributo di un elemento. Ad esempio, un'auto può avere variabili come marca, modello, anno, chilometraggio, colore o condizione. Combinando le variabili in un insieme di dati (cioè i colori di tutte le auto in un determinato parcheggio), le statistiche ci consentono di comprendere meglio tendenze e risultati.

Esistono due tipi principali di variabili. In primo luogo, le variabili qualitative sono attributi specifici che spesso non sono numerici. Molti degli esempi forniti nell'esempio dell'auto sono qualitativi. Altri esempi di variabili qualitative nelle statistiche sono il sesso, il colore degli occhi o la città di nascita. I dati qualitativi vengono spesso utilizzati per determinare quale percentuale di un risultato si verifica per una determinata variabile qualitativa e l'analisi qualitativa spesso non si basa sui numeri. Ad esempio, il tentativo di determinare quale percentuale di donne possiede un'impresa analizza i dati qualitativi.

Il secondo tipo di variabile nelle statistiche sono le variabili quantitative. Le variabili quantitative sono studiate numericamente e hanno peso solo quando riguardano un descrittore non numerico. Simile all'analisi quantitativa,. queste informazioni sono radicate nei numeri. Nell'esempio dell'auto sopra, il chilometraggio percorso è una variabile quantitativa. Tuttavia, il numero 60.000 non ha valore a meno che non si capisca che è il numero totale di miglia percorse.

Le variabili quantitative possono essere ulteriormente suddivise in due categorie. In primo luogo, le variabili discrete hanno limitazioni nelle statistiche e deducono che ci sono delle lacune tra i potenziali valori delle variabili discrete. Il numero di punti segnati in una partita di calcio è una variabile discreta perché (1) non possono esserci decimali e (2) è impossibile per una squadra segnare solo 1 punto.

In secondo luogo, anche la statistica fa uso di variabili quantitative continue. Questi valori corrono lungo una scala - mentre i valori discreti hanno dei limiti, le variabili continue sono spesso misurate in decimali. Quando si misura l'altezza dei giocatori di football, è possibile ottenere qualsiasi valore (entro i limiti possibili) e le altezze possono essere misurate fino a 1/16 di pollice se non oltre.

Gli statistici possono ricoprire diversi titoli e posizioni all'interno di un'azienda. Secondo Glassdoor, la compensazione totale media per uno statistico a dicembre 2021 era di $ 98.034. Un ruolo altrettanto analitico di data scientist ha prodotto un compenso annuo di quasi $ 119.000.

Livelli di misurazione statistici

Dopo aver analizzato variabili e risultati come parte delle statistiche, si ottengono diversi livelli di misurazione. Le statistiche possono quantificare i risultati in questi diversi modi:

  1. Misurazione del livello nominale. Non esiste un valore numerico o quantitativo e le qualità non sono classificate. Invece, le misurazioni del livello nominale sono semplicemente etichette o categorie assegnate ad altre variabili. È più facile pensare alle misurazioni del livello nominale come a fatti non numerici su una variabile. Esempio: il nome del presidente eletto nel 2020 era Joseph Robinette Biden, Jr.

  2. Misurazione del livello ordinale: i risultati possono essere organizzati in un ordine, tuttavia, tutti i valori dei dati hanno lo stesso valore o peso. Sebbene numeriche, le misurazioni di livello ordinale nelle statistiche non possono essere sottratte l'una rispetto all'altra poiché conta solo la posizione del punto dati. Spesso incorporati nelle statistiche non parametriche,. i livelli ordinali vengono spesso confrontati con il gruppo di variabili totali. Esempio: l'americano Fred Kerley è stato il secondo uomo più veloce alle Olimpiadi di Tokyo 2020 sulla base dei tempi di sprint di 100 metri.

  3. Misurazione del livello di intervallo: I risultati possono essere organizzati in ordine; tuttavia le differenze tra i valori dei dati possono ora avere un significato. Due diversi punti dati vengono spesso utilizzati per confrontare il passare del tempo o le condizioni mutevoli all'interno di un set di dati. Spesso non esiste un "punto di partenza" per l'intervallo di valori dei dati e le date o le temperature del calendario potrebbero non avere un valore zero intrinseco significativo. Esempio: l'inflazione ha raggiunto l'8,6% a maggio 2022. L'ultima volta che l'inflazione è stata così alta è stata nel dicembre 1981.

  4. Misurazione del livello del rapporto: i risultati possono essere organizzati in ordine e le differenze tra i valori dei dati ora hanno un significato. Tuttavia, ora esiste un punto di partenza o "valore zero" che può essere utilizzato per fornire ulteriormente valore a un valore statistico. Il rapporto tra i valori dei dati ora ha un significato, inclusa la sua distanza da zero. Esempio: la temperatura meteorologica più bassa registrata è stata di -128,6 gradi Fahrenheit in Antartide.

Tecniche di campionamento delle statistiche

Per raccogliere informazioni statistiche, spesso non sarebbe possibile raccogliere dati da ogni punto dati all'interno di una popolazione. Invece, le statistiche si basano su diverse tecniche di campionamento per creare un sottoinsieme rappresentativo della popolazione che sia più facile da analizzare. In statistica, ci sono diversi tipi principali di campionamento.

  • Il campionamento casuale semplice richiede che ogni membro all'interno della popolazione abbia le stesse possibilità di essere selezionato per l'analisi. L'intera popolazione viene utilizzata come base per il campionamento e qualsiasi generatore casuale basato sul caso può selezionare gli elementi del campione. Ad esempio, 100 individui vengono allineati e 10 vengono scelti a caso.

  • Il campionamento sistematico richiede anche un campione casuale. Tuttavia, la sua tecnica è leggermente modificata per renderla più facile da condurre. Viene generato un unico numero casuale e gli individui vengono quindi selezionati a un intervallo regolare specificato fino al completamento della dimensione del campione. Ad esempio, 100 individui sono allineati e numerati. Il 7° individuo viene selezionato per il campione seguito da ogni 9° individuo successivo fino a quando non sono stati selezionati 10 elementi del campione.

  • Il campionamento stratificato richiede un maggiore controllo sul tuo campione. La popolazione è suddivisa in sottogruppi in base a caratteristiche simili. Quindi, calcoli quante persone di ciascun sottogruppo rappresenterebbero l'intera popolazione. Ad esempio, 100 individui sono raggruppati per sesso e razza. Quindi, verrà prelevato un campione da ciascun sottogruppo nella proporzione di quanto sia rappresentativo quel sottogruppo della popolazione.

  • Chiamate di campionamento di cluster anche per sottogruppi. Tuttavia, ogni sottogruppo dovrebbe essere rappresentativo della popolazione. Invece di selezionare casualmente gli individui all'interno di un sottogruppo, l'intero sottogruppo viene selezionato casualmente.

Non sei sicuro di quale giocatore della Major League Baseball avrebbe dovuto vincere Most Valuable Player l'anno scorso? Le statistiche, spesso utilizzate per determinare il valore, vengono spesso citate quando viene assegnato il premio per il miglior giocatore. Le statistiche possono includere la media di battuta, il numero di fuoricampo colpiti e le basi rubate.

Esempi di statistiche

Le statistiche sono importanti nella finanza, negli investimenti, negli affari e nel mondo. Gran parte delle informazioni che vedi e dei dati che ti vengono forniti derivano da statistiche, che vengono utilizzate in tutti gli aspetti di un'azienda.

  • Negli investimenti, le statistiche includono il volume medio degli scambi, il minimo in 52 settimane, il massimo in 52 settimane, il beta e la correlazione tra classi di attività o titoli.

  • In economia, le statistiche includono PIL, disoccupazione, prezzi al consumo e inflazione e altre metriche di crescita economica

  • In marketing, le statistiche includono tassi di conversione, percentuali di clic, quantità di ricerca e metriche dei social media.

  • In contabilità, le statistiche includono le metriche di liquidità, solvibilità e redditività nel tempo.

  • In informatica, le statistiche includono larghezza di banda, capacità di rete e logistica hardware.

  • Nelle risorse umane,. le statistiche includono il turnover dei dipendenti, la soddisfazione dei dipendenti e la retribuzione media rispetto al mercato.

Mette in risalto

  • È possibile utilizzare una serie di tecniche di campionamento per compilare dati statistici tra cui semplice campionamento casuale, sistematico, stratificato o a grappolo.

  • Le statistiche possono essere comunicate a diversi livelli che vanno dal descrittore non numerico (livello nominale) al numerico in riferimento a un punto zero (livello del rapporto).

  • Le statistiche sono presenti in quasi tutti i reparti di ogni azienda e sono anche parte integrante degli investimenti.

  • La statistica è lo studio e la manipolazione dei dati, compresi i modi per raccogliere, rivedere, analizzare e trarre conclusioni dai dati.

  • Le due principali aree della statistica sono la statistica descrittiva e quella inferenziale.

FAQ

Qual è la differenza tra statistica descrittiva e inferenziale?

Le statistiche descrittive vengono utilizzate per descrivere o riassumere le caratteristiche di un campione o di un set di dati, come la media, la deviazione standard o la frequenza di una variabile. La statistica inferenziale, al contrario, utilizza un numero qualsiasi di tecniche per mettere in relazione le variabili in un set di dati tra loro, ad esempio utilizzando l'analisi di correlazione o di regressione. Questi possono quindi essere utilizzati per stimare le previsioni o dedurre la causalità.

Perché le statistiche sono importanti?

Le statistiche forniscono le informazioni per educare su come funzionano le cose. Le statistiche vengono utilizzate per condurre ricerche, valutare i risultati, sviluppare il pensiero critico e prendere decisioni informate. Le statistiche possono essere utilizzate per indagare su quasi tutti i campi di studio per indagare sul perché le cose accadono, quando accadono e se il loro ripetersi è prevedibile.

Chi usa le statistiche?

Le statistiche sono ampiamente utilizzate in una vasta gamma di applicazioni e professioni. Ogni volta che i dati vengono raccolti e analizzati, le statistiche vengono eseguite. Questo può variare dalle agenzie governative alla ricerca accademica fino all'analisi degli investimenti.

Come vengono utilizzate le statistiche in economia e finanza?

Gli economisti raccolgono e esaminano tutti i tipi di dati, dalla spesa dei consumatori all'inizio dell'edilizia abitativa, dall'inflazione alla crescita del PIL. In finanza, analisti e investitori raccolgono dati su aziende, settori, sentiment e dati di mercato su prezzo e volume. Insieme, l'uso della statistica inferenziale in questi campi è noto come econometria. Diversi importanti modelli finanziari, dal CAPM alla Modern Portfolio Theory (MPT) e al modello di prezzo delle opzioni di Black-Scholes,. si basano sull'inferenza statistica.