Statistik

Vad är statistik?

Statistik är en gren av tillämpad matematik som involverar insamling, beskrivning, analys och slutledning av slutsatser från kvantitativa data. De matematiska teorierna bakom statistik förlitar sig starkt på differential- och integralkalkyl, linjär algebra och sannolikhetsteori.

Statistiker, personer som gör statistik, är särskilt intresserade av att bestämma hur man drar tillförlitliga slutsatser om stora grupper och allmänna händelser från beteendet och andra observerbara egenskaper hos små urval. Dessa små prov representerar en del av den stora gruppen eller ett begränsat antal fall av ett allmänt fenomen.

Förstå statistik

Statistik används i praktiskt taget alla vetenskapliga discipliner såsom fysik och samhällsvetenskap, såväl som inom näringsliv, humaniora, myndigheter och tillverkning. Statistik är i grunden en gren av tillämpad matematik som utvecklats från tillämpningen av matematiska verktyg inklusive kalkyl och linjär algebra till sannolikhetsteori.

I praktiken är statistik tanken att vi kan lära oss om egenskaperna hos stora uppsättningar objekt eller händelser (en population ) genom att studera egenskaperna hos ett mindre antal liknande objekt eller händelser (ett urval ). Eftersom det i många fall är för kostsamt, svårt eller helt omöjligt att samla in omfattande data om en hel population, börjar statistiken med ett urval som bekvämt eller överkomligt kan observeras.

Två typer av statistiska metoder används för att analysera data: beskrivande statistik och inferentiell statistik. Statistiker mäter och samlar in data om individerna eller delarna av ett urval och analyserar sedan dessa data för att generera beskrivande statistik. De kan sedan använda dessa observerade egenskaper hos urvalsdata, som korrekt kallas "statistik", för att dra slutsatser eller utbildade gissningar om de omättade (eller omättade) egenskaperna hos den bredare populationen, kända som parametrarna.

Statistik går informellt tillbaka i århundraden. Ett tidigt register över korrespondens mellan de franska matematikerna Pierre de Fermat och Blaise Pascal 1654 nämns ofta som ett tidigt exempel på statistisk sannolikhetsanalys.

Beskrivande och slutledningsstatistik

De två huvudområdena för statistik är kända som beskrivande statistik, som beskriver egenskaperna hos urvals- och populationsdata, och slutsatsstatistik, som använder dessa egenskaper för att testa hypoteser och dra slutsatser. Beskrivande statistik inkluderar medelvärde (genomsnitt), varians, skevhet och kurtosis. Inferentiell statistik inkluderar linjär regressionsanalys,. variansanalys (ANOVA), logit/Probit-modeller och nollhypotestestning.

Beskrivande statistik

Beskrivande statistik fokuserar mest på den centrala tendensen, variabiliteten och distributionen av provdata. Central tendens betyder uppskattning av egenskaperna, en typisk del av ett urval eller population, och inkluderar beskrivande statistik som medelvärde,. median och läge. Variabilitet hänvisar till en uppsättning statistik som visar hur stor skillnad det är mellan elementen i ett urval eller population längs de uppmätta egenskaperna, och inkluderar mått som intervall,. varians och standardavvikelse.

Fördelningen hänvisar till den övergripande "formen" av data, som kan avbildas på ett diagram såsom ett histogram eller punktdiagram, och inkluderar egenskaper som sannolikhetsfördelningsfunktionen, skevhet och kurtos. Beskrivande statistik kan också beskriva skillnader mellan observerade egenskaper hos elementen i en datamängd. Beskrivande statistik hjälper oss att förstå de samlade egenskaperna hos elementen i ett dataprov och utgör grunden för att testa hypoteser och göra förutsägelser med hjälp av inferentiell statistik.

Slutsatsstatistik

Inferentiell statistik är verktyg som statistiker använder för att dra slutsatser om egenskaperna hos en population, dragna från egenskaperna hos ett urval, och för att avgöra hur säkra de kan vara på tillförlitligheten av dessa slutsatser. Baserat på urvalets storlek och fördelning kan statistiker beräkna sannolikheten för att statistik, som mäter den centrala tendensen, variabiliteten, fördelningen och sambanden mellan egenskaper inom ett dataurval, ger en korrekt bild av motsvarande parametrar för hela populationen från vilken urvalet ritas.

Slutsatsstatistik används för att göra generaliseringar om stora grupper, såsom att uppskatta den genomsnittliga efterfrågan på en produkt genom att kartlägga ett urval av konsumenternas köpvanor eller för att försöka förutsäga framtida händelser, såsom att projicera den framtida avkastningen för ett värdepapper eller tillgångsklass baserat på returnerar under en provperiod.

Regressionsanalys är en allmänt använd teknik för statistisk slutledning som används för att bestämma styrkan och naturen hos sambandet (dvs. korrelationen ) mellan en beroende variabel och en eller flera förklarande (oberoende) variabler. Resultatet av en regressionsmodell analyseras ofta med avseende på statistisk signifikans,. vilket hänvisar till påståendet att ett resultat från fynd som genererats genom testning eller experiment sannolikt inte har inträffat slumpmässigt eller av en slump utan sannolikt kan hänföras till en specifik orsak som belysts av uppgifterna. Att ha statistisk signifikans är viktigt för akademiska discipliner eller praktiker som är starkt beroende av att analysera data och forskning.

Förstå statistiska data

Roten till statistiken drivs av variabler. En variabel är en datamängd som kan räknas som markerar en egenskap eller ett attribut för en vara. Till exempel kan en bil ha variabler som märke, modell, år, körsträcka, färg eller skick. Genom att kombinera variablerna över en uppsättning data (dvs. färgerna på alla bilar på en given parkeringsplats) tillåter statistik oss att bättre förstå trender och resultat.

Det finns två huvudtyper av variabler. För det första är kvalitativa variabler specifika attribut som ofta är icke-numeriska. Många av exemplen som ges i bilexemplet är kvalitativa. Andra exempel på kvalitativa variabler i statistik är kön, ögonfärg eller födelsestad. Kvalitativ data används oftast för att bestämma hur stor andel av ett utfall som inträffar för en given kvalitativ variabel, och kvalitativ analys bygger ofta inte på siffror. Att till exempel försöka avgöra hur stor andel av kvinnorna som äger ett företag analyserar kvalitativa data.

Den andra typen av variabel i statistik är kvantitativa variabler. Kvantitativa variabler studeras numeriskt och har bara vikt när de handlar om en icke-numerisk deskriptor. I likhet med kvantitativ analys är denna information rotad i siffror. I bilexemplet ovan är den körda körsträckan en kvantitativ variabel. Siffran 60 000 har dock inget värde om man inte förstår att det är det totala antalet körda mil.

Kvantitativa variabler kan ytterligare delas in i två kategorier. För det första har diskreta variabler begränsningar i statistiken och drar slutsatsen att det finns luckor mellan potentiella diskreta variabelvärden. Antalet poäng som görs i en fotbollsmatch är en diskret variabel eftersom (1) det inte kan finnas några decimaler och (2) det är omöjligt för ett lag att bara få 1 poäng.

För det andra använder statistiken sig också av kontinuerliga kvantitativa variabler. Dessa värden löper längs en skala - medan diskreta värden har begränsningar, mäts kontinuerliga variabler ofta i decimaler. När man mäter fotbollsspelarnas höjd kan vilket värde som helst (inom möjliga gränser) erhållas, och höjderna kan mätas ner till 1/16 tum om inte längre.

Statistiker kan inneha olika titlar och befattningar inom ett företag. Enligt Glassdoor var den genomsnittliga totala ersättningen för en statistiker i december 2021 $98 034. En lika analytisk roll som dataforskare gav en årlig ersättning på nästan 119 000 USD.

Statistiska mätnivåer

Efter att ha analyserat variabler och utfall som en del av statistik, finns det flera resulterande mätnivåer. Statistik kan kvantifiera utfall på dessa olika sätt:

Nominell nivåmätning. Det finns inget numeriskt eller kvantitativt värde, och kvaliteter rangordnas inte. Istället är nominella nivåmätningar helt enkelt etiketter eller kategorier som tilldelas andra variabler. Det är lättast att tänka på nominella nivåmätningar som icke-numeriska fakta om en variabel. Exempel: Namnet på presidenten som valdes 2020 var Joseph Robinette Biden, Jr.
Ordinal nivåmätning: Resultaten kan ordnas i en ordning, dock har alla datavärden samma värde eller vikt. Även om det är numeriskt, kan ordningsnivåmätningar i statistik inte subtraheras mot varandra eftersom endast positionen för datapunkten har betydelse. Ordinalnivåer , som ofta ingår i icke-parametrisk statistik,. jämförs ofta med den totala variabelgruppen. Exempel: Amerikanen Fred Kerley var den 2:a snabbaste mannen vid OS i Tokyo 2020 baserat på 100-meters sprinttider.
Mätning av intervallnivå: Resultaten kan ordnas i ordning; men skillnader mellan datavärden kan nu ha betydelse. Två olika datapunkter används ofta för att jämföra tidens gång eller förändrade förhållanden inom en datamängd. Det finns ofta ingen "startpunkt" för intervallet av datavärden, och kalenderdatum eller temperaturer kanske inte har ett meningsfullt inneboende nollvärde. Exempel: Inflationen nådde 8,6 % i maj 2022. Senast inflationen var så hög var december 1981.
Mätning av förhållandet: Resultaten kan ordnas i ordning, och skillnader mellan datavärden har nu betydelse. Men det finns nu en startpunkt eller "nollvärde" som kan användas för att ytterligare ge värde till ett statistiskt värde. Förhållandet mellan datavärden har nu betydelse, inklusive dess avstånd från noll. Exempel: Den lägsta meteorologiska temperaturen som registrerats var -128,6 grader Fahrenheit i Antarktis.

Statistik Samplingstekniker

För att samla in statistisk information skulle det ofta inte vara möjligt att samla in data från varje datapunkt inom en population. Istället förlitar sig statistik på olika urvalstekniker för att skapa en representativ delmängd av populationen som är lättare att analysera. Inom statistiken finns det flera primära typer av provtagning.

Enkel stickprovstagning kräver att alla medlemmar i populationen har lika stor chans att bli utvalda för analys. Hela populationen används som utgångspunkt för urval, och valfri slumpgenerator baserad på slumpen kan välja urvalsobjekten. Till exempel ställs 100 individer upp och 10 väljs ut slumpmässigt.

– Systematisk urval kräver också ett slumpmässigt urval. Dess teknik är dock något modifierad för att göra den lättare att genomföra. Ett enda slumptal genereras, och individer väljs sedan ut med ett angivet regelbundet intervall tills urvalsstorleken är komplett. Till exempel är 100 individer uppradade och numrerade. Den 7:e individen väljs för provet följt av varje efterföljande 9:e individ tills 10 provobjekt har valts ut.

Stratifierad provtagning kräver mer kontroll över ditt prov. Populationen delas in i undergrupper baserat på liknande egenskaper. Sedan beräknar du hur många personer från varje undergrupp som skulle representera hela befolkningen. Till exempel är 100 individer grupperade efter kön och ras. Sedan kommer ett urval från varje undergrupp att tas i andelen hur representativ den undergruppen är för befolkningen.
Klusterprovtagning kräver också undergrupper. Varje undergrupp bör dock vara representativ för befolkningen. Istället för att slumpmässigt välja individer inom en undergrupp, väljs hela undergruppen slumpmässigt.

Är du osäker på vilken Major League Baseball-spelare som borde ha vunnit Most Valuable Player förra året? Statistik, som ofta används för att fastställa värde, citeras ofta när priset för bästa spelare delas ut. Statistik kan inkludera slaggenomsnitt, antal träffade homeruns och stulna baser.

Exempel på statistik

Statistik är framträdande inom finans, investeringar, affärer och världen. Mycket av den information du ser och den information du får härrör från statistik, som används i alla aspekter av en verksamhet.

I investeringar inkluderar statistiken genomsnittlig handelsvolym, 52 veckors låg, 52 veckors hög, beta och korrelation mellan tillgångsklasser eller värdepapper.
Inom ekonomi inkluderar statistiken BNP, arbetslöshet, konsumentprissättning och inflation och andra ekonomiska tillväxtmått
Inom marknadsföring inkluderar statistiken konverteringsfrekvenser, klickfrekvenser, sökkvantiteter och mätvärden för sociala medier.
I redovisning inkluderar statistiken likviditet, solvens och lönsamhetsmått över tid.
Inom informationsteknik inkluderar statistiken bandbredd, nätverkskapacitet och hårdvarulogistik.
Inom mänskliga resurser inkluderar statistiken personalomsättning, anställdas nöjdhet och genomsnittlig ersättning i förhållande till marknaden.

Höjdpunkter

Ett antal urvalstekniker kan användas för att sammanställa statistiska data inklusive enkel slumpmässig, systematisk, stratifierad eller klusterurval.
Statistik kan kommuniceras på olika nivåer, från icke-numerisk deskriptor (nominell nivå) till numerisk med hänvisning till en nollpunkt (kvotnivå).

– Statistik finns på nästan alla avdelningar i varje företag och är en integrerad del av investeringar också.

Statistik är att studera och manipulera data, inklusive sätt att samla in, granska, analysera och dra slutsatser från data.

– De två stora statistikområdena är beskrivande och inferentiell statistik.

Vanliga frågor

Vad är skillnaden mellan beskrivande och inferentiell statistik?

Beskrivande statistik används för att beskriva eller sammanfatta egenskaperna hos ett urval eller datamängd, såsom en variabels medelvärde, standardavvikelse eller frekvens. Inferentiell statistik däremot använder valfritt antal tekniker för att relatera variabler i en datauppsättning till varandra, till exempel med hjälp av korrelations- eller regressionsanalys. Dessa kan sedan användas för att uppskatta prognoser eller sluta sig till kausalitet.

Varför är statistik viktig?

Statistik ger information för att utbilda hur saker fungerar. Statistik används för att bedriva forskning, utvärdera resultat, utveckla kritiskt tänkande och fatta välgrundade beslut. Statistik kan användas för att undersöka nästan vilket område som helst för att undersöka varför saker händer, när de inträffar och om det är förutsägbart att det återkommer.

Vem använder statistik?

Statistik används i stor utsträckning inom en rad tillämpningar och yrken. Varje gång data samlas in och analyseras görs statistik. Det kan vara allt från statliga myndigheter till akademisk forskning till att analysera investeringar.

Hur används statistik inom ekonomi och finans?

Ekonomer samlar in och tittar på alla typer av data, allt från konsumentutgifter till bostadsstarter till inflation till BNP-tillväxt. Inom finans samlar analytiker och investerare in data om företag, branscher, sentiment och marknadsdata om pris och volym. Tillsammans är användningen av inferentiell statistik inom dessa områden känd som ekonometri. Flera viktiga finansiella modeller från CAPM till Modern Portfolio Theory (MPT) och Black-Scholes optionsprissättningsmodell förlitar sig på statistisk slutledning.