Statistikker
Hvad er statistik?
Statistik er en gren af anvendt matematik, der involverer indsamling, beskrivelse, analyse og inferens af konklusioner fra kvantitative data. De matematiske teorier bag statistik er stærkt afhængige af differential- og integralregning, lineær algebra og sandsynlighedsteori.
Statistikere, folk, der laver statistik, er især optaget af at bestemme, hvordan man kan drage pålidelige konklusioner om store grupper og generelle begivenheder ud fra små stikprøvers adfærd og andre observerbare karakteristika. Disse små prøver repræsenterer en del af den store gruppe eller et begrænset antal tilfælde af et generelt fænomen.
Forstå statistik
Statistik bruges i stort set alle videnskabelige discipliner såsom de fysiske og sociale videnskaber, såvel som i erhvervslivet, humaniora, regering og fremstilling. Statistik er grundlæggende en gren af anvendt matematik, der udviklede sig fra anvendelsen af matematiske værktøjer, herunder calculus og lineær algebra til sandsynlighedsteori.
I praksis er statistik den idé, vi kan lære om egenskaberne ved store sæt af objekter eller begivenheder (en population ) ved at studere karakteristikaene for et mindre antal lignende objekter eller begivenheder (en stikprøve ). Fordi det i mange tilfælde er for dyrt, svært eller fuldstændig umuligt at indsamle omfattende data om en hel population, starter statistikker med en stikprøve, der nemt eller overkommeligt kan observeres.
To typer statistiske metoder bruges til at analysere data: beskrivende statistik og inferentiel statistik. Statistikere måler og indsamler data om individerne eller elementerne i en prøve og analyserer derefter disse data for at generere beskrivende statistikker. De kan derefter bruge disse observerede karakteristika af stikprøvedataene, som korrekt kaldes "statistik", til at foretage slutninger eller uddannede gæt om de umålte (eller umålte) karakteristika for den bredere befolkning, kendt som parametrene.
Statistik går uformelt tilbage i århundreder. En tidlig registrering af korrespondance mellem franske matematikere Pierre de Fermat og Blaise Pascal i 1654 er ofte nævnt som et tidligt eksempel på statistisk sandsynlighedsanalyse.
Beskrivende og inferentielle statistikker
De to hovedområder for statistik er kendt som beskrivende statistik, som beskriver egenskaberne ved stikprøve- og befolkningsdata, og inferentiel statistik, som bruger disse egenskaber til at teste hypoteser og drage konklusioner. Beskrivende statistik inkluderer middelværdi (gennemsnit), varians, skævhed og kurtosis. Inferentielle statistikker omfatter lineær regressionsanalyse,. variansanalyse (ANOVA), logit/Probit-modeller og nulhypotesetestning.
Beskrivende statistik
Beskrivende statistik fokuserer for det meste på den centrale tendens, variabilitet og fordeling af stikprøvedata. Central tendens betyder estimat af karakteristika, et typisk element i en stikprøve eller population, og inkluderer beskrivende statistikker såsom middelværdi,. median og tilstand. Variabilitet refererer til et sæt statistikker, der viser, hvor stor forskel der er mellem elementerne i en stikprøve eller population langs de målte karakteristika, og inkluderer metrics såsom interval,. varians og standardafvigelse.
Fordelingen refererer til den overordnede "form" af dataene, som kan afbildes på et diagram , såsom et histogram eller et prikplot, og inkluderer egenskaber såsom sandsynlighedsfordelingsfunktionen, skævhed og kurtosis. Beskrivende statistik kan også beskrive forskelle mellem observerede karakteristika for elementerne i et datasæt. Beskrivende statistik hjælper os med at forstå de kollektive egenskaber af elementerne i en dataprøve og danner grundlaget for at teste hypoteser og lave forudsigelser ved hjælp af inferentiel statistik.
Inferential statistik
Inferentiel statistik er værktøjer, som statistikere bruger til at drage konklusioner om en populations karakteristika, trukket ud fra karakteristikaene af en stikprøve, og til at beslutte, hvor sikre de kan være på pålideligheden af disse konklusioner. Baseret på stikprøvestørrelsen og -fordelingen kan statistikere beregne sandsynligheden for, at statistik, som måler den centrale tendens, variabilitet, fordeling og sammenhænge mellem karakteristika i en datastikprøve, giver et nøjagtigt billede af de tilsvarende parametre for hele populationen, hvorfra stikprøven er tegnet.
Inferentielle statistikker bruges til at foretage generaliseringer om store grupper, såsom at estimere den gennemsnitlige efterspørgsel efter et produkt ved at undersøge en stikprøve af forbrugernes købsvaner eller til at forsøge at forudsige fremtidige begivenheder, såsom at fremskrive det fremtidige afkast af et værdipapir eller en aktivklasse baseret på returnerer i en prøveperiode.
Regressionsanalyse er en meget brugt teknik til statistisk inferens, der bruges til at bestemme styrken og arten af sammenhængen (dvs. korrelationen ) mellem en afhængig variabel og en eller flere forklarende (uafhængige) variable. Outputtet af en regressionsmodel analyseres ofte for statistisk signifikans,. hvilket refererer til påstanden om, at et resultat fra fund genereret ved testning eller eksperimenter sandsynligvis ikke er sket tilfældigt eller tilfældigt, men sandsynligvis kan tilskrives en specifik årsag belyst af dataene. At have statistisk signifikans er vigtigt for akademiske discipliner eller praktikere, der er stærkt afhængige af at analysere data og forskning.
Forstå statistiske data
Roden til statistik er drevet af variabler. En variabel er et datasæt, der kan tælles, og som markerer en egenskab eller en egenskab ved en vare. For eksempel kan en bil have variabler som mærke, model, årgang, kilometertal, farve eller tilstand. Ved at kombinere variablerne på tværs af et sæt data (dvs. farverne på alle biler på en given parkeringsplads), giver statistik os mulighed for bedre at forstå tendenser og resultater.
Der er to hovedtyper af variable. For det første er kvalitative variabler specifikke attributter, som ofte er ikke-numeriske. Mange af eksemplerne i bileksemplet er kvalitative. Andre eksempler på kvalitative variabler i statistik er køn, øjenfarve eller fødeby. Kvalitative data bruges oftest til at bestemme, hvor stor en procentdel af et resultat der forekommer for en given kvalitativ variabel, og kvalitativ analyse er ofte ikke afhængig af tal. For eksempel analyserer kvalitative data, når man prøver at bestemme, hvor stor en procentdel af kvinderne, der ejer en virksomhed.
Den anden type variabel i statistik er kvantitative variable. Kvantitative variable studeres numerisk og har kun vægt, når der er tale om en ikke-numerisk deskriptor. I lighed med kvantitativ analyse er denne information forankret i tal. I bileksemplet ovenfor er det kørte kilometertal en kvantitativ variabel. Tallet 60.000 har dog ingen værdi, medmindre det forstås, at det er det samlede antal kørte miles.
Kvantitative variabler kan yderligere opdeles i to kategorier. For det første har diskrete variable begrænsninger i statistik og udleder, at der er huller mellem potentielle diskrete variabelværdier. Antallet af scorede point i en fodboldkamp er en diskret variabel, fordi (1) der ikke kan være nogen decimaler, og (2) det er umuligt for et hold at score kun 1 point.
For det andet gør statistik også brug af kontinuerte kvantitative variable. Disse værdier løber langs en skala - mens diskrete værdier har begrænsninger, måles kontinuerlige variable ofte i decimaler. Ved måling af fodboldspillernes højde kan en hvilken som helst værdi (inden for mulige grænser) opnås, og højderne kan måles ned til 1/16 tomme, hvis ikke længere.
Statistikere kan besidde forskellige titler og stillinger i en virksomhed. Ifølge Glassdoor var den gennemsnitlige samlede kompensation for en statistiker i december 2021 $98.034. En lige så analytisk rolle som dataforsker gav en årlig kompensation på næsten $119.000.
Statistiske måleniveauer
Efter at have analyseret variabler og resultater som en del af statistik, er der flere resulterende måleniveauer. Statistik kan kvantificere resultater på disse forskellige måder:
Nominelt niveaumåling. Der er ingen numerisk eller kvantitativ værdi, og kvaliteter er ikke rangeret. I stedet er nominelle niveaumålinger blot etiketter eller kategorier, der er tildelt andre variabler. Det er nemmest at tænke på nominelle niveaumålinger som ikke-numeriske fakta om en variabel. Eksempel: Navnet på den præsident, der blev valgt i 2020, var Joseph Robinette Biden, Jr.
Ordinal niveaumåling: Resultater kan arrangeres i en rækkefølge, dog har alle dataværdier samme værdi eller vægt. Selvom numeriske målinger i statistikker ikke kan trækkes fra hinanden, da kun positionen af datapunktet har betydning. Ordinalniveauer, der ofte er inkorporeret i ikke-parametriske statistikker,. sammenlignes ofte med den samlede variabelgruppe. Eksempel: Amerikaneren Fred Kerley var den anden hurtigste mand ved OL i Tokyo 2020 baseret på 100 meter sprinttider.
Intervalniveaumåling: Resultaterne kan arrangeres i rækkefølge; dog kan forskelle mellem dataværdier nu have betydning. To forskellige datapunkter bruges ofte til at sammenligne tidens forløb eller skiftende forhold inden for et datasæt. Der er ofte ikke noget "startpunkt" for intervallet af dataværdier, og kalenderdatoer eller temperaturer har muligvis ikke en meningsfuld iboende nulværdi. Eksempel: Inflationen ramte 8,6 % i maj 2022. Sidst inflationen var så høj var december 1981.
Måling af forholdsniveau: Resultater kan arrangeres i rækkefølge, og forskelle mellem dataværdier har nu betydning. Men der er nu et udgangspunkt eller "nulværdi", som kan bruges til yderligere at give værdi til en statistisk værdi. Forholdet mellem dataværdier har nu betydning, inklusive dets afstand væk fra nul. Eksempel: Den laveste meteorologiske temperatur registreret var -128,6 grader Fahrenheit i Antarktis.
Statistiks prøveudtagningsteknikker
For at indsamle statistisk information vil det ofte ikke være muligt at indsamle data fra alle datapunkter i en population. I stedet er statistik afhængig af forskellige stikprøveteknikker for at skabe en repræsentativ delmængde af populationen, som er lettere at analysere. I statistik er der flere primære typer af stikprøver.
Simpel stikprøveudtagning kræver, at alle medlemmer i befolkningen har lige stor chance for at blive udvalgt til analyse. Hele populationen bruges som grundlag for stikprøver, og enhver tilfældig generator baseret på tilfældigheder kan udvælge prøveemnerne. For eksempel er 100 personer opstillet, og 10 er valgt tilfældigt.
Systematisk prøveudtagning kræver også en tilfældig prøve. Dens teknik er dog lidt modificeret for at gøre den lettere at udføre. Et enkelt tilfældigt tal genereres, og individer udvælges derefter med et bestemt regelmæssigt interval, indtil stikprøvestørrelsen er komplet. For eksempel er 100 personer opstillet og nummereret. Det 7. individ udvælges til prøven efterfulgt af hvert efterfølgende 9. individ, indtil 10 prøveemner er blevet udvalgt.
Stratificeret prøvetagning kræver mere kontrol over din prøve. Populationen er opdelt i undergrupper baseret på lignende karakteristika. Derefter beregner du, hvor mange personer fra hver undergruppe, der ville repræsentere hele befolkningen. For eksempel er 100 personer grupperet efter køn og race. Derefter vil der blive taget en stikprøve fra hver undergruppe i forhold til hvor repræsentativ den pågældende undergruppe er for befolkningen.
Klyngeprøvetagning kræver også undergrupper. Hver undergruppe bør dog være repræsentativ for befolkningen. I stedet for tilfældigt at udvælge individer inden for en undergruppe, er hele undergruppen tilfældigt udvalgt.
Ikke sikker på, hvilken Major League Baseball-spiller skulle have vundet den mest værdifulde spiller sidste år? Statistik, der ofte bruges til at bestemme værdi, bliver ofte citeret, når prisen for bedste spiller uddeles. Statistik kan omfatte batting-gennemsnit, antal hjemslag og stjålne baser.
Eksempler på statistik
Statistik er fremtrædende inden for finans, investering, forretning og verden. Meget af den information, du ser, og de data, du får, stammer fra statistik, som bruges i alle facetter af en virksomhed.
I investering inkluderer statistikker gennemsnitlig handelsvolumen, 52 ugers lav, 52 ugers høj, beta og korrelation mellem aktivklasser eller værdipapirer.
I økonomi inkluderer statistikkerne BNP, arbejdsløshed, forbrugerpriser og inflation og andre økonomiske vækstmålinger
I marketing inkluderer statistikker konverteringsrater, klikrater, søgemængder og metrics på sociale medier.
I regnskab inkluderer statistikker likviditet, solvens og rentabilitet på tværs af tid.
Inden for informationsteknologi inkluderer statistik båndbredde, netværkskapaciteter og hardwarelogistik.
Inden for menneskelige ressourcer inkluderer statistik medarbejderomsætning, medarbejdertilfredshed og gennemsnitlig kompensation i forhold til markedet.
Højdepunkter
En række stikprøveteknikker kan bruges til at kompilere statistiske data, herunder simpel tilfældig, systematisk, stratificeret eller klyngeprøveudtagning.
Statistik kan kommunikeres på forskellige niveauer lige fra ikke-numerisk deskriptor (nominelt niveau) til numerisk med reference til et nulpunkt (forholdsniveau).
Statistik er til stede i næsten alle afdelinger af enhver virksomhed og er også en integreret del af investering.
Statistik er undersøgelse og manipulation af data, herunder måder at indsamle, gennemgå, analysere og drage konklusioner på fra data.
De to hovedområder for statistik er beskrivende og konkluderende statistik.
Ofte stillede spørgsmål
Hvad er forskellen mellem beskrivende og inferentiel statistik?
Beskrivende statistik bruges til at beskrive eller opsummere karakteristikaene for en prøve eller et datasæt, såsom en variabels middelværdi, standardafvigelse eller frekvens. Inferentiel statistik, derimod, anvender et hvilket som helst antal teknikker til at relatere variabler i et datasæt til hinanden, for eksempel ved hjælp af korrelations- eller regressionsanalyse. Disse kan derefter bruges til at estimere prognoser eller udlede kausalitet.
Hvorfor er statistik vigtig?
Statistik giver information til at uddanne, hvordan tingene fungerer. Statistik bruges til at udføre forskning, evaluere resultater, udvikle kritisk tænkning og træffe informerede beslutninger. Statistik kan bruges til at spørge næsten ethvert studieområde for at undersøge, hvorfor ting sker, hvornår de opstår, og om dets gentagelse er forudsigeligt.
Hvem bruger statistik?
Statistik bruges bredt på tværs af en række applikationer og erhverv. Hver gang data indsamles og analyseres, bliver der lavet statistik. Dette kan spænde fra offentlige myndigheder til akademisk forskning til analyse af investeringer.
Hvordan bruges statistik i økonomi og finans?
Økonomer indsamler og ser på alle slags data, lige fra forbrugsudgifter til boligstart til inflation til BNP-vækst. Inden for finans indsamler analytikere og investorer data om virksomheder, brancher, sentiment og markedsdata om pris og volumen. Tilsammen er brugen af inferentiel statistik på disse områder kendt som økonometri. Adskillige vigtige finansielle modeller fra CAPM til Modern Portfolio Theory (MPT) og Black-Scholes optionsprismodellen er afhængige af statistisk slutning.