Statistikk
Hva er statistikk?
Statistikk er en gren av anvendt matematikk som involverer innsamling, beskrivelse, analyse og slutning av konklusjoner fra kvantitative data. De matematiske teoriene bak statistikk er avhengige av differensial- og integralregning, lineær algebra og sannsynlighetsteori.
Statistikere, folk som driver med statistikk, er spesielt opptatt av å finne ut hvordan man kan trekke pålitelige konklusjoner om store grupper og generelle hendelser fra oppførselen og andre observerbare kjennetegn ved små utvalg. Disse små prøvene representerer en del av den store gruppen eller et begrenset antall tilfeller av et generelt fenomen.
Forstå statistikk
Statistikk brukes i praktisk talt alle vitenskapelige disipliner som fysisk og samfunnsvitenskap, så vel som i næringsliv, humaniora, myndigheter og produksjon. Statistikk er grunnleggende en gren av anvendt matematikk som utviklet seg fra bruk av matematiske verktøy inkludert kalkulus og lineær algebra til sannsynlighetsteori.
I praksis er statistikk ideen vi kan lære om egenskapene til store sett med objekter eller hendelser (en populasjon ) ved å studere egenskapene til et mindre antall lignende objekter eller hendelser (et utvalg ). Fordi det i mange tilfeller er for kostbart, vanskelig eller helt umulig å samle omfattende data om en hel populasjon, starter statistikken med et utvalg som enkelt eller rimelig kan observeres.
To typer statistiske metoder brukes til å analysere data: beskrivende statistikk og konklusjonsstatistikk. Statistikere måler og samler inn data om individene eller elementene i en prøve, og analyserer deretter disse dataene for å generere beskrivende statistikk. De kan deretter bruke disse observerte egenskapene til prøvedataene, som på riktig måte kalles "statistikk", for å gjøre slutninger eller utdannede gjetninger om de umålte (eller umålte) egenskapene til den bredere populasjonen, kjent som parametrene.
Statistikk dateres uformelt tilbake århundrer. En tidlig registrering av korrespondanse mellom franske matematikere Pierre de Fermat og Blaise Pascal i 1654 blir ofte sitert som et tidlig eksempel på statistisk sannsynlighetsanalyse.
Beskrivende og inferensiell statistikk
De to hovedområdene for statistikk er kjent som beskrivende statistikk, som beskriver egenskapene til utvalgs- og populasjonsdata, og konklusjonsstatistikk, som bruker disse egenskapene til å teste hypoteser og trekke konklusjoner. Beskrivende statistikk inkluderer gjennomsnitt (gjennomsnitt), varians, skjevhet og kurtose. Inferensiell statistikk inkluderer lineær regresjonsanalyse,. variansanalyse (ANOVA), logit/Probit-modeller og nullhypotesetesting.
Beskrivende statistikk
Beskrivende statistikk fokuserer for det meste på den sentrale tendensen, variabiliteten og distribusjonen av prøvedata. Sentral tendens betyr estimatet av egenskapene, et typisk element i et utvalg eller populasjon, og inkluderer beskrivende statistikk som gjennomsnitt,. median og modus. Variabilitet refererer til et sett med statistikk som viser hvor stor forskjell det er mellom elementene i et utvalg eller en populasjon langs de målte egenskapene, og inkluderer beregninger som rekkevidde,. varians og standardavvik.
Fordelingen refererer til den overordnede "formen" av dataene, som kan avbildes på et diagram som et histogram eller prikkplott, og inkluderer egenskaper som sannsynlighetsfordelingsfunksjonen, skjevhet og kurtose. Beskrivende statistikk kan også beskrive forskjeller mellom observerte egenskaper ved elementene i et datasett. Beskrivende statistikk hjelper oss å forstå de kollektive egenskapene til elementene i et datautvalg og danner grunnlaget for testing av hypoteser og forutsigelser ved hjelp av konklusjonsstatistikk.
Inferensiell statistikk
Inferensiell statistikk er verktøy som statistikere bruker for å trekke konklusjoner om egenskapene til en populasjon, trukket fra egenskapene til et utvalg, og for å bestemme hvor sikre de kan være på påliteligheten til disse konklusjonene. Basert på utvalgets størrelse og distribusjon kan statistikere beregne sannsynligheten for at statistikk, som måler den sentrale tendensen, variabiliteten, fordelingen og relasjonene mellom egenskaper i et datautvalg, gir et nøyaktig bilde av de tilsvarende parametrene for hele populasjonen som utvalget er fra. er tegnet.
Inferensiell statistikk brukes til å gjøre generaliseringer om store grupper, for eksempel å estimere gjennomsnittlig etterspørsel etter et produkt ved å kartlegge et utvalg av forbrukernes kjøpsvaner eller for å forsøke å forutsi fremtidige hendelser, for eksempel å anslå fremtidig avkastning til et verdipapir eller aktivaklasse basert på returnerer i en prøveperiode.
Regresjonsanalyse er en mye brukt teknikk for statistisk slutning som brukes til å bestemme styrken og arten av sammenhengen (dvs. korrelasjonen ) mellom en avhengig variabel og en eller flere forklarende (uavhengige) variabler. Utdataene fra en regresjonsmodell blir ofte analysert for statistisk signifikans,. som refererer til påstanden om at et resultat fra funn generert ved testing eller eksperimentering sannsynligvis ikke har skjedd tilfeldig eller ved en tilfeldighet, men sannsynligvis kan tilskrives en spesifikk årsak belyst av dataen. Å ha statistisk signifikans er viktig for akademiske disipliner eller praktikere som er sterkt avhengige av å analysere data og forskning.
Forstå statistiske data
Roten til statistikk er drevet av variabler. En variabel er et datasett som kan telles som markerer en egenskap eller et attributt til en vare. For eksempel kan en bil ha variabler som merke, modell, år, kjørelengde, farge eller tilstand. Ved å kombinere variablene på tvers av et sett med data (dvs. fargene på alle biler på en gitt parkeringsplass), lar statistikk oss bedre forstå trender og utfall.
Det er to hovedtyper av variabler. For det første er kvalitative variabler spesifikke attributter som ofte er ikke-numeriske. Mange av eksemplene gitt i bileksemplet er kvalitative. Andre eksempler på kvalitative variabler i statistikk er kjønn, øyenfarge eller fødeby. Kvalitative data brukes oftest for å bestemme hvor stor prosentandel av et utfall som oppstår for en gitt kvalitativ variabel, og kvalitativ analyse er ofte ikke avhengig av tall. For eksempel, prøver å finne ut hvor stor prosentandel av kvinner som eier en virksomhet analyserer kvalitative data.
Den andre typen variabel i statistikk er kvantitative variabler. Kvantitative variabler studeres numerisk og har kun vekt når de er en ikke-numerisk deskriptor. I likhet med kvantitativ analyse er denne informasjonen forankret i tall. I bileksemplet ovenfor er kjørelengden en kvantitativ variabel. Tallet 60 000 har imidlertid ingen verdi med mindre det er forstått at det er det totale antallet kjørte miles.
Kvantitative variabler kan videre deles inn i to kategorier. For det første har diskrete variabler begrensninger i statistikk og konkluderer med at det er gap mellom potensielle diskrete variabelverdier. Antall poeng scoret i en fotballkamp er en diskret variabel fordi (1) det ikke kan være noen desimaler og (2) det er umulig for et lag å score bare 1 poeng.
For det andre bruker statistikk også kontinuerlige kvantitative variabler. Disse verdiene går langs en skala - mens diskrete verdier har begrensninger, måles kontinuerlige variabler ofte i desimaler. Ved måling av høyden til fotballspillerne kan en hvilken som helst verdi (innenfor mulige grenser) oppnås, og høydene kan måles ned til 1/16-dels tomme om ikke lenger.
Statistikere kan inneha forskjellige titler og stillinger i et selskap. I følge Glassdoor var gjennomsnittlig total kompensasjon for en statistiker per desember 2021 $98.034. En like analytisk rolle som dataforsker ga en årlig kompensasjon på nesten $119 000.
Statistiske målenivåer
Etter å ha analysert variabler og utfall som en del av statistikk, er det flere resulterende målenivåer. Statistikk kan kvantifisere utfall på disse forskjellige måtene:
Nominell nivåmåling. Det er ingen numerisk eller kvantitativ verdi, og kvaliteter er ikke rangert. I stedet er nominelle nivåmålinger ganske enkelt etiketter eller kategorier tilordnet andre variabler. Det er lettest å tenke på nominelle nivåmålinger som ikke-numeriske fakta om en variabel. Eksempel: Navnet på presidenten valgt i 2020 var Joseph Robinette Biden, Jr.
Ordinal nivåmåling: Utfall kan ordnes i en rekkefølge, men alle dataverdier har samme verdi eller vekt. Selv om det er numerisk, kan ikke ordinære nivåmålinger i statistikk trekkes fra hverandre, da kun posisjonen til datapunktet er av betydning. Ordinalnivåer blir ofte innlemmet i ikke-parametrisk statistikk,. og sammenlignes ofte med den totale variabelgruppen. Eksempel: Amerikaneren Fred Kerley var den andre raskeste mannen ved OL i Tokyo 2020 basert på 100-meters sprinttider.
Intervallnivåmåling: Utfall kan ordnes i rekkefølge; men forskjeller mellom dataverdier kan nå ha betydning. To forskjellige datapunkter brukes ofte til å sammenligne tiden som går eller endrede forhold innenfor et datasett. Det er ofte ikke noe "startpunkt" for rekkevidden av dataverdier, og kalenderdatoer eller temperaturer har kanskje ikke en meningsfull iboende nullverdi. Eksempel: Inflasjonen nådde 8,6 % i mai 2022. Sist gang inflasjonen var så høy var desember 1981.
Måling av forholdsnivå: Utfall kan ordnes i rekkefølge, og forskjeller mellom dataverdier har nå betydning. Imidlertid er det nå et startpunkt eller "nullverdi" som kan brukes til å gi ytterligere verdi til en statistisk verdi. Forholdet mellom dataverdier har nå betydning, inkludert avstanden fra null. Eksempel: Den laveste meteorologiske temperaturen registrert var -128,6 grader Fahrenheit i Antarktis.
Statistikkprøvetakingsteknikker
For å samle statistisk informasjon vil det ofte ikke være mulig å samle inn data fra hvert datapunkt i en populasjon. I stedet er statistikk avhengig av ulike prøvetakingsteknikker for å skape en representativ delmengde av populasjonen som er lettere å analysere. I statistikk er det flere primære typer prøvetaking.
– Enkelt tilfeldig utvalg krever at alle medlemmer i populasjonen har like stor sjanse til å bli valgt ut for analyse. Hele populasjonen brukes som grunnlag for prøvetaking, og enhver tilfeldig generator basert på tilfeldigheter kan velge utvalgselementene. For eksempel er 100 individer stilt opp og 10 er valgt tilfeldig.
– Systematisk prøvetaking krever også et stikkprøve. Imidlertid er teknikken litt modifisert for å gjøre den lettere å utføre. Et enkelt tilfeldig tall genereres, og individer velges deretter med et spesifisert regelmessig intervall til prøvestørrelsen er fullstendig. For eksempel er 100 individer stilt opp og nummerert. Det 7. individet velges for utvalget etterfulgt av hvert påfølgende 9. individ inntil 10 prøveelementer er valgt.
Stratifisert prøvetaking krever mer kontroll over prøven din. Populasjonen er delt inn i undergrupper basert på lignende egenskaper. Deretter beregner du hvor mange personer fra hver undergruppe som vil representere hele befolkningen. For eksempel er 100 individer gruppert etter kjønn og rase. Deretter vil det tas et utvalg fra hver undergruppe i forhold til hvor representativ den undergruppen er for populasjonen.
Klyngeprøvetaking krever også undergrupper. Hver undergruppe bør imidlertid være representativ for befolkningen. I stedet for å tilfeldig velge individer innenfor en undergruppe, velges hele undergruppen tilfeldig.
Ikke sikker på hvilken Major League Baseball-spiller som burde vunnet den mest verdifulle spilleren i fjor? Statistikk, ofte brukt for å bestemme verdi, blir ofte sitert når prisen for beste spiller deles ut. Statistikk kan inkludere slaggjennomsnitt, antall treff på hjemmeløp og stjålne baser.
Eksempler på statistikk
Statistikk er fremtredende innen finans, investering, næringsliv og verden. Mye av informasjonen du ser og dataene du får er hentet fra statistikk, som brukes i alle fasetter av en virksomhet.
- I investering inkluderer statistikken gjennomsnittlig handelsvolum, 52 ukers lav, 52 ukers høy, beta og korrelasjon mellom aktivaklasser eller verdipapirer.
– I økonomi inkluderer statistikken BNP, arbeidsledighet, forbrukerpriser, inflasjon og andre økonomiske vekstberegninger
– I markedsføring inkluderer statistikken konverteringsfrekvenser, klikkfrekvenser, søkemengder og sosiale medier.
– I regnskap inkluderer statistikken likviditet, soliditet og lønnsomhet over tid.
– I informasjonsteknologi inkluderer statistikken båndbredde, nettverksmuligheter og maskinvarelogistikk.
- I menneskelige ressurser inkluderer statistikken medarbeideromsetning, medarbeidertilfredshet og gjennomsnittlig kompensasjon i forhold til markedet.
Høydepunkter
En rekke prøvetakingsteknikker kan brukes til å kompilere statistiske data, inkludert enkel tilfeldig, systematisk, stratifisert eller klyngeprøvetaking.
Statistikk kan kommuniseres på forskjellige nivåer, fra ikke-numerisk deskriptor (nominelt nivå) til numerisk med referanse til et nullpunkt (forholdsnivå).
– Statistikk finnes i nesten alle avdelinger i hvert selskap og er også en integrert del av investering.
– Statistikk er studiet og manipulasjonen av data, inkludert måter å samle inn, gjennomgå, analysere og trekke konklusjoner fra data.
– De to hovedområdene for statistikk er beskrivende og konklusjonsstatistikk.
FAQ
Hva er forskjellen mellom beskrivende og inferensiell statistikk?
Beskrivende statistikk brukes til å beskrive eller oppsummere egenskapene til et utvalg eller datasett, for eksempel en variabels gjennomsnitt, standardavvik eller frekvens. Inferensiell statistikk, derimot, bruker et hvilket som helst antall teknikker for å relatere variabler i et datasett til hverandre, for eksempel ved å bruke korrelasjons- eller regresjonsanalyse. Disse kan deretter brukes til å estimere prognoser eller utlede årsakssammenheng.
Hvorfor er statistikk viktig?
Statistikk gir informasjonen for å lære hvordan ting fungerer. Statistikk brukes til å utføre forskning, evaluere resultater, utvikle kritisk tenkning og ta informerte beslutninger. Statistikk kan brukes til å spørre nesten alle studieretninger for å undersøke hvorfor ting skjer, når de oppstår, og om dets gjentakelse er forutsigbart.
Hvem bruker statistikk?
Statistikk brukes mye på tvers av en rekke applikasjoner og yrker. Hver gang data samles inn og analyseres, blir det gjort statistikk. Dette kan variere fra offentlige etater til akademisk forskning til å analysere investeringer.
Hvordan brukes statistikk i økonomi og finans?
Økonomer samler inn og ser på alle slags data, alt fra forbruksutgifter til boligstart til inflasjon til BNP-vekst. Innen finans samler analytikere og investorer data om selskaper, bransjer, sentiment og markedsdata om pris og volum. Sammen er bruken av konklusjonsstatistikk på disse feltene kjent som økonometri. Flere viktige økonomiske modeller fra CAPM til Modern Portfolio Theory (MPT) og Black-Scholes opsjonsprisingsmodell er avhengig av statistisk slutning.