Central Limit Theorem (CLT)

Vad är Central Limit Theorem (CLT)?

I sannolikhetsteorin säger central limit theorem (CLT) att fördelningen av en urvalsvariabel approximerar en normalfördelning (dvs en "klockkurva") när urvalsstorleken blir större, förutsatt att alla urval är identiska i storlek, och oavsett av befolkningens faktiska utbredningsform.

Uttryckt på ett annat sätt är CLT en statistisk utgångspunkt att, givet en tillräckligt stor urvalsstorlek från en population med en ändlig variansnivå, kommer medelvärdet av alla urvalsvariabler från samma population att vara ungefär lika med medelvärdet för hela populationen. Dessutom närmar dessa urval en normalfördelning,. där deras varianser är ungefär lika med variansen av populationen när urvalsstorleken blir större, enligt lagen om stora siffror.

Även om detta koncept först utvecklades av Abraham de Moivre 1733, formaliserades det inte förrän 1930, när den noterade ungerske matematikern George Pólya kallade det centrala gränssatsen.

Förstå Central Limit Theorem (CLT)

Enligt den centrala gränssatsen kommer medelvärdet av ett urval av data att ligga närmare medelvärdet för den totala populationen i fråga, eftersom urvalsstorleken ökar, trots den faktiska fördelningen av data. Med andra ord är uppgifterna korrekta oavsett om fördelningen är normal eller avvikande.

Som en generell regel bedöms urvalsstorlekar på cirka 30-50 vara tillräckliga för att CLT ska hålla, vilket innebär att fördelningen av urvalsmedlen är ganska normalfördelad. Därför, ju fler prover man tar, desto mer tar de grafiska resultaten formen av en normalfördelning. Observera dock att den centrala gränssatsen fortfarande kommer att approximeras i många fall för mycket mindre urvalsstorlekar, såsom n=8 eller n=5.

Den centrala gränssatsen används ofta i samband med lagen om stora siffror, som säger att medelvärdet av urvalets medelvärden och standardavvikelser kommer närmare att vara lika med populationsmedelvärde och standardavvikelse när urvalsstorleken växer, vilket är extremt användbart i exakt förutsäga egenskaperna hos populationer.

Nyckelkomponenter i Central Limit Theorem

Den centrala gränssatsen består av flera nyckelegenskaper. Dessa egenskaper kretsar till stor del kring urval, urvalsstorlekar och populationen av data.

Samplingen är successiv. Detta innebär att vissa provenheter är gemensamma med provenheter som valts vid tidigare tillfällen.
Urvalet är slumpmässigt. Alla prover ska väljas slumpmässigt så att de har samma statistiska möjlighet att väljas ut.
Sampler bör vara oberoende. Urvalen eller resultaten från ett urval bör inte ha någon betydelse för framtida prover eller andra provresultat.
Urval bör begränsas. Det nämns ofta att ett urval inte bör vara mer än 10 % av en population om provtagningen görs utan ersättning. I allmänhet motiverar större populationsstorlekar användningen av större urvalsstorlekar.
Samplestorleken ökar. Den centrala gränssatsen är relevant eftersom fler sampel väljs ut.

Central Limit Theorem in Finance

CLT är användbart när man undersöker avkastningen för en enskild aktie eller bredare index, eftersom analysen är enkel, på grund av den relativa lättheten att generera nödvändiga finansiella data. Följaktligen förlitar sig investerare av alla slag på CLT för att analysera aktieavkastning, konstruera portföljer och hantera risker.

Säg till exempel att en investerare vill analysera den totala avkastningen för ett aktieindex som omfattar 1 000 aktier. I det här scenariot kan den investeraren helt enkelt studera ett slumpmässigt urval av aktier för att odla beräknad avkastning på det totala indexet. För att vara säker bör minst 30-50 slumpmässigt utvalda bestånd inom olika sektorer provtas för att den centrala gränssatsen ska hålla. Dessutom måste tidigare utvalda aktier bytas ut med olika namn för att eliminera bias.

Höjdpunkter

– Central limit theorem (CLT) säger att fördelningen av urvalsmedelvärden approximerar en normalfördelning när urvalsstorleken blir större, oavsett populationens fördelning.

Provstorlekar lika med eller större än 30 anses ofta vara tillräckliga för att CLT ska hålla.
En nyckelaspekt med CLT är att medelvärdet av urvalets medelvärden och standardavvikelser kommer att vara lika med populationsmedelvärdet och standardavvikelsen.
En tillräckligt stor urvalsstorlek kan förutsäga egenskaperna hos en population mer exakt.
CLT är användbart inom finans när man analyserar en stor samling värdepapper för att uppskatta portföljfördelningar och egenskaper för avkastning, risk och korrelation.

Vanliga frågor

Varför är den centrala gränssatsen användbar?

Den centrala gränssatsen är användbar när man analyserar stora datamängder eftersom den tillåter en att anta att samplingsfördelningen av medelvärdet kommer att vara normalfördelad i de flesta fall. Detta möjliggör enklare statistisk analys och slutledning. Till exempel kan investerare använda central limit theorem för att aggregera individuella säkerhetsprestandadata och generera fördelning av urvalsmedel som representerar en större populationsfördelning för värdepappersavkastning över en tidsperiod.

Vad är formeln för Central Limit Theorem?

Den centrala gränssatsen har inte sin egen formel, men den bygger på provmedelvärde och standardavvikelse. När urvalsmedelvärden samlas in från populationen används standardavvikelse för att fördela data över en sannolikhetsfördelningskurva.

Varför är den centrala gränssatsens minimera provstorlek 30?

En urvalsstorlek på 30 är ganska vanligt i statistiken. En urvalsstorlek på 30 ökar ofta konfidensintervallet för din populationsdatauppsättning tillräckligt mycket för att motivera påståenden mot dina fynd. Ju större urvalsstorlek är, desto mer sannolikt kommer urvalet att vara representativt för din populationsuppsättning.