Investor's wiki

Central Limit Theorem (CLT)

Central Limit Theorem (CLT)

Hvad er Central Limit Theorem (CLT)?

I sandsynlighedsteorien siger den centrale grænsesætning (CLT), at fordelingen af en stikprøvevariabel tilnærmer sig en normalfordeling (dvs. en "klokkekurve"), efterhånden som stikprøvestørrelsen bliver større, idet det antages, at alle prøver er identiske i størrelse, og uanset af befolkningens faktiske udbredelsesform.

Sagt på en anden måde er CLT en statistisk forudsætning om, at givet en tilstrækkelig stor stikprøvestørrelse fra en population med et begrænset variansniveau, vil gennemsnittet af alle stikprøvevariable fra samme population være omtrent lig med gennemsnittet af hele populationen. Ydermere tilnærmer disse stikprøver en normalfordeling,. hvor deres varians er omtrent lig med variansen af populationen , efterhånden som stikprøvestørrelsen bliver større ifølge loven om store tal.

Selvom dette koncept først blev udviklet af Abraham de Moivre i 1733, blev det først formaliseret i 1930, da den bemærkede ungarske matematiker George Pólya kaldte det den centrale grænsesætning.

Forståelse af Central Limit Theorem (CLT)

Ifølge den centrale grænsesætning vil middelværdien af en stikprøve af data være tættere på gennemsnittet af den pågældende samlede population, efterhånden som stikprøvestørrelsen stiger, uanset den faktiske fordeling af dataene. Med andre ord er dataene nøjagtige, uanset om fordelingen er normal eller afvigende.

Som en generel regel vurderes stikprøvestørrelser på omkring 30-50 at være tilstrækkelige til, at CLT'en kan holde, hvilket betyder, at fordelingen af stikprøvemidlerne er nogenlunde normalfordelt. Derfor, jo flere prøver man tager, jo mere tager de grafiske resultater form af en normalfordeling. Bemærk dog, at den centrale grænsesætning stadig vil være tilnærmet i mange tilfælde for meget mindre stikprøvestørrelser, såsom n=8 eller n=5.

Den centrale grænsesætning bruges ofte i forbindelse med loven om store tal, som siger, at gennemsnittet af stikprøvemiddelværdierne og standardafvigelser vil komme tættere på at svare til populationsmiddelværdien og standardafvigelsen, efterhånden som stikprøvestørrelsen vokser, hvilket er yderst nyttigt i præcist at forudsige populationernes karakteristika.

Nøglekomponenter i den centrale grænsesætning

Den centrale grænsesætning består af flere nøglekarakteristika. Disse karakteristika drejer sig i vid udstrækning om stikprøver, stikprøvestørrelser og populationen af data.

  1. Sampling er successiv. Dette betyder, at nogle prøveenheder er fælles med prøveenheder valgt ved tidligere lejligheder.

  2. Sampling er tilfældig. Alle prøver skal udtages tilfældigt,. så de har samme statistiske mulighed for at blive udvalgt.

  3. Prøverne skal være uafhængige. Udvælgelserne eller resultaterne fra én prøve bør ikke have nogen betydning for fremtidige prøver eller andre prøveresultater.

  4. Prøver bør begrænses. Det citeres ofte, at en stikprøve ikke bør være mere end 10 % af en population, hvis prøveudtagningen udføres uden erstatning. Generelt berettiger større populationsstørrelser brugen af større stikprøvestørrelser.

  5. Samplestørrelsen er stigende. Den centrale grænsesætning er relevant, da flere prøver er udvalgt.

The Central Limit Theorem in Finance

CLT er nyttigt, når man undersøger afkastet af en individuel aktie eller bredere indekser, fordi analysen er enkel på grund af den relative lethed at generere de nødvendige finansielle data. Derfor stoler investorer af alle typer på CLT til at analysere aktieafkast, konstruere porteføljer og styre risiko.

Lad os sige, at en investor for eksempel ønsker at analysere det samlede afkast for et aktieindeks, der omfatter 1.000 aktier. I dette scenarie kan denne investor blot studere en tilfældig stikprøve af aktier for at dyrke det estimerede afkast af det samlede indeks. For at være sikker bør der udtages prøver på mindst 30-50 tilfældigt udvalgte bestande på tværs af forskellige sektorer, for at den centrale grænsesætning kan holde. Desuden skal tidligere udvalgte aktier byttes ud med forskellige navne for at hjælpe med at eliminere bias.

Højdepunkter

  • Den centrale grænsesætning (CLT) siger, at fordelingen af stikprøvemiddelværdier tilnærmer en normalfordeling, efterhånden som stikprøvestørrelsen bliver større, uanset populationens fordeling.

  • Prøvestørrelser lig med eller større end 30 anses ofte for at være tilstrækkelige til, at CLT'en kan holde.

  • Et centralt aspekt ved CLT er, at gennemsnittet af stikprøvegennemsnittene og standardafvigelserne vil svare til populationsmiddelværdien og standardafvigelsen.

  • En tilstrækkelig stor stikprøvestørrelse kan forudsige en populations karakteristika mere præcist.

  • CLT er nyttigt inden for finansiering, når man analyserer en stor samling af værdipapirer for at estimere porteføljefordelinger og egenskaber for afkast, risiko og korrelation.

Ofte stillede spørgsmål

Hvorfor er den centrale grænsesætning nyttig?

Den centrale grænsesætning er nyttig, når man analyserer store datasæt, fordi den giver mulighed for at antage, at prøveudtagningsfordelingen af middelværdien vil være normalfordelt i de fleste tilfælde. Dette giver mulighed for lettere statistisk analyse og konklusioner. For eksempel kan investorer bruge central grænsesætning til at aggregere individuelle sikkerhedsdata og generere fordeling af stikprøvemidler, der repræsenterer en større populationsfordeling for værdipapirafkast over en periode.

Hvad er formlen for Central Limit Theorem?

Den centrale grænsesætning har ikke sin egen formel, men den er afhængig af prøvegennemsnit og standardafvigelse. Da stikprøvegennemsnit indsamles fra populationen, bruges standardafvigelse til at fordele dataene over en sandsynlighedsfordelingskurve.

Hvorfor er den centrale grænsesætnings minimeringsprøvestørrelse 30?

En stikprøvestørrelse på 30 er ret almindelig på tværs af statistikker. En stikprøvestørrelse på 30 øger ofte konfidensintervallet for dit befolkningsdatasæt nok til at berettige påstande mod dine resultater. Jo større din stikprøvestørrelse er, jo mere sandsynligt er stikprøven repræsentativ for dit populationssæt.