Investor's wiki

T-Test

T-Test

Che cos'è un test T?

Un test t è un tipo di statistica inferenziale utilizzata per determinare se esiste una differenza significativa tra le medie di due gruppi, che può essere correlata in determinate caratteristiche. Viene utilizzato principalmente quando i set di dati, come il set di dati registrato come risultato del lancio di una moneta 100 volte, seguirebbero una distribuzione normale e potrebbero avere varianze sconosciute. Un t-test viene utilizzato come strumento di verifica delle ipotesi, che consente di testare un'ipotesi applicabile a una popolazione.

Un test t esamina la statistica t, i valori di distribuzione t ei gradi di libertà per determinare la significatività statistica. Per condurre un test con tre o più medie, è necessario utilizzare un'analisi della varianza.

Spiegazione del T-Test

In sostanza, un t-test ci consente di confrontare i valori medi dei due set di dati e determinare se provenivano dalla stessa popolazione. Negli esempi precedenti, se dovessimo prendere un campione di studenti della classe A e un altro campione di studenti della classe B, non ci aspetteremmo che abbiano esattamente la stessa media e deviazione standard. Allo stesso modo, i campioni prelevati dal gruppo di controllo alimentato con placebo e quelli prelevati dal gruppo prescritto con il farmaco dovrebbero avere una media e una deviazione standard leggermente diverse.

Matematicamente, il test t preleva un campione da ciascuno dei due insiemi e stabilisce l'affermazione del problema assumendo un'ipotesi nulla che le due medie siano uguali. Sulla base delle formule applicabili, determinati valori vengono calcolati e confrontati con i valori standard e l'ipotesi nulla ipotizzata viene accettata o rifiutata di conseguenza.

Se l'ipotesi nulla si qualifica per essere rifiutata, indica che le letture dei dati sono forti e probabilmente non sono dovute al caso.

Il t-test è solo uno dei tanti test utilizzati a questo scopo. Gli statistici devono inoltre utilizzare test diversi dal test t per esaminare più variabili e test con campioni di dimensioni maggiori. Per un campione di grandi dimensioni, gli statistici utilizzano uno z-test. Altre opzioni di test includono il test del chi quadrato e il test f.

Esistono tre tipi di test t e sono classificati come test t dipendenti e indipendenti.

Risultati del test ambigui

Considera che un produttore di farmaci vuole testare una medicina di nuova invenzione. Segue la procedura standard di provare il farmaco su un gruppo di pazienti e somministrare un placebo a un altro gruppo, chiamato gruppo di controllo. Il placebo somministrato al gruppo di controllo è una sostanza senza alcun valore terapeutico previsto e funge da punto di riferimento per misurare la risposta dell'altro gruppo, a cui viene somministrato il farmaco effettivo.

Dopo la sperimentazione del farmaco, i membri del gruppo di controllo alimentato con placebo hanno riportato un aumento dell'aspettativa di vita media di tre anni, mentre i membri del gruppo a cui è stato prescritto il nuovo farmaco riferiscono un aumento dell'aspettativa di vita media di quattro anni. L'osservazione istantanea può indicare che il farmaco sta effettivamente funzionando poiché i risultati sono migliori per il gruppo che utilizza il farmaco. Tuttavia, è anche possibile che l'osservazione possa essere dovuta a un evento fortuito, in particolare a un sorprendente colpo di fortuna. Un t-test è utile per concludere se i risultati sono effettivamente corretti e applicabili all'intera popolazione.

In una scuola, 100 studenti della classe A hanno ottenuto una media dell'85% con una deviazione standard del 3%. Altri 100 studenti appartenenti alla classe B hanno ottenuto una media dell'87% con una deviazione standard del 4%. Sebbene la media della classe B sia migliore di quella della classe A, potrebbe non essere corretto saltare alla conclusione che il rendimento complessivo degli studenti della classe B sia migliore di quello degli studenti della classe A. Questo perché esiste una variabilità naturale nei test i punteggi in entrambe le classi, quindi la differenza potrebbe essere solo dovuta al caso. Un t-test può aiutare a determinare se una classe è andata meglio dell'altra.

Presupposti del test T

  1. La prima ipotesi fatta riguardo ai t-test riguarda la scala di misura. L'assunto per un test t è che la scala di misurazione applicata ai dati raccolti segua una scala continua o ordinale, come i punteggi di un test del QI.

  2. La seconda ipotesi fatta è quella di un campione casuale semplice, che i dati siano raccolti da una porzione rappresentativa e selezionata in modo casuale della popolazione totale.

  3. La terza ipotesi è che i dati, quando tracciati, risultano in una distribuzione normale, curva di distribuzione a campana.

  4. L'ipotesi finale è l'omogeneità della varianza. Esiste una varianza omogenea o uguale quando le deviazioni standard dei campioni sono approssimativamente uguali.

Calcolo dei test T

Il calcolo di un test t richiede tre valori di dati chiave. Includono la differenza tra i valori medi di ciascun set di dati (chiamata differenza media), la deviazione standard di ciascun gruppo e il numero di valori dei dati di ciascun gruppo.

Il risultato del test t produce il valore t. Questo valore t calcolato viene quindi confrontato con un valore ottenuto da una tabella dei valori critici (denominata T-Distribution Table). Questo confronto aiuta a determinare l'effetto del solo caso sulla differenza e se la differenza è al di fuori di tale intervallo di probabilità. Il test t chiede se la differenza tra i gruppi rappresenti una vera differenza nello studio o se sia forse una differenza casuale senza significato.

Tabelle di distribuzione T

La T-Distribution Table è disponibile nei formati a una coda e due code . Il primo viene utilizzato per valutare casi che hanno un valore fisso o un intervallo con una chiara direzione (positiva o negativa). Ad esempio, qual è la probabilità che il valore di output rimanga al di sotto di -3 o che ottenga più di sette quando si tirano una coppia di dadi? Quest'ultimo viene utilizzato per l'analisi del range bound, ad esempio chiedendo se le coordinate sono comprese tra -2 e +2.

I calcoli possono essere eseguiti con programmi software standard che supportano le funzioni statistiche necessarie, come quelle che si trovano in MS Excel.

Valori T e gradi di libertà

Il test t produce due valori come output: valore t e gradi di libertà. Il valore t è un rapporto tra la differenza tra la media dei due set di campioni e la variazione che esiste all'interno dei set di campioni. Mentre il valore del numeratore (la differenza tra la media dei due insiemi di campioni) è semplice da calcolare, il denominatore (la variazione che esiste all'interno degli insiemi di campioni) può diventare un po' complicato a seconda del tipo di valori di dati coinvolti. Il denominatore del rapporto è una misura della dispersione o variabilità. Valori più alti del valore t, chiamato anche t-score, indicano che esiste una grande differenza tra i due set di campioni. Minore è il valore t, maggiore è la somiglianza tra i due set di campioni.

  • Un t-score elevato indica che i gruppi sono diversi.

  • Un piccolo t-score indica che i gruppi sono simili.

I gradi di libertà si riferiscono ai valori in uno studio che ha la libertà di variare e sono essenziali per valutare l'importanza e la validità dell'ipotesi nulla. Il calcolo di questi valori di solito dipende dal numero di record di dati disponibili nel set di campioni.

Test T correlato (o accoppiato).

Il test t correlato viene eseguito quando i campioni sono tipicamente costituiti da coppie appaiate di unità simili o quando ci sono casi di misure ripetute. Ad esempio, potrebbero esserci casi in cui gli stessi pazienti vengono testati ripetutamente, prima e dopo aver ricevuto un particolare trattamento. In questi casi, ogni paziente viene utilizzato come campione di controllo contro se stesso.

Questo metodo si applica anche ai casi in cui i campioni sono correlati in qualche modo o hanno caratteristiche corrispondenti, come un'analisi comparativa che coinvolge bambini, genitori o fratelli. I test t correlati o accoppiati sono di tipo dipendente, poiché riguardano casi in cui i due insiemi di campioni sono correlati.

La formula per calcolare il valore t e i gradi di libertà per un test t accoppiato è:

T=significa1−significa2< mfrac>s(diff)(n)< /mfrac>< /mstyle>dove:significa1 e significa2=</ mo>I valori medi di ciascuno dei set di campionis</ mi>(diff)=La deviazione standard delle differenze dei valori dei dati accoppiati n= La dimensione del campione (il numero di differenze accoppiate)</mr ow>n−</ mo>1=I gradi di libertà< codifica annotazione="application/x-tex">\begin&T=\frac{\textit1 - \textit2}{\frac{s(\text)} {\sqrt{(n)}}}\&\textbf\&\textit1\text\textit2=\text\&s(\text)=\text\&n=\text{La dimensione del campione (il numero di differenze)}\&n-1=\text{I gradi di libertà}\end<span class="katex-html" aria -hidden="true">< span class="mord">< span class="mord">< span class="mord">< span class="mord">< span class="mord">​< intervallo class="vlist-t vlist-t2">T=< /span>(n)<path d='M95,702

c-2.7,0,-7.17,-2.7,-13.5,-8c-5.8,-5.3,-9.5,-10,-9.5,-14

c0,-2,0.3,-3.3,1,-4c1.3,-2.7,23.83,-20.7,67.5,-54

c44.2,-33.3,65.8,-50.3,66.5,-51c1.3,-1.3,3,-2,5,-2c4.7,0,8.7,3.3,12,10

s173,378,173,378c0.7,0,35.3,-71,104,-213c68.7,-142,137,5,-285,206,5,-429

c69,-144,104,5,-217,7,106,5,-221

l0 -0

c5.3,-9.3,12,-14,20,-14

H400000v40H845.2724

s-225.272,467,-225.272,467s-235,486,-235,486c-2.7,4.7,-9,7,-19,7

c-6,0,-10,-1,-12,-3s-194,-422,-194,-422s-65,47,-65,47z

M834 80h400000v40h-400000z'/>​ s(</ span>diff)</ span>​ </ span>significa1−significa2< span class="vlist-s">​</ span>dove:< /span>significa 1 e mean2</ span>=I valori medi di ciascuno dei set di campionis(diff )=La deviazione standard delle differenze dei valori dei dati accoppiati n< span class="mrel">=La dimensione del campione (il numero di differenze accoppiate)n−1=I gradi di libertà​

I restanti due tipi appartengono ai t-test indipendenti. I campioni di questi tipi vengono selezionati indipendentemente l'uno dall'altro, ovvero i set di dati nei due gruppi non fanno riferimento agli stessi valori. Includono casi come un gruppo di 100 pazienti diviso in due serie di 50 pazienti ciascuna. Uno dei gruppi diventa il gruppo di controllo e riceve un placebo, mentre l'altro gruppo riceve il trattamento prescritto. Ciò costituisce due gruppi di campioni indipendenti che non sono accoppiati tra loro.

Test T a varianza uguale (o raggruppato).

Il test t a varianza uguale viene utilizzato quando il numero di campioni in ciascun gruppo è lo stesso o la varianza dei due set di dati è simile. La seguente formula viene utilizzata per calcolare il valore t e i gradi di libertà per test t a varianza uguale:

Valore T= mean1−m< /mi>ean2(n1−1)×var1< mn>2+(n2−1)×var22n 1+n2−2< /mfrac>×1n1+1< /mn>n2 < mstyle scriptlevel="0" displaystyle="true">dove:</ mtr>mean1</ mn> e mean2 =Valori medi di ciascunodel set di campioniv</ mi>ar1 e va r2=Varianza di ciascuno dei set di campioni n1 e n2 =Numero di record in ogni set di campioni\begin&\text = \frac{ mean1 - mean2 }{\frac {(n1 - 1) \times var12 + (n2 - 1) \times var22 }{ n1 +n2 - 2}\times \sqrt{ \frac{1} + \frac{1}} } \&\textbf\&amp ;mean1 \text mean2 = \text \&\text\&var1 \text var2 = \text\&n1 \text n2 = \text \end

l0 -0

c4,-6.7,10,-10,18,-10 H400000v40

H1013.1s-83.4.268,-264.1.840c-180.7.572,-277.876.3,-289.913c-4.7,4.7,-12.7,7,-24,7

s-12,0,-12,0c-1.3,-3.3,-3.7,-11.7,-7,-25c-35.3,-125.3,-106.7,-373.3,-214,-744

c-10,12,-21,25,-33,39s-32,39,-32,39c-6,-5.3,-15,-14,-27,-26s25,-30,25,-30

c26.7,-32.7,52,-63,76,-91s52,-60,52,-60s208,722,208,722

c56,-175,3,126,3,-397,3,211,-666c84.7,-268,7,153,8,-488,2,207,5,-658,5

c53,7,-170,3,84,5,-266,8,92,5,-289,5z

M1001 80h400000v40h-400000z'/>​ < span class="mord">mea< span class="mord mathnormal">n1< span class="mbin">−m< span class="mord mathnormal">ean2​dove:< /span>mea< span class="mord mathnormal">n1 e </ span>mean2< span class="mspace" style="margin-right:0.27777777777777778em;">=Valori medi di ciascuno< span class="mord text">dei set di campioni< span class="pstrut" style="height:3.32144em;">var 1 e var2= Varianza di ciascuno dei set di campionin1 e n2= Numero di record in ogni set di campioni​</ span>

e,

Gradi di libertà=n< mn>1+n2−2 dove:< /mtr>n1 e n2< /mn>=Numero di record in ogni set di campioni</m tr>\begin &\text{Gradi di libertà} = n1 + n2 - 2 \ &\textbf\ &n1 \text n2 = \text \ \end

Test T con varianza disuguale

Il test t a varianza disuguale viene utilizzato quando il numero di campioni in ciascun gruppo è diverso e anche la varianza dei due set di dati è diversa. Questo test è anche chiamato t-test di Welch. La seguente formula viene utilizzata per calcolare il valore t e i gradi di libertà per un test t a varianza disuguale:

Valore T= mean1−m< /mi>ean2(var1 n1+v</ mi>ar2n2< /mrow>)</ mtr>dove: me an1 e me</ mi>an2=Valori medi di ciascuno< /mstyle>dei set di esempiovar1 e var2=Varianza di ciascuno dei set di campioni</ mtext> n1 e n2=Numero di record in ogni set di campioni\begin&\text =\frac{\sqrt{\bigg(\frac{+\frac\bigg)}}}\&\textbf \&mean1 \text mean2 = \text \&\text \&var1 \text var2 = \text \&n1 \text n2 = \text \end< /span>T-value< /span>=< span class="vlist-r">( n1 var 1​ < /span>+< span class="mfrac">n2< /span>var2​ )<path d='M473,2793

c339.3,-1799.3.509.3,-2700.510,-2702 l0 -0

c3.3,-7.3,9.3,-11,18,-11 H400000v40H1017.7

s-90.5,478,-276.2,1466c-185.7,988,-279.5,1483,-281.5,1485c-2,6,-10,9,-24,9

c-8,0,-12,-0.7,-12,-2c0,-1.3,-5.3,-32,-16,-92c-50.7,-293.3,-119.7,-693.3,-207,-1200

c0,-1.3,-5.3,8.7,-16,30c-10.7,21.3,-21.3,42.7,-32,64s-16,33,-16,33s-26,-26,-26,-26

s76,-153,76,-153s77,-151,77,-151c0.7,0.7,35.7,202,105,604c67.3,400.7,102,602.7,104,

606zM1001 80h400000v40H1017.7z'/>​ < span class="mord">mea< span class="mord mathnormal">n1< span class="mbin">−m< span class="mord mathnormal">ean2​< span class="vlist" style="height:2.93em;"></ span>dove: mea n1 e < /span>mean2=Valori medi di ciascuno dei set di campionivar1 e v ar2=</ span>Varianza di ciascuno dei set di campionin1 e n2=Numero di record in ogni set di campioni​

e,

Gradi di libertà= (var1 2n1 +var22 n2)</ mo>2(< mi>var12 n1)2</ mn>n1−1 +(v</ mi>ar22n2)2n2−1</ mfrac></ mtd>dove: var1 e var2=Varianza di ciascuno dei set di campioni n1 e n< /mi>2=Numero di record in ogni set di campioni< /mtable>\begin &\text{Gradi di libertà} = \frac{ \left ( \frac{ var12 } + \frac{ var22 } \right )2 }{ \frac{ \left ( \frac{ var12 } \right )2 }{ n1 - 1 } + \frac{ \left ( \frac { var22 } \right )^2 }{ n2 - 1}} \ &\textbf\ &var1 \text var2 = \text \ &n1 \text n2 = \text \ \end< span class="katex-html" aria-hidden="true">< /span>​ </sp an>Gradi di libertà< /span>= </ span>n1< /span>−1< /span>( n1 < span class="pstrut" style="height:3em;">var1< span class="vlist-r">2​)2​</ span></ span>+n2−1</ span>(< span class="mord mtight">n2< /span>var< /span>22 ​< /span>) 2< /span>​ (n1var1< span class="vlist-r">2</ span>​< /span>< /span>+ n2< /span> v</ span>ar2</ span>2 ​ )2 ​dove:var< span class="mord">1 e var</ span>2=</ span>Varianza di ciascuno dei set di campionin1 e < span class="mord mathnormal">n2< span class="mrel">=Numero di record in ogni set di campioni​</ span>

Determinazione del test T corretto da utilizzare

Il seguente diagramma di flusso può essere utilizzato per determinare quale test t dovrebbe essere utilizzato in base alle caratteristiche dei set di campioni. Gli elementi chiave da considerare includono se i record del campione sono simili, il numero di record di dati in ciascun set di campioni e la varianza di ciascun set di campioni.

Esempio di test T con varianza disuguale

Si supponga di eseguire una misurazione diagonale dei dipinti ricevuti in una galleria d'arte. Un gruppo di campioni comprende 10 dipinti, mentre l'altro include 20 dipinti. I set di dati, con i corrispondenti valori di media e varianza, sono i seguenti:

TTT

Sebbene la media dell'Insieme 2 sia maggiore di quella dell'Insieme 1, non possiamo concludere che la popolazione corrispondente all'Insieme 2 abbia una media più alta della popolazione corrispondente all'Insieme 1. La differenza da 19,4 a 21,6 è dovuta al solo caso, oppure esistono davvero differenze nelle popolazioni complessive di tutti i dipinti ricevuti in pinacoteca? Stabiliamo il problema assumendo l'ipotesi nulla che la media sia la stessa tra i due insiemi di campioni e conduciamo un t-test per verificare se l'ipotesi è plausibile.

Poiché il numero di record di dati è diverso (n1 = 10 e n2 = 20) e anche la varianza è diversa, il valore t e i gradi di libertà vengono calcolati per il set di dati sopra indicato utilizzando la formula menzionata nel test T di varianza disuguale sezione.

Il valore t è -2,24787. Poiché il segno meno può essere ignorato quando si confrontano i due valori t, il valore calcolato è 2,24787.

Il valore dei gradi di libertà è 24,38 e viene ridotto a 24, a causa della definizione della formula che richiede l'arrotondamento per difetto del valore al valore intero minimo possibile.

Si può specificare un livello di probabilità (livello alfa, livello di significatività, p) come criterio di accettazione. Nella maggior parte dei casi si può assumere un valore del 5%.

Utilizzando il valore del grado di libertà come 24 e un livello di significatività del 5%, uno sguardo alla tabella di distribuzione del valore t fornisce un valore di 2,064. Il confronto di questo valore con il valore calcolato di 2,247 indica che il valore t calcolato è maggiore del valore della tabella a un livello di significatività del 5%. Pertanto, è lecito respingere l'ipotesi nulla che non vi sia alcuna differenza tra i mezzi. L'insieme della popolazione presenta differenze intrinseche, e non sono casuali.

Mette in risalto

  • Un t-test è un tipo di statistica inferenziale utilizzata per determinare se esiste una differenza significativa tra le medie di due gruppi, che può essere correlata in determinate caratteristiche.

  • Il t-test è uno dei tanti test utilizzati ai fini della verifica di ipotesi in statistica.

  • Esistono diversi tipi di test t che possono essere eseguiti a seconda dei dati e del tipo di analisi richiesti.

  • Il calcolo di un t-test richiede tre valori di dati chiave. Includono la differenza tra i valori medi di ciascun set di dati (chiamata differenza media), la deviazione standard di ciascun gruppo e il numero di valori dei dati di ciascun gruppo.