Teoria degli errori e fondamenti di statistica/12.7

Questo testo è stato riletto e controllato.

Maurizio Loreti - Teoria degli errori e fondamenti di statistica (2006)

12.7 Il metodo di Kolmogorov e Smirnov

Informazioni sulla fonte del testo

◄

12.6.1

13

►

[p. 225 modifica]

12.7 Il metodo di Kolmogorov e Smirnov

Il test di Kolmogorov e Smirnov è un metodo di analisi statistica che permette di confrontare tra loro un campione di dati ed una distribuzione teorica (oppure due campioni di dati) allo scopo di verificare l’ipotesi statistica che la popolazione da cui i dati provengono sia quella in esame (oppure l’ipotesi che entrambi i campioni provengano dalla stessa popolazione).

Una caratteristica interessante di questo metodo è che esso non richiede la preventiva, e più o meno arbitraria, suddivisione dei dati in classi di frequenza; definendo queste ultime in modo diverso si ottengono ovviamente, dal metodo del $\chi ^{2}$ , differenti risultati per gli stessi campioni.

Il test di Kolmogorov e Smirnov si basa infatti sulla frequenza cumulativa relativa dei dati, introdotta nel paragrafo 4.1 a pagina 33; e sull’analogo concetto di funzione di distribuzione di una variabile continua definito nel paragrafo 6.1 a pagina 68. Per la compatibilità tra un campione ed una ipotetica legge che si ritiene possa descriverne la popolazione di provenienza, e collegata ad una funzione di distribuzione $\Phi (x)$ , bisogna confrontare la frequenza cumulativa relativa $F(x)$ del campione con $\Phi (x)$ per ricavare il valore assoluto del massimo scarto tra esse,

$\delta =\max {\Bigl \{}{\bigl |}F(x)-\Phi (x){\bigr |}{\Bigr \}}$ .

Si può dimostrare che, se l’ipotesi da verificare fosse vera, la probabilità di ottenere casualmente un valore di $\delta$ non inferiore ad una prefissata quantità (positiva) $\delta _{0}$ sarebbe data da

$\Pr \left(\delta \geq \delta _{0}\right)=F_{\mathrm {KS} }\left(\delta '_{0}\right)$

ove $F_{\mathrm {KS} }$ è la serie

F_{\mathrm {KS} }(x)=2\sum _{k=1}^{\infty }(-1)^{k-1}e^{-2\,k^{2}x^{2}}

(12.20)

e $\delta '_{0}$ vale

\delta '_{0}=\left({\sqrt {N}}+0.12+{\frac {0.11}{\sqrt {N}}}\right)\delta _{0}

.

(12.21)

La legge ora enunciata è approssimata, ma il test di Kolmogorov e Smirnov può essere usato già per dimensioni del campione $N$ uguali a 5. Attenzione però che, se qualche parametro da cui la distribuzione teorica dipende è stato stimato sulla base dei dati, l’integrale della densità di probabilità [p. 226 modifica]per la variabile $\delta$ di Kolmogorov e Smirnov non segue più la legge (12.20): non solo, ma non è più possibile ricavare teoricamente una funzione che ne descriva il comportamento in generale (in questi casi, nella pratica, la distribuzione di $\delta$ viene studiata usando metodi di Montecarlo).

Se si vogliono invece confrontare tra loro due campioni indipendenti per verificarne la compatibilità, bisogna ricavare dai dati il massimo scarto (in valore assoluto), $\delta$ , tra le due frequenze cumulative relative; e ricavare ancora dalla (12.20) la probabilità che questo possa essere avvenuto (ammessa vera l’ipotesi) per motivi puramente casuali. L’unica differenza è che la funzione (12.20) va calcolata in un’ascissa $\delta '_{0}$ data dalla (12.21), nella quale $N$ vale

$N={\frac {1}{{\frac {1}{N_{1}}}+{\frac {1}{N_{2}}}}}\;=\;{\frac {N_{1}\,N_{2}}{N_{1}+N_{2}}}$

( $N_{1}$ ed $N_{2}$ sono le dimensioni dei due campioni).

Oltre al già citato vantaggio di non richiedere la creazione di più o meno arbitrarie classi di frequenza per raggrupparvi i dati, un’altra caratteristica utile del test di Kolmogorov e Smirnov è quella di essere, entro certi limiti, indipendente dalla variabile usata nella misura: se al posto di $x$ si usasse, per caratterizzare il campione, $\ln(x)$ o ${\sqrt {x}}$ , il massimo scarto tra frequenza cumulativa e funzione di distribuzione rimarrebbe invariato.

Un altrettanto ovvio svantaggio è collegato al fatto che per valori molto piccoli (o molto grandi) della variabile casuale usata, qualsiasi essa sia, tutte le funzioni di distribuzione e tutte le frequenze cumulative hanno lo stesso valore (0, o 1 rispettivamente). Per questo motivo il test di Kolmogorov e Smirnov è assai sensibile a differenze nella zona centrale dei dati (attorno al valore medio), mentre non è affatto efficace per discriminare tra due distribuzioni che differiscano significativamente tra loro solo nelle code; ad esempio che abbiano lo stesso valore medio e differente ampiezza.