Teoria degli errori e fondamenti di statistica/9.8

9.8 Il teorema del limite centrale

../9.7 ../9.8.1 IncludiIntestazione 31 agosto 2022 100% Da definire

9.7 9.8.1

[p. 154 modifica]


9.8 Il teorema del limite centrale

Fino ad ora abbiamo più volte sottolineato il fatto che un preciso significato (quello statistico) dell’errore quadratico medio può essere enunciato solo se la distribuzione delle misure effettuate è quella normale.

Con riguardo alla media aritmetica delle misure, se queste seguono la legge normale e se, inoltre, sono statisticamente indipendenti tra loro, il teorema di pagina 103 ci assicura che qualunque loro combinazione lineare (ed in particolare la media aritmetica) è ancora distribuita secondo la legge normale; ed all’errore della media si può quindi attribuire lo stesso significato statistico.

Vogliamo ora ampliare questo discorso dimostrando un importantissimo teorema della statistica e discutendone le implicazioni:

Teorema (del limite centrale): siano N variabili casuali , statisticamente indipendenti tra loro e provenienti da una distribuzione avente densità di probabilità ignota, della quale esistano finite sia la media che la varianza ; sotto questa ipotesi, la distribuzione della media aritmetica del campione, , tende asintoticamente alla distribuzione normale con media e varianza al crescere di N.

Dimostreremo questo teorema facendo l’ipotesi, più restrittiva, che esistano i momenti della funzione di frequenza delle di qualunque ordine k (esso può essere dimostrato, come si vede dall’enunciato, anche se esistono solamente i primi due); e partiamo dal fatto che, sotto le ipotesi su dette, la somma S delle N variabili casuali

ha valore medio e varianza date dalle

e .
[p. 155 modifica]

Inoltre, visto che i valori sono tra loro statisticamente indipendenti, possiamo applicare l’equazione (6.11) per trovare la funzione caratteristica della S, che vale

visto che le hanno tutte la stessa distribuzione (e quindi la stessa funzione caratteristica). Se consideriamo invece gli scarti delle dalla media, dalla (6.17) possiamo ricavare la funzione caratteristica della z:

(9.7)

e, se esistono tutti i momenti fino a qualsiasi ordine della x (e in conseguenza anche della z), la (6.8) implica

(9.8)

in cui i sono i momenti della funzione di frequenza della z, i primi due dei quali valgono 0 e .

Introduciamo infine la nuova variabile

e indichiamo poi con la funzione caratteristica della y; essendo quest’ultima lineare in S abbiamo dalla (6.17) che

[p. 156 modifica]ricordando la (9.7). Da qui, introducendo l’espressione (9.8) prima ottenuta per lo sviluppo di ,

e quando N tende all’infinito

sfruttando il limite notevole

(9.9)

(qui, appunto, ). Insomma la funzione caratteristica della y tende a quella di una distribuzione normale di media zero e varianza 1: quindi la S tende asintoticamente ad una distribuzione normale di media e varianza ; e tende asintoticamente ad una distribuzione normale di media e varianza .

Il teorema è di fondamentale importanza perché non fa alcuna ipotesi sulla distribuzione delle variabili che compongono il campione (all’infuori del requisito dell’esistenza di media e varianza). Con riguardo alle misure ripetute di una stessa grandezza fisica esso ci dice che, se anche la loro distribuzione non segue la legge di Gauss, purché se ne abbia un numero sufficiente il nostro risultato finale (la media aritmetica) tuttavia la segue ugualmente in modo approssimato: così che l’errore della media conserva il consueto significato statistico (di semiampiezza dell’intervallo, centrato su , che contiene il valore vero con probabilità costante prefissata del 68%) anche se questo non è verificato per le singole misure.

Da notare che il teorema del limite centrale implica una convergenza asintoticamente normale del valore medio del campione al valore medio della popolazione delle misure; per attribuire a quest’ultimo, come si è fatto nell’ultima frase, il significato di valore vero della grandezza misurata, si sottintende che le misure abbiano distribuzione, ancorché di forma non specificata, simmetrica rispetto al valore vero ; insomma che errori per difetto e per eccesso siano ugualmente probabili.

Incidentalmente, notiamo qui come il prodotto di molte variabili casuali indipendenti debba avere un comportamento, indipendentemente dal tipo di distribuzione, asintoticamente tendente a quello di una distribuzione log-normale.