Teoria degli errori e fondamenti di statistica/11.2
Questo testo è stato riletto e controllato. |
◄ | 11.1 | 11.2.1 | ► |
11.2 La stima di massima verosimiglianza
Dato un campione di N determinazioni indipendenti , l’espressione
rappresenta la densità di probabilità da associare all’evento casuale consistente nell’ottenere una determinata N-pla di valori, essendo il valore del parametro da cui la f dipende.
Se in questa espressione si sostituisce al valore vero (che avevamo supposto noto) il generico valore ; e se le non vengono considerate più variabili casuali, ma costanti che sono state determinate dalle nostre operazioni di misura, la funzione
(11.1) |
(funzione di verosimiglianza) rappresenta la densità di probabilità da associare all’evento casuale consistente nell’essere un certo il valore vero del nostro parametro, nell’ipotesi di avere già ottenuto la particolare N-pla di valori sperimentali .
Il metodo della massima verosimiglianza consiste nell’adottare, come stima del parametro , quel valore che rende massima la funzione di verosimiglianza (11.1); ovvero la soluzione delle
(11.2) |
(nel caso che le (11.2) abbiano più di una soluzione, si sceglie quella che corrisponde al massimo assoluto).
Visto che il logaritmo naturale è (essendo la base, , maggiore di uno) una funzione monotona strettamente crescente dell’argomento, trovare il massimo di condurrebbe ancora a tutti e soli i valori che rendono massima ; questo corrisponde al sostituire (essendo ), alla prima delle (11.2), l’equivalente
.
Enunciamo qui, senza dimostrarle, alcune proprietà fondamentali della stima di massima verosimiglianza:
- La stima di massima verosimiglianza è una stima asintoticamente consistente al crescere della dimensione del campione.
- La stima di massima verosimiglianza ha una densità di probabilità asintoticamente normale al crescere della dimensione del campione.
- La stima di massima verosimiglianza è asintoticamente, al crescere della dimensione del campione, anche la stima più efficiente possibile (ossia quella di minima varianza).
- Se esiste una stima sufficiente di , essa può sempre essere espressa come funzione della sola stima di massima verosimiglianza .
Le ipotesi sotto le quali si riesce a dimostrare che la stima di massima verosimiglianza gode asintoticamente delle proprietà su dette sono estremamente generali: per la normalità basta che esistano i primi due momenti della ; per la consistenza e la massima efficienza basta che sia continua, dotata di derivata prima e seconda rispetto al parametro, e che l’operazione di integrazione rispetto a commuti con quella di derivazione rispetto a (ovvero, in pratica, che il dominio di definizione della non dipenda dal parametro).
Il teorema di Cramér-Rao (cui si è prima accennato) permette di dimostrare, sotto ipotesi del tutto generali, che esiste un estremo inferiore per le varianze delle stime imparziali di una qualsiasi grandezza dipendente dal parametro ; non solo, ma che, se una stima di varianza minima esiste, essa rende massima la funzione ai verosimiglianza.
Più in dettaglio: nell’ipotesi che la densità di probabilità sia una funzione definita in una regione dell’asse x avente estremi indipendenti dal parametro ; che esista ovunque la derivata rispetto a di ; e, infine, che esista finito il valore medio del quadrato di questa derivata
il teorema di Cramér-Rao afferma che una qualsiasi stima imparziale di ha una varianza che non può essere inferiore ad un valore (limite di Cramér-Rao) dato dalla
. | (11.3) |
Inoltre questo estremo inferiore viene raggiunto, e vale il segno di uguaglianza nella (11.3), se e solo se esiste una funzione per la quale risulti
(11.4) |
e, in tal caso, la stima di minima varianza rende anche massima la funzione di verosimiglianza.
La condizione (11.4) è assai restrittiva, potendosi tra l’altro dimostrare che essa implica che la densità di probabilità deve essere una funzione di tipo esponenziale: nel caso generale non è quindi affatto certo che una stima di varianza minima esista, essendo questo subordinato alla validità della (11.4).
In ogni caso la stima di massima verosimiglianza deve, come prima detto, tendere asintoticamente a questo comportamento al crescere di N; però nulla si può dire sulla rapidità di tale convergenza. Così, per un numero di misure finito, non c’è alcuna garanzia che la funzione di verosimiglianza abbia un solo massimo; e, se essa ne ammette più d’uno, non esiste modo di sapere quale di essi corrisponde (asintoticamente) alla stima di minima varianza, né esiste modo di sapere quale di questi massimi rappresenti la stima corretta del valore vero.
Come abbiamo detto, la funzione di verosimiglianza (11.1) può essere interpretata come densità di probabilità del parametro una volta che si sia ottenuto un certo insieme di valori misurati; sfruttando la seconda delle proprietà su elencate, la densità di probabilità di deve anche essere (asintoticamente) data da
quindi, nell’intorno di , deve essere
e, derivando due volte rispetto al parametro,
ed infine si giunge alla
(11.5) |
frequentemente usata per il calcolo dell’errore della stima di massima verosimiglianza.