[p. 283 modifica ]
La funzione di verosimiglianza
Si supponga di aver compiuto
N
{\displaystyle N}
osservazioni indipendenti relative ad una grandezza fisica
x
{\displaystyle x}
, e di aver trovato i valori
x
i
{\displaystyle x_{i}}
, con
i
=
1
,
2
,
…
,
N
{\displaystyle i=1,2,\ldots ,N}
. Ciascuna delle variabili casuali
x
i
{\displaystyle x_{i}}
abbia poi densità di probabilità data da una funzione nota
f
i
(
x
i
;
θ
)
{\displaystyle f_{i}(x_{i};\theta )}
; funzione che supponiamo dipenda da un parametro
θ
{\displaystyle \theta }
di valore vero
θ
∗
{\displaystyle \theta ^{*}}
ignoto, e definita in un intervallo dell’asse reale delle
x
i
{\displaystyle x_{i}}
con estremi indipendenti da
θ
{\displaystyle \theta }
(che potremo assumere essere
±
∞
{\displaystyle \pm \infty }
ponendo eventualmente
f
i
(
x
i
;
θ
)
≡
0
{\displaystyle f_{i}(x_{i};\theta )\equiv 0}
esternamente all’intervallo di definizione).
Una stima di una generica funzione nota del parametro,
τ
(
θ
)
{\displaystyle \tau (\theta )}
, che supporremo con derivata non nulla, è una funzione dei soli valori osservati
t
(
x
1
,
x
2
,
…
,
x
N
)
{\displaystyle t(x_{1},x_{2},\ldots ,x_{N})}
; dunque a sua volta una variabile casuale, con associata una funzione densità di probabilità che indicheremo con
g
(
t
;
θ
)
{\displaystyle g(t;\theta )}
. La stima si dice imparziale (o indistorta ) quando il suo valore medio
E
(
t
)
{\displaystyle E(t)}
=
∫
−
∞
+
∞
t
g
(
t
;
θ
)
d
t
{\displaystyle =\int _{-\infty }^{+\infty }\,t\,g(t;\theta )\,\mathrm {d} t}
=
∫
−
∞
+
∞
d
x
1
f
1
(
x
1
;
θ
)
⋯
∫
−
∞
+
∞
d
x
N
f
N
(
x
N
;
θ
)
t
(
x
1
,
x
2
,
…
,
x
N
)
{\displaystyle =\int _{-\infty }^{+\infty }\,\mathrm {d} x_{1}\,f_{1}(x_{1};\theta )\cdots \int _{-\infty }^{+\infty }\,\mathrm {d} x_{N}\,f_{N}(x_{N};\theta )\,t(x_{1},x_{2},\ldots ,x_{N})}
è uguale al rispettivo valore vero:
E
(
t
)
=
τ
(
θ
)
{\displaystyle E(t)=\tau (\theta )}
.
Il caso particolare della stima del parametro stesso corrisponde alla funzione
τ
(
θ
)
=
θ
{\displaystyle \tau (\theta )=\theta }
, che soddisfa evidentemente alla richiesta di possedere derivata prima non nulla
τ
′
(
θ
)
=
1
{\displaystyle \tau '(\theta )=1}
. [p. 284 modifica ]
Una importante proprietà della stima
t
{\displaystyle t}
è la sua varianza, data (se essa è imparziale) da
σ
t
2
{\displaystyle {\sigma _{t}}^{2}}
=
∫
−
∞
+
∞
[
t
−
τ
(
θ
)
]
2
g
(
t
;
θ
)
d
t
{\displaystyle =\int _{-\infty }^{+\infty }\,{\bigl [}t-\tau (\theta ){\bigr ]}^{2}g(t;\theta )\,\mathrm {d} t}
=
∫
−
∞
+
∞
d
x
1
f
1
(
x
1
;
θ
)
⋯
∫
−
∞
+
∞
d
x
N
f
N
(
x
N
;
θ
)
[
t
(
x
1
,
x
2
,
…
,
x
N
)
τ
(
θ
)
]
2
{\displaystyle =\int _{-\infty }^{+\infty }\,\mathrm {d} x_{1}\,f_{1}(x_{1};\theta )\cdots \int _{-\infty }^{+\infty }\,\mathrm {d} x_{N}\,f_{N}(x_{N};\theta )\,{\bigl [}t(x_{1},x_{2},\ldots ,x_{N})\tau (\theta ){\bigr ]}^{2}}
perché la minima varianza sarà il nostro criterio di scelta fra diverse stime di
τ
(
θ
)
{\displaystyle \tau (\theta )}
.
Il teorema che segue (teorema di Cramér-Rao ) mostra che esiste un limite inferiore per la varianza di una stima. Osserviamo per prima cosa che la densità di probabilità per la
N
{\displaystyle N}
-pla
(
x
1
,
x
2
,
…
,
x
N
)
{\displaystyle (x_{1},x_{2},\ldots ,x_{N})}
risulta
∏
i
=
1
N
f
i
(
x
i
;
θ
∗
)
{\displaystyle \prod _{i=1}^{N}f_{i}(x_{i};\theta ^{*})}
per il teorema della probabilità composta; se in luogo del valore vero
θ
∗
{\displaystyle \theta ^{*}}
si pone il parametro variabile
θ
{\displaystyle \theta }
, si ottiene la funzione di verosimiglianza
L
(
x
1
,
x
2
,
…
,
x
N
;
θ
)
=
∏
i
=
1
N
f
i
(
x
i
;
θ
)
{\displaystyle {\mathcal {L}}(x_{1},x_{2},\ldots ,x_{N};\theta )=\prod _{i=1}^{N}f_{i}(x_{i};\theta )}
.
La condizione di normalizzazione di ciascuna
f
i
{\displaystyle f_{i}}
comporta che l’integrale della verosimiglianza su tutti i domini delle variabili
x
i
{\displaystyle x_{i}}
valga 1:
∫
−
∞
+
∞
d
x
1
∫
−
∞
+
∞
d
x
2
⋯
∫
−
∞
+
∞
d
x
N
L
(
x
1
,
x
2
,
…
,
x
N
;
θ
)
=
{\displaystyle \int _{-\infty }^{+\infty }\,\mathrm {d} x_{1}\int _{-\infty }^{+\infty }\,\mathrm {d} x_{2}\cdots \int _{-\infty }^{+\infty }\,\mathrm {d} x_{N}\,{\mathcal {L}}(x_{1},x_{2},\ldots ,x_{N};\theta )\;=}
=
∫
−
∞
+
∞
d
x
1
f
1
(
x
1
;
θ
)
∫
−
∞
+
∞
d
x
2
f
2
(
x
2
;
θ
)
⋯
∫
−
∞
+
∞
d
x
N
f
N
(
x
N
;
θ
)
{\displaystyle =\int _{-\infty }^{+\infty }\,\mathrm {d} x_{1}\,f_{1}(x_{1};\theta )\int _{-\infty }^{+\infty }\,\mathrm {d} x_{2}\,f_{2}(x_{2};\theta )\cdots \int _{-\infty }^{+\infty }\,\mathrm {d} x_{N}\,f_{N}(x_{N};\theta )}
=
∏
i
=
1
N
∫
−
∞
+
∞
d
x
i
f
i
(
x
i
;
θ
)
{\displaystyle =\prod _{i=1}^{N}\int _{-\infty }^{+\infty }\,\mathrm {d} x_{i}\,f_{i}(x_{i};\theta )}
≡
1
{\displaystyle \equiv \;1}
indipendentemente dal valore di
θ
{\displaystyle \theta }
. Derivando sotto il segno di integrale rispetto a
θ
{\displaystyle \theta }
, dato che i domini delle
f
i
(
x
i
;
θ
)
{\displaystyle f_{i}(x_{i};\theta )}
non dipendono da detta variabile si ottiene
∫
−
∞
+
∞
d
x
1
∫
−
∞
+
∞
d
x
2
⋯
∫
−
∞
+
∞
d
x
N
∂
L
∂
θ
=
0
{\displaystyle \int _{-\infty }^{+\infty }\,\mathrm {d} x_{1}\int _{-\infty }^{+\infty }\,\mathrm {d} x_{2}\cdots \int _{-\infty }^{+\infty }\,\mathrm {d} x_{N}\,{\frac {\partial {\mathcal {L}}}{\partial \theta }}=0}
[p. 285 modifica ]
da cui, dividendo e moltiplicando l’integrando per
L
{\displaystyle {\mathcal {L}}}
, risulta
∫
−
∞
+
∞
d
x
1
∫
−
∞
+
∞
d
x
2
{\displaystyle \int _{-\infty }^{+\infty }\,\mathrm {d} x_{1}\int _{-\infty }^{+\infty }\,\mathrm {d} x_{2}}
⋯
∫
−
∞
+
∞
d
x
N
L
(
1
L
∂
L
∂
θ
)
=
{\displaystyle \cdots \int _{-\infty }^{+\infty }\,\mathrm {d} x_{N}\,{\mathcal {L}}\left({\frac {1}{\mathcal {L}}}\,{\frac {\partial {\mathcal {L}}}{\partial \theta }}\right)\;=}
=
∫
−
∞
+
∞
d
x
1
∫
−
∞
+
∞
d
x
2
⋯
∫
−
∞
+
∞
d
x
N
L
∂
(
ln
L
)
∂
θ
{\displaystyle =\int _{-\infty }^{+\infty }\,\mathrm {d} x_{1}\int _{-\infty }^{+\infty }\,\mathrm {d} x_{2}\cdots \int _{-\infty }^{+\infty }\,\mathrm {d} x_{N}\,{\mathcal {L}}\,{\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}}
=
∫
−
∞
+
∞
d
x
1
f
1
(
x
1
;
θ
)
⋯
∫
−
∞
+
∞
d
x
N
f
N
(
x
N
;
θ
)
∂
(
ln
L
)
∂
θ
{\displaystyle =\;\int _{-\infty }^{+\infty }\,\mathrm {d} x_{1}\,f_{1}(x_{1};\theta )\cdots \int _{-\infty }^{+\infty }\,\mathrm {d} x_{N}f_{N}(x_{N};\theta )\,{\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}}
=
0
{\displaystyle =\;0}
ossia
Se
t
{\displaystyle t}
è imparziale
E
(
t
)
=
∫
−
∞
+
∞
d
x
1
⋯
∫
−
∞
+
∞
d
x
N
t
(
x
1
,
x
2
,
…
,
x
N
)
L
(
x
1
,
x
2
,
…
,
x
N
;
θ
)
=
τ
(
θ
)
{\displaystyle E(t)\;=\;\int _{-\infty }^{+\infty }\,\mathrm {d} x_{1}\cdots \int _{-\infty }^{+\infty }\,\mathrm {d} x_{N}\,t(x_{1},x_{2},\ldots ,x_{N})\,{\mathcal {L}}(x_{1},x_{2},\ldots ,x_{N};\theta )\;=\;\tau (\theta )}
da cui, derivando ambo i membri rispetto a
θ
{\displaystyle \theta }
,
∫
−
∞
+
∞
d
x
1
∫
−
∞
+
∞
d
x
2
⋯
∫
−
∞
+
∞
d
x
N
t
∂
L
∂
θ
=
τ
′
(
θ
)
{\displaystyle \int _{-\infty }^{+\infty }\,\mathrm {d} x_{1}\int _{-\infty }^{+\infty }\,\mathrm {d} x_{2}\cdots \int _{-\infty }^{+\infty }\,\mathrm {d} x_{N}\,t\,{\frac {\partial {\mathcal {L}}}{\partial \theta }}=\tau '(\theta )}
.
Dividendo e moltiplicando poi l’integrando per la verosimiglianza
L
{\displaystyle {\mathcal {L}}}
, risulta
∫
−
∞
+
∞
d
x
1
∫
−
∞
+
∞
d
x
2
{\displaystyle \int _{-\infty }^{+\infty }\,\mathrm {d} x_{1}\int _{-\infty }^{+\infty }\,\mathrm {d} x_{2}}
⋯
∫
−
∞
+
∞
d
x
N
t
∂
L
∂
θ
=
{\displaystyle \cdots \int _{-\infty }^{+\infty }\,\mathrm {d} x_{N}\,t\,{\frac {\partial {\mathcal {L}}}{\partial \theta }}\;=}
=
∫
−
∞
+
∞
d
x
1
⋯
∫
−
∞
+
∞
d
x
N
t
L
(
1
L
∂
L
∂
θ
)
{\displaystyle =\;\int _{-\infty }^{+\infty }\,\mathrm {d} x_{1}\cdots \int _{-\infty }^{+\infty }\,\mathrm {d} x_{N}\,t\,{\mathcal {L}}\left({\frac {1}{\mathcal {L}}}\,{\frac {\partial {\mathcal {L}}}{\partial \theta }}\right)}
=
∫
−
∞
+
∞
d
x
1
f
1
(
x
1
;
θ
)
⋯
∫
−
∞
+
∞
d
x
N
f
N
(
x
N
;
θ
)
t
∂
(
ln
L
)
∂
θ
{\displaystyle =\;\int _{-\infty }^{+\infty }\,\mathrm {d} x_{1}\,f_{1}(x_{1};\theta )\cdots \int _{-\infty }^{+\infty }\,\mathrm {d} x_{N}\,f_{N}(x_{N};\theta )\,t\,{\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}}
=
E
{
t
∂
(
ln
L
)
∂
θ
}
{\displaystyle =\;E\left\{t\,{\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\right\}}
e, in definitiva,
[p. 286 modifica ]
Infine, sottraendo membro a membro da questa equazione la precedente (E.1) moltiplicata per
τ
(
θ
)
{\displaystyle \tau (\theta )}
, si ottiene
E
{
t
∂
(
ln
L
)
∂
θ
}
−
τ
(
θ
)
⋅
E
{
∂
(
ln
L
)
∂
θ
}
=
τ
′
(
θ
)
{\displaystyle E\left\{t\,{\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\right\}-\tau (\theta )\cdot E\left\{{\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\right\}=\tau '(\theta )}
ovvero
E
{
[
t
−
τ
(
θ
)
]
⋅
∂
(
ln
L
)
∂
θ
}
=
τ
′
(
θ
)
{\displaystyle E\left\{{\bigl [}t-\tau (\theta ){\bigr ]}\cdot {\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\right\}=\tau '(\theta )}
.
Se ora si definiscono il rapporto
R
(
θ
)
=
E
{
[
t
−
τ
(
θ
)
]
⋅
∂
(
ln
L
)
∂
θ
}
E
{
[
∂
(
ln
L
)
∂
θ
]
2
}
=
τ
′
(
θ
)
E
{
[
∂
(
ln
L
)
∂
θ
]
2
}
{\displaystyle R(\theta )={\frac {E\left\{\left[t-\tau (\theta )\right]\cdot {\dfrac {\partial (\ln {\mathcal {L}})}{\partial \theta }}\right\}}{E\left\{\left[{\dfrac {\partial (\ln {\mathcal {L}})}{\partial \theta }}\right]^{2}\right\}}}={\frac {\tau '(\theta )}{E\left\{\left[{\dfrac {\partial (\ln {\mathcal {L}})}{\partial \theta }}\right]^{2}\right\}}}}
(che è una costante dipendente da
θ
{\displaystyle \theta }
; osserviamo anche che deve risultare
R
(
θ
)
≠
0
{\displaystyle R(\theta )\neq 0}
) e la variabile casuale
z
=
[
t
−
τ
(
θ
)
]
−
R
(
θ
)
∂
(
ln
L
)
∂
θ
{\displaystyle z=\left[t-\tau (\theta )\right]-R(\theta )\,{\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}}
il cui quadrato risulta essere
z
2
=
[
t
−
τ
(
θ
)
]
2
−
2
R
(
θ
)
⋅
[
t
−
τ
(
θ
)
]
∂
(
ln
L
)
∂
θ
+
R
2
(
θ
)
⋅
[
∂
(
ln
L
)
∂
θ
]
2
{\displaystyle z^{2}=\left[t-\tau (\theta )\right]^{2}-2\,R(\theta )\cdot \left[t-\tau (\theta )\right]{\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}+R^{2}(\theta )\cdot \left[{\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\right]^{2}}
prendendo il valore medio di
z
2
{\displaystyle z^{2}}
si ottiene
E
(
z
2
)
=
E
{
[
t
−
τ
(
θ
)
]
2
}
−
2
R
(
θ
)
⋅
E
{
[
t
−
τ
(
θ
)
]
⋅
∂
(
ln
L
)
∂
θ
}
+
{\displaystyle E(z^{2})\;=\;E\left\{{\bigl [}t-\tau (\theta ){\bigr ]}^{2}\right\}-2\,R(\theta )\cdot E\left\{{\bigl [}t-\tau (\theta ){\bigr ]}\cdot {\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\right\}+}
+
R
2
(
θ
)
⋅
E
{
[
∂
(
ln
L
)
∂
θ
]
2
}
{\displaystyle +\;R^{2}(\theta )\cdot E\left\{\left[{\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\right]^{2}\right\}}
ossia
E
(
z
2
)
=
σ
t
2
2
τ
′
(
θ
)
E
{
[
∂
(
ln
L
)
∂
θ
]
2
}
τ
′
(
θ
)
+
{\displaystyle E(z^{2})\;=\;{\sigma _{t}}^{2}2\,{\frac {\tau '(\theta )}{E\left\{\left[{\dfrac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\right]^{2}\right\}}}\,\tau '(\theta )+}
+
{
τ
′
(
θ
)
E
{
[
∂
(
ln
L
)
∂
θ
]
2
}
}
2
E
{
[
∂
(
ln
L
)
∂
θ
]
2
}
{\displaystyle +\;\left\{{\frac {\tau '(\theta )}{E\left\{\left[{\dfrac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\right]^{2}\right\}}}\right\}^{2}E\left\{\left[{\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\right]^{2}\right\}}
[p. 287 modifica ] ed infine
E
(
z
2
)
{\displaystyle E(z^{2})}
=
σ
t
2
−
2
[
τ
′
(
θ
)
]
2
E
{
[
∂
(
ln
L
)
∂
θ
]
2
}
+
[
τ
′
(
θ
)
]
2
E
{
[
∂
(
ln
L
)
∂
θ
]
2
}
{\displaystyle =\;{\sigma _{t}}^{2}-2{\frac {\left[\tau '(\theta )\right]^{2}}{E\left\{\left[{\dfrac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\right]^{2}\right\}}}+{\frac {\left[\tau '(\theta )\right]^{2}}{E\left\{\left[{\dfrac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\right]^{2}\right\}}}}
=
σ
t
2
−
[
τ
′
(
θ
)
]
2
E
{
[
∂
(
ln
L
)
∂
θ
]
2
}
{\displaystyle =\;{\sigma _{t}}^{2}-{\frac {\left[\tau '(\theta )\right]^{2}}{E\left\{\left[{\dfrac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\right]^{2}\right\}}}}
.
Ma il valore medio del quadrato di una qualsiasi variabile casuale non può essere negativo, e dunque
0
≤
E
(
z
2
)
=
σ
t
2
−
[
τ
′
(
θ
)
]
2
E
{
[
∂
(
ln
L
)
∂
θ
]
2
}
{\displaystyle 0\;\leq \;E(z^{2})\;=\;{\sigma _{t}}^{2}-{\frac {\left[\tau '(\theta )\right]^{2}}{E\left\{\left[{\dfrac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\right]^{2}\right\}}}}
ed infine
σ
t
2
≥
[
τ
′
(
θ
)
]
2
E
{
[
∂
(
ln
L
)
∂
θ
]
2
}
=
[
τ
′
(
θ
)
]
2
R
(
θ
)
τ
′
(
θ
)
=
τ
′
(
θ
)
⋅
R
(
θ
)
{\displaystyle {\sigma _{t}}^{2}\geq {\frac {\left[\tau '(\theta )\right]^{2}}{E\left\{\left[{\dfrac {\partial (\ln {\mathcal {L}})}{\partial \theta }}\right]^{2}\right\}}}=\left[\tau '(\theta )\right]^{2}\,{\frac {R(\theta )}{\tau '(\theta )}}=\tau '(\theta )\cdot R(\theta )}
cioè:
Nessuna funzione dei valori osservati
t
(
x
1
,
x
2
,
…
,
x
N
)
{\displaystyle t(x_{1},x_{2},\ldots ,x_{N})}
, che sia stima imparziale di una funzione del parametro
τ
(
θ
)
{\displaystyle \tau (\theta )}
, può avere varianza inferiore ad un limite determinato.
La varianza minima si raggiunge se e soltanto se
E
(
z
2
)
{\displaystyle E(z^{2})}
è nullo, il che è possibile solo se
z
{\displaystyle z}
è nulla ovunque, cioè se
z
=
t
−
τ
(
θ
)
−
R
(
θ
)
∂
(
ln
L
)
∂
θ
≡
0
{\displaystyle z\;=\;t-\tau (\theta )-R(\theta )\,{\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\;\equiv \;0}
o, altrimenti detto, se la derivata logaritmica della verosimiglianza è proporzionale alla variabile casuale
t
−
τ
(
θ
)
{\displaystyle t-\tau (\theta )}
:
[p. 288 modifica ]
Nel caso particolare che tutte le
x
i
{\displaystyle x_{i}}
provengano dalla stessa popolazione, e che quindi abbiano la stessa densità di probabilità
f
(
x
;
θ
)
{\displaystyle f(x;\theta )}
,
∂
(
ln
L
)
∂
θ
=
∂
∂
θ
∑
i
=
1
N
ln
f
(
x
i
;
θ
)
=
∑
i
=
1
N
∂
∂
θ
ln
f
(
x
i
;
θ
)
{\displaystyle {\frac {\partial (\ln {\mathcal {L}})}{\partial \theta }}\;=\;{\frac {\partial }{\partial \theta }}\sum _{i=1}^{N}\ln f(x_{i};\theta )\;=\;\sum _{i=1}^{N}{\frac {\partial }{\partial \theta }}\ln f(x_{i};\theta )}
E
{
∂
(
ln
L
)
∂
θ
}
=
∑
i
=
1
N
E
{
∂
∂
θ
ln
f
(
x
i
;
θ
)
}
=
N
⋅
E
{
∂
∂
θ
ln
f
(
x
;
θ
)
}
{\displaystyle E\left\{{\frac {\partial (\ln {\mathcal {L}})}{\partial \theta }}\right\}\;=\;\sum _{i=1}^{N}E\left\{{\frac {\partial }{\partial \theta }}\ln f(x_{i};\theta )\right\}\;=\;N\cdot E\left\{{\frac {\partial }{\partial \theta }}\ln f(x;\theta )\right\}}
e, tenuto conto della (E.1) , questo implica che
Ora
E
{
[
∂
(
ln
L
)
∂
θ
]
2
}
=
E
{
[
∑
i
=
1
N
∂
∂
θ
ln
f
(
x
i
;
θ
)
]
[
∑
k
=
1
N
∂
∂
θ
ln
f
(
x
k
;
θ
)
]
}
{\displaystyle E\left\{\left[{\frac {\partial (\ln {\mathcal {L}})}{\partial \theta }}\right]^{2}\right\}=E\left\{\left[\sum _{i=1}^{N}{\frac {\partial }{\partial \theta }}\ln f(x_{i};\theta )\right]\left[\sum _{k=1}^{N}{\frac {\partial }{\partial \theta }}\ln f(x_{k};\theta )\right]\right\}}
=
∑
i
=
1
N
E
{
[
∂
∂
θ
ln
f
(
x
i
;
θ
)
]
2
}
+
∑
i
,
k
i
≠
k
E
{
∂
∂
θ
ln
f
(
x
i
;
θ
)
⋅
∂
∂
θ
ln
f
(
x
k
;
θ
)
}
{\displaystyle =\sum _{i=1}^{N}E\left\{\left[{\frac {\partial }{\partial \theta }}\ln f(x_{i};\theta )\right]^{2}\right\}+\sum _{\begin{array}{c}i,k\\i\neq k\end{array}}E\left\{{\frac {\partial }{\partial \theta }}\ln f(x_{i};\theta )\cdot {\frac {\partial }{\partial \theta }}\ln f(x_{k};\theta )\right\}}
=
N
⋅
E
{
[
∂
∂
θ
ln
f
(
x
;
θ
)
]
2
}
+
∑
i
,
k
i
≠
k
E
{
∂
∂
θ
ln
f
(
x
i
;
θ
)
}
⋅
E
{
∂
∂
θ
ln
f
(
x
k
;
θ
)
}
{\displaystyle =N\cdot E\left\{\left[{\frac {\partial }{\partial \theta }}\ln f(x;\theta )\right]^{2}\right\}+\sum _{\begin{array}{c}i,k\\i\neq k\end{array}}E\left\{{\frac {\partial }{\partial \theta }}\ln f(x_{i};\theta )\right\}\cdot E\left\{{\frac {\partial }{\partial \theta }}\ln f(x_{k};\theta )\right\}}
(tenendo conto del fatto che le
x
i
{\displaystyle x_{i}}
sono indipendenti); l’ultimo termine si annulla in conseguenza della (E.3) , ed infine, in questo caso, il minorante della varianza della stima si può scrivere
Col metodo della massima verosimiglianza si assume, come stima del valore vero
θ
∗
{\displaystyle \theta ^{*}}
del parametro
θ
{\displaystyle \theta }
, quel valore
θ
^
{\displaystyle {\widehat {\theta }}}
che rende massima la verosimiglianza
L
{\displaystyle {\mathcal {L}}}
per i valori osservati delle variabili,
x
1
,
x
2
,
…
,
x
N
{\displaystyle x_{1},x_{2},\ldots ,x_{N}}
.
Ora, nel caso esista una stima di minima varianza
t
{\displaystyle t}
per la funzione
τ
(
θ
)
{\displaystyle \tau (\theta )}
, tenendo conto della (E.2) la condizione perché la funzione di verosimiglianza abbia un estremante diviene
∂
(
ln
L
)
∂
θ
=
t
−
τ
(
θ
)
R
(
θ
)
=
0
{\displaystyle {\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \theta }}\;=\;{\frac {t-\tau (\theta )}{R(\theta )}}\;=\;0}
[p. 289 modifica ]
e le soluzioni
θ
^
{\displaystyle {\widehat {\theta }}}
sono tutte e sole quelle dell’equazione
τ
(
θ
)
=
t
(
x
1
,
x
2
,
…
,
x
N
)
{\displaystyle \tau (\theta )=t(x_{1},x_{2},\ldots ,x_{N})}
.
La derivata seconda di
ln
L
{\displaystyle \ln {\mathcal {L}}}
è in tal caso
∂
2
(
ln
L
)
∂
θ
2
{\displaystyle {\frac {\partial ^{2}\left(\ln {\mathcal {L}}\right)}{\partial \theta ^{2}}}}
=
−
τ
′
(
θ
)
⋅
R
(
θ
)
+
R
′
(
θ
)
⋅
[
t
−
τ
(
θ
)
]
R
2
(
θ
)
{\displaystyle =-\,{\frac {\tau '(\theta )\cdot R(\theta )+R'(\theta )\cdot \left[t-\tau (\theta )\right]}{R^{2}(\theta )}}}
=
−
σ
t
2
+
R
′
(
θ
)
⋅
[
t
−
τ
(
θ
)
]
R
2
(
θ
)
{\displaystyle =-\,{\frac {{\sigma _{t}}^{2}+R'(\theta )\cdot \left[t-\tau (\theta )\right]}{R^{2}(\theta )}}}
ma se
θ
=
θ
^
{\displaystyle \theta ={\widehat {\theta }}}
è anche
t
−
τ
(
θ
^
)
=
0
{\displaystyle t-\tau {\bigl (}{\widehat {\theta }}\,{\bigr )}=0}
e risulta
[
∂
2
(
ln
L
)
∂
θ
2
]
θ
=
θ
^
=
−
σ
t
2
R
2
(
θ
^
)
<
0
{\displaystyle \left[{\frac {\partial ^{2}\left(\ln {\mathcal {L}}\right)}{\partial \theta ^{2}}}\right]_{\theta ={\widehat {\theta }}}\;=\;-\,{\frac {{\sigma _{t}}^{2}}{R^{2}{\bigl (}{\widehat {\theta }}\,{\bigr )}}}\;<\;0}
;
cioè per tutte le soluzioni
θ
=
θ
^
{\displaystyle \theta ={\widehat {\theta }}}
la verosimiglianza è massima .
Ora, se la funzione
ln
L
{\displaystyle \ln {\mathcal {L}}}
è regolare, tra due massimi deve esistere un minimo; dato che non esistono minimi, ne consegue che il massimo è unico ed in corrispondenza al valore della funzione
τ
−
1
{\displaystyle \tau ^{-1}}
inversa di
τ
(
θ
)
{\displaystyle \tau (\theta )}
e calcolata in
t
(
x
1
,
x
2
,
…
,
x
N
)
{\displaystyle t(x_{1},x_{2},\ldots ,x_{N})}
:
θ
^
=
τ
−
1
[
t
(
x
1
,
x
2
,
…
,
x
N
)
]
{\displaystyle {\widehat {\theta }}\;=\;\tau ^{-1}\left[t(x_{1},x_{2},\ldots ,x_{N})\right]}
.
La statistica
t
(
x
1
,
x
2
,
…
,
x
N
)
{\displaystyle t(x_{1},x_{2},\ldots ,x_{N})}
(come viene anche indicata una funzione dei dati) di minima varianza è un caso particolare di statistica sufficiente per il parametro
θ
{\displaystyle \theta }
, come è chiamata una funzione dei valori osservati, se esiste, che riassume in sé tutta l’informazione che i dati possono fornire sul valore del parametro.
Se
x
1
,
x
2
,
…
,
x
N
{\displaystyle x_{1},x_{2},\ldots ,x_{N}}
sono i valori osservati di
N
{\displaystyle N}
variabili casuali normali con lo stesso valore medio
λ
{\displaystyle \lambda }
e varianze rispettive
σ
i
{\displaystyle \sigma _{i}}
supposte note, la verosimiglianza è
L
=
∏
i
=
1
N
1
σ
i
2
π
e
−
1
2
(
x
i
−
λ
σ
i
)
2
{\displaystyle {\mathcal {L}}\;=\;\prod _{i=1}^{N}{\frac {1}{\sigma _{i}\,{\sqrt {2\pi }}}}\,e^{\textstyle -{\frac {1}{2}}{\bigl (}{\frac {x_{i}-\lambda }{\sigma _{i}}}{\bigr )}^{2}}}
il suo logaritmo
ln
L
=
−
1
2
∑
i
=
1
N
(
x
i
−
λ
)
2
σ
i
2
−
∑
i
=
1
N
ln
(
σ
i
2
π
)
{\displaystyle \ln {\mathcal {L}}\;=\;-\,{\frac {1}{2}}\sum _{i=1}^{N}{\frac {\left(x_{i}-\lambda \right)^{2}}{{\sigma _{i}}^{2}}}\,-\,\sum _{i=1}^{N}\ln \left(\sigma _{i}\,{\sqrt {2\pi }}\right)}
[p. 290 modifica ]
e la sua derivata rispetto al parametro
λ
{\displaystyle \lambda }
∂
(
ln
L
)
∂
λ
=
∑
i
=
1
N
x
i
−
λ
σ
i
2
=
(
∑
i
1
σ
i
2
)
(
∑
i
x
i
σ
i
2
∑
i
1
σ
i
2
−
λ
)
{\displaystyle {\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \lambda }}\;=\;\sum _{i=1}^{N}{\frac {x_{i}-\lambda }{{\sigma _{i}}^{2}}}\;=\;\left(\sum \nolimits _{i}{\frac {1}{{\sigma _{i}}^{2}}}\right)\left({\frac {\displaystyle \sum \nolimits _{i}{\frac {x_{i}}{{\sigma _{i}}^{2}}}}{\displaystyle {\sum \nolimits _{i}{\frac {1}{{\sigma _{i}}^{2}}}}}}\,-\lambda \right)}
.
Pertanto la media dei dati, pesati con coefficienti inversamente proporzionali alle varianze, è una stima di minima varianza per
λ
{\displaystyle \lambda }
. Se le
N
{\displaystyle N}
varianze sono poi tutte uguali tra loro e di valore
σ
2
{\displaystyle \sigma ^{2}}
, risulta
∂
(
ln
L
)
∂
λ
=
1
σ
2
[
(
∑
i
=
1
N
x
i
)
−
N
λ
]
=
N
σ
2
(
x
¯
−
λ
)
=
x
¯
−
λ
R
{\displaystyle {\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \lambda }}\;=\;{\frac {1}{\sigma ^{2}}}\left[\left(\,\sum _{i=1}^{N}x_{i}\right)-N\lambda \right]\;=\;{\frac {N}{\sigma ^{2}}}\left({\bar {x}}-\lambda \right)\;=\;{\frac {{\bar {x}}-\lambda }{R}}}
ed in tal caso la media aritmetica del campione è una stima di minima varianza per
λ
{\displaystyle \lambda }
. Sempre in tal caso è poi
R
(
λ
)
≡
R
=
σ
2
N
{\displaystyle R(\lambda )\;\equiv \;R\;=\;{\frac {\sigma ^{2}}{N}}}
con
τ
(
λ
)
≡
λ
{\displaystyle \tau (\lambda )\equiv \lambda }
e
τ
′
(
λ
)
=
1
{\displaystyle \tau '(\lambda )\;=\;1}
dunque
Var
(
x
¯
)
=
τ
′
R
=
σ
2
N
{\displaystyle {\text{Var}}({\bar {x}})\;=\;\tau '\,R\;=\;{\frac {\sigma ^{2}}{N}}}
come d’altra parte già si sapeva.
Qui la media del campione è un esempio di statistica sufficiente per
λ
{\displaystyle \lambda }
; infatti non ha alcuna importanza quali siano i singoli valori
x
i
{\displaystyle x_{i}}
: ma se le medie di due diversi campioni sono uguali, le conclusioni che si possono trarre sul valore di
λ
{\displaystyle \lambda }
sono le medesime.
Supponendo di conoscere il valore medio
λ
{\displaystyle \lambda }
, la stima della varianza
σ
2
{\displaystyle \sigma ^{2}}
si ottiene cercando lo zero della derivata logaritmica
∂
(
ln
L
)
∂
σ
=
1
σ
3
[
∑
i
=
1
N
(
x
i
−
λ
)
2
]
−
N
σ
=
N
σ
3
{
[
1
N
∑
i
=
1
N
(
x
i
−
λ
)
2
]
−
σ
2
}
{\displaystyle {\frac {\partial \left(\ln {\mathcal {L}}\right)}{\partial \sigma }}\;=\;{\frac {1}{\sigma ^{3}}}\left[\,\sum _{i=1}^{N}(x_{i}-\lambda )^{2}\right]-{\frac {N}{\sigma }}\;=\;{\frac {N}{\sigma ^{3}}}\,\left\{\left[{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-\lambda )^{2}\right]-\sigma ^{2}\right\}}
la quale ha la forma richiesta perché la soluzione
σ
^
2
=
1
N
∑
i
=
1
N
(
x
i
−
λ
)
2
{\displaystyle {\widehat {\sigma }}^{2}={\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-\lambda )^{2}}
[p. 291 modifica ]
sia una stima di
σ
2
{\displaystyle \sigma ^{2}}
con minima varianza, data da
Var
{
1
N
∑
i
=
1
N
(
x
i
−
λ
)
2
}
=
τ
′
R
=
2
σ
σ
3
N
=
2
σ
4
N
{\displaystyle {\text{Var}}\left\{{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-\lambda )^{2}\right\}=\tau 'R\;=\;2\,\sigma \,{\frac {\sigma ^{3}}{N}}\;=\;{\frac {2\sigma ^{4}}{N}}}
essendo
R
(
σ
)
=
σ
3
/
N
{\displaystyle R(\sigma )=\sigma ^{3}/N}
,
τ
(
σ
)
=
σ
2
{\displaystyle \tau (\sigma )=\sigma ^{2}}
e
τ
′
(
σ
)
=
2
σ
{\displaystyle \tau '(\sigma )=2\sigma }
: questo risultato è lo stesso trovato nell’appendice B .
Il valore di
λ
{\displaystyle \lambda }
tuttavia non è generalmente noto, e l’uso della media aritmetica del campione
x
¯
{\displaystyle {\bar {x}}}
comporta una distorsione che si corregge, come si è visto, ponendo
N
−
1
{\displaystyle N-1}
in luogo di
N
{\displaystyle N}
.