Teoria degli errori e fondamenti di statistica/C.2

C.2 La correlazione lineare

../C.1 ../C.3 IncludiIntestazione 3 settembre 2022 100% Da definire

C.1 C.3

[p. 259 modifica]

C.2 La correlazione lineare

Per due variabili casuali qualunque si definisce poi il coefficiente di correlazione lineare (anche indicato col simbolo , o semplicemente come ) nel modo seguente:

.

Il coefficiente di correlazione di due variabili è ovviamente adimensionale; è nullo quando le variabili stesse sono statisticamente indipendenti (visto che è zero la loro covarianza); ed è comunque compreso tra i due limiti e . Che valga quest’ultima proprietà si può dimostrare calcolando dapprima la varianza di una variabile casuale ausiliaria definita attraverso la relazione , ed osservando che essa deve essere una quantità non negativa:

;

da cui

.

Poi, compiendo analoghi passaggi su un’altra variabile definita stavolta come , si troverebbe che deve essere anche .

Se il coefficiente di correlazione lineare raggiunge uno dei due valori estremi , risulta ; e dunque deve essere

cioè ed devono essere legati da una relazione funzionale di tipo lineare. [p. 260 modifica]

Vale anche l’inverso: partendo infatti dall’ipotesi che le due variabili siano legate da una relazione lineare data da , con finito e non nullo, ne consegue che:

.

Il segno del coefficiente di correlazione è quello del coefficiente angolare della retta. Sono da notare due cose: innanzi tutto il rapporto perde significato quando o quando , cioè quando la retta è parallela ad uno degli assi coordinati: in questi casi ( costante o costante) una delle due grandezze non è in realtà una variabile casuale, e l’altra è dunque indipendente da essa; è facile vedere che tanto il coefficiente di correlazione tra e quanto la covarianza valgono zero, essendo in questo caso.

Anche quando esiste una relazione funzionale esatta tra e , se questa non è rappresentata da una funzione lineare il coefficiente di correlazione non raggiunge i valori estremi ; per questa ragione appunto esso si chiama più propriamente “coefficiente di correlazione lineare”.