Covarianza

La covarianza è una misura statistica che descrive il grado di variazione simultanea tra due variabili $ X $ e $ Y $. Per \(n\) coppie di dati \((X_i, Y_i)\), la covarianza \( \text{Cov}(X, Y) \) è calcolata come: $$ \text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (X_i - \overline{X})(Y_i - \overline{Y}) $$ Dve \( \overline{X} \) e \( \overline{Y} \) sono le medie delle variabili \( X \) e \( Y \).

La covarianza restituisce un valore assoluto che indica la relazione lineare tra le due variabili:

  • Se la covarianza è positiva, significa che, in media, quando una delle variabili aumenta, anche l’altra tende ad aumentare.
  • Se la covarianza è negativa, indica che, quando una delle variabili aumenta, l’altra tende a diminuire.

Infine, una covarianza di zero indica che non vi è alcuna relazione lineare tra le due variabili, ma questo non implica necessariamente indipendenza.

Relazione tra covarianza e correlazione. La covarianza misura la relazione in termini assoluti tra due variabili, fornisce solo informazioni su come due variabili si muovono insieme, ma dipende dalle unità di misura delle variabili e non dice nulla sull'intensità, né posso usarla per fare confronti. La correlazione va oltre, indica sia la forza che la direzione della relazione delle variabili statistiche. Ad esempio, la covarianza è utilizzata nel coefficiente di Pearson per misurare la correlazione su una scala tra -1 e 1. Quindi, la correlazione è una versione normalizzata della covarianza.

Un esempio pratico

Devo calcolare la covarianza tra due variabili: il numero di ore di studio ( X ) e i voti di un gruppo di studenti ( Y ).

Studente Ore di studio (X) Voto (Y)
A 2 65
B 4 70
C 6 80
D 8 85
E 10 90

Per prima cosa calcolo le medie di \( X \) e \( Y \)

$$ \overline{X} = \frac{2 + 4 + 6 + 8 + 10}{5} = 6 $$

$$ \overline{Y} = \frac{65 + 70 + 80 + 85 + 90}{5} = 78 $$

Una volta note le medie, posso calcolare la covarianza tra X e Y

$$ \text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (X_i - \overline{X})(Y_i - \overline{Y}) $$

$$ \text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (X_i - 6)(Y_i - 78) $$

Poi calcoliamo i prodotti delle differenze rispetto alle medie

Facendo i calcoli per ciascun elemento della sommatoria:

  • Studente A: \((2 - 6)(65 - 78) = (-4)(-13) = 52\)
  • Studente B: \((4 - 6)(70 - 78) = (-2)(-8) = 16\)
  • Studente C: \((6 - 6)(80 - 78) = (0)(2) = 0\)
  • Studente D: \((8 - 6)(85 - 78) = (2)(7) = 14\)
  • Studente E: \((10 - 6)(90 - 78) = (4)(12) = 48\)

Quindi la covarianza è la seguente:

$$ \text{Cov}(X, Y) = \frac{52 + 16 + 0 + 14 + 48}{5} $$

$$ \text{Cov}(X, Y) = \frac{130}{5}  $$

$$ \text{Cov}(X, Y) = 26 $$

In questo caso, la covarianza tra le ore di studio e i voti è 26.

Si tratta di un valore assoluto positivo. Questo indica una relazione positiva tra le due variabili.

In altre parole, quando aumentano le ore di studio, aumentano anche i voti.

il grafico

La covarianza nulla non implica indipendenza

La covarianza misura solo la relazione lineare tra due variabili.

Se la covarianza è zero, significa che non c’è una relazione lineare tra le variabili, ma potrebbero comunque esistere altre forme di dipendenza non lineare.

In altre parole, due variabili possono essere correlate in modo complesso, ad esempio secondo una relazione quadratica o esponenziale, e questo tipo di dipendenza non sarebbe rilevato dalla covarianza.

Esempio. Un esempio classico è quello di due variabili \( X \) e \( Y = X^2 \), dove \( X \) è una variabile centrata rispetto alla sua media (cioè, ha media zero). In questo caso, \( X \) e \( Y \) sono dipendenti perché la conoscenza di \( X \) mi permette di determinare \( Y \)), ma la loro covarianza è zero perché la relazione non è lineare.

La differenza tra covarianza e correlazione

La covarianza e la correlazione non sono esattamente la stessa cosa

  • La covarianza misura la relazione in termini assoluti e dipende dalle unità di misura delle variabili.
  • La correlazione misura la relazione in termini relativi ed è un valore standardizzato che mi permette di fare anche confronti diretti.

Quindi, mentre la covarianza fornisce informazioni su come due variabili si muovono insieme in termini assoluti, la correlazione standardizza questo movimento, rendendo possibile un confronto indipendentemente dalle unità di misura delle variabili.

Come si misura la correlazione?

La covarianza fornisce alcune informazioni ma non è molto utile come indicatore della correlazione.

Per misurare la correlazione devo utilizzare altri strumenti statistici come il coefficiente di Person.

Ad esempio, nel coefficiente di Pearson la formula della correlazione \( \rho(X, Y) \) tra due variabili \( X \) e \( Y \) è data da:

$$ \rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} $$

Dove \( \text{Cov}(X, Y) \) è la covarianza tra \( X \) e \( Y \), mentre \( \sigma_X \) e \( \sigma_Y \) sono le deviazioni standard di \( X \) e \( Y \).

A differenza della covarianza, il coefficiente di Pearson varia tra -1 e 1.

  • \( \rho(X, Y) = 1 \): indica una correlazione perfettamente positiva; le variabili si muovono insieme in modo proporzionale.
  • \( \rho(X, Y) = -1 \): indica una correlazione perfettamente negativa; le variabili si muovono in direzioni opposte in modo proporzionale.
  • \( \rho(X, Y) = 0 \): indica assenza di relazione lineare (ma non esclude dipendenze non lineari).

Poiché è una misura normalizzata, la correlazione è invariante rispetto a trasformazioni di scala sulle variabili, come moltiplicazioni e traslazioni.

Inoltre, è particolarmente utile per confrontare relazioni tra variabili con unità di misura diverse.

E così via.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Indipendenza statistica