Il coefficiente di variazione
Il coefficiente di variazione (CV) misura la variabilità relativa di una distribuzione in termini percentuali tramite il rapporto tra lo scarto quadratico medio (devianza standard) e la media. $$ CV = \frac{ \sigma }{ \mu } = \frac{ \frac{1}{n} \sqrt{ (x_u-\mu)^2 } }{\mu}$$
A cosa serve?
Il coefficiente di variazione è un numero puro (privo di dimensione) che mi permette di confrontare la variabilità tra le distribuzioni di distribuzioni di dati.
Se il valore del CV è alto, significa che la distribuzione ha un'elevata variabilità rispetto alla media.
Ad esempio, posso usarlo per stabilire la variabilità di un fenomeno tra due gruppi di persone.
Nota. Il coefficiente di variazione non è espresso in alcuna unità di misura. Quindi, mi permette di confrontare la variabilità di due distribuzioni su fenomeni. Ad esempio, se confrontassi gli scarti quadratici medi (deviazioni standard) di due andamenti dei prezzi senza considerare la media aritmetica (μ), sarei indotto a ritenere che quello con la devianza standard σ maggiore (A) sia più variabile.
μ | σ | |
---|---|---|
New York (A) | 4,75 | 2,24 |
Los Angeles (B) | 3,95 | 2,01 |
In realtà, questo non è detto. Per un confronto corretto dovrei considerare la variabilità rispetto al valore medio. Il rapporto tra la deviazione standard e la media (σ/μ) offre un confronto migliore perché è un numero puro e può essere espresso anche in percentuale. Quindi, è l'andamento dei prezzi con coefficiente di variazione maggiore (B) ad avere maggiore variabilità.
μ | σ | σ/μ | σ/μ (%) | |
---|---|---|---|---|
New York (A) | 4,75 | 2,24 | 0.47 | 47% |
Los Angeles (B) | 3,95 | 2,01 | 0.51 | 51% |
In questo esempio ho utilizzato il coefficiente di variazione per confrontare due fenomeni omogenei, ossia con la stessa natura e unità di misura. Tuttavia, essendo un numero puro, il coefficiente di variazione è utile anche per confrontare fenomeni con unità di misura diverse. Ad esempio, mi permette di confrontare la variabilità dei prezzi dei prodotti agroalimentari (in euro) e quella della temperatura (in gradi Celsius) in un paese.
Un esempio pratico
Ho due distribuzioni X e Y che misurano i voti di due gruppi di studenti.
La distribuzione X ha una media aritmetica dei voti pari a 24
$$ \mu_X = \frac{21+23+24+21+27+28}{6} = \frac{144}{6} = 24 $$
La distribuzione Y ha una media aritmetica dei voti pari a 27
$$ \mu_X = \frac{25+27+28+28}{4} = \frac{108}{4} = 27 $$
A questo punto calcolo lo scarto quadratico medio (deviazNotaione standard) per entrambe le distribuzioni.
La distribuzione X ha uno scarto quadratico medio rispetto alla media dei voti pari a circa 2,7080
$$ \sigma_x = \sqrt{ \frac{1}{6} \cdot [ (21- 24)^2 + (23- 24)^2 + (24- 24)^2 + (21- 24)^2 + (27- 24)^2 + (28- 24)^2 ] } $$
$$ \sigma_x = \sqrt{ \frac{1}{6} \cdot [ (-3)^2 + (-1)^2 + (0)^2 + (-3)^2 + (3)^2 + (4)^2 ] } $$
$$ \sigma_x = \sqrt{ \frac{1}{6} \cdot ( 9 + 1 + 0 + 9 + 9 + 16 ) } $$
$$ \sigma_x = \sqrt{ \frac{1}{6} \cdot 44 } $$
$$ \sigma_x = \sqrt{ 7,33333 } $$
$$ \sigma_x =2,7080 $$
La distribuzione Y ha uno scarto quadratico medio rispetto alla media dei voti pari a circa 1,2247
$$ \sigma_y = \sqrt{ \frac{1}{4} \cdot [ (25- 27)^2 + (27- 27)^2 + (28- 27)^2 + (28- 27)^2 ] } $$
$$ \sigma_y = \sqrt{ \frac{1}{4} \cdot [ (2)^2 + (0)^2 + (1)^2 + (1)^2 ] } $$
$$ \sigma_y = \sqrt{ \frac{1}{4} \cdot [ 4 + 0 + 1 + 1 ] } $$
$$ \sigma_y = \sqrt{ \frac{1}{4} \cdot 6 } $$
$$ \sigma_y = \sqrt{ 1,5 } $$
$$ \sigma_y =1,2247 $$
Ora ho tutte le informazioni necessarie per calcolare i coefficienti di variazione delle due distribuzioni.
$$ CV_x = \frac{ \sigma_x }{ \mu_x } = \frac{ 2,7080}{24} = 0,1128 = 11,28% $$
$$ CV_y = \frac{ \sigma_y }{ \mu_y } = \frac{ 1,2247}{27} = 0.0453 = 4,53% $$
La distribuzione X ha un coefficiente di variazione CVX=11,28% maggiore rispetto al CVY=4,53% della distribuzione Y.
Pertanto, la distribuzione X ha una variabilità relativa maggiore rispetto alla distribuzione Y.
Note a margine
Alcune osservazioni e note a margine sul coefficiente di variazione.
- Media aritmetica negativa. Se la media aritmetica è negativa, per calcolare correttamente il C.V. devo considerare il valore assoluto della media. Questo perché il coefficiente di variazione esprime la variabilità relativa e, quindi, una media negativa distorcerebbe il calcolo se non considerassi il suo valore assoluto.
- Media nulla. Se la media è nulla, non è possibile calcolare il C.V. poiché si avrebbe una divisione per zero, un'operazione matematica impossibile, rendendo l’indice indefinito.
- Deviazione standard maggiore della media. Se la deviazione standard (\( \sigma \)) è maggiore del valore assoluto della media, l'indice non è significativo, perché una grande dispersione rispetto a una media molto piccola o nulla porta a risultati fuorvianti, indicando una variabilità troppo alta per un confronto utile.
- Punti zeta
I punti zeta \( z_i \)) sono uno strumento alternativo per confrontare la variabilità di due fenomeni. Sono definiti come: $$
z_i = \frac{x_i - \mu}{\sigma} $$ Dove \( x_i \) è il valore osservato, \( \mu \) è la media aritmetica del fenomeno, \( \sigma \) è la deviazione standard. I punti zeta esprimono quanto un valore \( x_i \) si discosta dalla media in termini di deviazioni standard. Sono utilizzati per standardizzare i dati, rendendoli confrontabili anche se provengono da distribuzioni diverse o con unità di misura differenti. Sono strettamente legati alla distribuzione normale.
E così via.