La varianza
La varianza è un indicatore della dispersione di una variabile o distribuzione statistica che ottengo calcolando la media dei quadrati degli scarti della media aritmetica (μ). $$ \sigma^2 = \frac{1}{n} \cdot \sum_{i=1}^n (x_i - \mu )^2 $$
Nel caso delle distribuzioni di frequenza la formula della varianza è la seguente
$$ \sigma^2 = \frac{1}{\sum_i^k n_i} \cdot \sum_{i=1}^k (x_i - \mu )^2 \cdot n_i $$
Dove μ è la media aritmetica mentre ni sono le frequenze.
La varianza si basa sulla proprietà che la somma dei quadrati degli scarti dalla media è minima, ovvero è la più bassa possibile.
Se calcolassi la somma dei quadrati degli scarti da un valore diverso dalla media, otterrei un valore maggiore.
Nota. La varianza è espressa tramite il quadrato dell'unità di misura delle osservazioni. Ad esempio, se le osservazioni sono misure in metri, la varianza è una misura in metri al quadrato. Pertanto, non posso rappresentare la varianza e la distribuzione di dati in un unico diagramma.
Un esempio pratico
Esempio 1
Considero una distribuzione di valori composta da n=6 elementi
$$ 1 \ , \ 5 \ , \ 7 \ , \ 3 \ , \ 6 \ , \ 8 $$
La media aritmetica della distribuzione statistica è uguale a μ=5
$$ \mu = \frac{1+5+7+3+6+8}{6 } = \frac{30}{6 } = 5 $$
Per misurare la dispersione intorno alla media calcolo la varianza
$$ \sigma^2 = \frac{1}{n} \cdot \sum_{i=1}^n (x_i - \mu )^2 $$
Sapendo che n=6 e μ=5
$$ \sigma^2 = \frac{1}{6} \cdot \sum_{i=1}^n (x_i - 5 )^2 $$
Sviluppo la serie di valori x1=1, x2=5, x3=7, x4=3, x5=6, x6=8
$$ \sigma^2 = \frac{1}{6} \cdot [ (1- 5 )^2+(5- 5 )^2+(7- 5 )^2+(3- 5 )^2+(6- 5 )^2+(8- 5 )^2] $$
$$ \sigma^2 = \frac{1}{6} \cdot [ (-4 )^2+(0 )^2+(2)^2+(-2)^2+(1)^2+(3)^2] $$
$$ \sigma^2 = \frac{1}{6} \cdot [ 16+0+4+4+1+9] $$
$$ \sigma^2 = \frac{34}{6} $$
Pertanto, la varianza della distribuzione è σ2=5,66
$$ \sigma^2 = 5,66 $$
Esempio 2
Considero questa distribuzione di frequenze
La media aritmetica ponderata dei dati è μ=23
In questo caso, per calcolare la varianza uso la formula delle distribuzioni di frequenze
$$ \sigma^2 = \frac{1}{\sum_i^k n_i} \cdot \sum_{i=1}^k (x_i - \mu )^2 \cdot n_i $$
Nella tabella ci sono k=10 classi e la media dei dati è μ=23
$$ \sigma^2 = \frac{1}{\sum_i^{10} n_i} \cdot \sum_{i=1}^{10} (x_i - 23 )^2 \cdot n_i $$
La somma delle frequenze Σni=31
$$ \sigma^2 = \frac{1}{31} \cdot \sum_{i=1}^{10} (x_i - 23 )^2 \cdot n_i $$
Sviluppo il calcolo dei quadrati degli scarti degli elementi x1=18, x2=20, x3=21, x4=22, x5=24, x6=25, x7=26, x8=27, x9=28, x10=30 rispetto alla media ponderata μ=23
$$ \sigma^2 = \frac{(18 - 23 )^2 \cdot 4 + (20 - 23 )^2 \cdot 5 + (21 - 23 )^2 \cdot 3 + (22 - 23 )^2 \cdot 4 + (24 - 23 )^2 \cdot 4 + \\ + (25 - 23 )^2 \cdot 3 + (26 - 23 )^2 \cdot 2 + (27 - 23 )^2 \cdot 3 + (28 - 23 )^2 \cdot 2 + (30- 23 )^2 \cdot 1 }{31} $$
$$ \sigma^2 = \frac{(-5)^2 \cdot 4 + (-3)^2 \cdot 5 + (-2)^2 \cdot 3 + (-1)^2 \cdot 4 + (1)^2 \cdot 4 + \\ + (2)^2 \cdot 3 + (3)^2 \cdot 2 + (4)^2 \cdot 3 + (5)^2 \cdot 2 + (7)^2 \cdot 1 }{31} $$
$$ \sigma^2 = \frac{25 \cdot 4 +9 \cdot 5 + 4 \cdot 3 +1 \cdot 4 + 1 \cdot 4 +4 \cdot 3 + 9 \cdot 2 + 16 \cdot 3 + 25 \cdot 2 + 49 \cdot 1 }{31} $$
$$ \sigma^2 = \frac{100 +45 + 12 +4 + 4 +12 + 18 + 48 + 50+ 49 }{31} $$
$$ \sigma^2 = \frac{342}{31} $$
Pertanto, la varianza della distribuzione di frequenze è σ2=11,03
$$ \sigma^2 = 11,03 $$
Osservazioni
Alcune osservazioni utili sulla varianza
- La varianza non ha la stessa unità di misura del fenomeno osservato
La varianza è pari al quadrato dell'unità di misura del fenomeno osservato. Ad esempio, se il fenomeno è misurato in metri (m), la varianza del fenomeno è misurata in metri al quadrato (m2). Pertanto, non posso confrontare, né rappresentare i dati in un unico sistema di riferimento o diagramma. - Un modo alternativo per calcolare la varianza
Posso calcolare la varianza anche come differenza tra il quadrato della media quadratica (μq)e il quadrato della media aritmetica (μ) della distribuzione $$ \sigma^2 = \mu_q^2 - \mu^2 $$ In alternativa, posso calcolare la varianza anche tramite la differenza tra la media aritmetica dei quadrati dei valori (x12,x22,...,xn2)/n e il quadrato della media aritmetica (μ2) $$ \sigma^2 = \frac{x_1^2+x_2^2+...+x_n^2}{n} - \mu^2 $$
Esempio. Considero la distribuzione dell'esempio precedente $$ 1 \ , \ 5 \ , \ 7 \ , \ 3 \ , \ 6 \ , \ 8 $$ Di questa conosco già la media aritmetica μ=5 e la varianza σ2=5,66. Calcolo la media quadratica della distribuzione $$ \mu_q = \sqrt{ \frac{1^2+5^2+7^2+3^2+6^2+8^2}{6} } $$ $$ \mu_q = \sqrt{ \frac{1+25+49+9+36+64}{6} } $$ $$ \mu_q = \sqrt{ \frac{184}{6} } = \sqrt{ 30,66} = 5,538 $$ A questo punto conosco la media aritmetica μ=5 e la media quadratica μq=5,538. Calcolo la varianza come differenza tra il quadrato della media quadratica e il quadrato della media aritmetica $$ \sigma^2 = \mu_q^2 - \mu^2 $$ $$ \sigma^2 = 5,538^2 - 5^2 $$ $$ \sigma^2 = 30,66 - 25 $$ $$ \sigma^2 = 5,66 $$ Il risultato finale è lo stesso. La varianza della distribuzione è σ2=5,66.
Dimostrazione. La formula della varianza è $$ \sigma^2 = \frac{1}{n} \cdot \sum_{i=1}^n (x_i - \mu )^2 $$ Svolgo il quadrato del binomio $$ \sigma^2 = \frac{1}{n} \cdot \sum_{i=1}^n (x_i^2 -2 x_i \mu + \mu^2) $$ Applico le proprietà delle serie numeriche $$ \sigma^2 = \frac{1}{n} \cdot \ [ \ \sum_{i=1}^n x_i^2 - \sum_{i=1}^n 2 x_i \mu + \sum_{i=1}^n \mu^2) \ ] $$ Sapendo che 2μ è un termine costante, applico nuovamente le proprietà delle serie e lo faccio uscire dalla seconda serie $$ \sigma^2 = \frac{1}{n} \cdot \ [ \ \sum_{i=1}^n x_i^2 - 2 \mu \sum_{i=1}^n x_i + \sum_{i=1}^n \mu^2) \ ] $$ La terza serie posso riscriverla come Σμ2=nμ2 $$ \sigma^2 = \frac{1}{n} \cdot \ [ \ \sum_{i=1}^n x_i^2 - 2 \mu \cdot ( \sum_{i=1}^n x_i ) + n \mu^2 \ ] $$ La media aritmetica posso riscriverla come μ=Σxi/n $$ \sigma^2 = \frac{1}{n} \cdot \ [ \ \sum_{i=1}^n x_i^2 - 2 \cdot ( \frac{1}{n} \sum_{i=1}^n x_i ) \cdot ( \sum_{i=1}^n x_i ) + n \mu^2 \ ] $$ $$ \sigma^2 = \frac{1}{n} \cdot \ [ \ \sum_{i=1}^n x_i^2 - 2 \cdot \frac{1}{n} ( \sum_{i=1}^n x_i )^2 + n \mu^2 \ ] $$ L'ultimo termine lo riscrivo come nμ2=n(Σxi/n)2 $$ \sigma^2 = \frac{1}{n} \cdot \ [ \ \sum_{i=1}^n x_i^2 - 2 \cdot \frac{1}{n} ( \sum_{i=1}^n x_i )^2 + n ( \frac{1}{n} \cdot \sum_{i=1}^n x_i )^2 \ ] $$ $$ \sigma^2 = \frac{1}{n} \cdot \ [ \ \sum_{i=1}^n x_i^2 - 2 \cdot \frac{1}{n} \cdot \sum_{i=1}^n x_i ^2 + n \cdot \frac{1}{n^2} \cdot \sum_{i=1}^n x_i^2 \ ] $$ $$ \sigma^2 = \frac{1}{n} \cdot \ [ \ \sum_{i=1}^n x_i^2 - 2 \cdot \frac{1}{n} \cdot \sum_{i=1}^n x_i ^2 + \frac{1}{n} \cdot \sum_{i=1}^n x_i^2 \ ] $$ $$ \sigma^2 = \frac{1}{n} \cdot \ [ \ \sum_{i=1}^n x_i^2 - \frac{1}{n} \cdot \sum_{i=1}^n x_i ^2 \ ] $$ $$ \sigma^2 = \frac{1}{n} \cdot \sum_{i=1}^n x_i^2 - \frac{1}{n} \cdot \frac{1}{n} \cdot \sum_{i=1}^n x_i ^2 \ $$ $$ \sigma^2 = \frac{1}{n} \cdot \sum_{i=1}^n x_i^2 - \frac{1}{n^2} \cdot \sum_{i=1}^n x_i ^2 $$ $$ \sigma^2 = ( \frac{1}{n} \cdot \sum_{i=1}^n x_i^2) - (\frac{1}{n} \cdot \sum_{i=1}^n x_i) ^2 $$ Il primo termine è la media quadratica al quadrato (μq)2 mentre il secondo termine è la media aritmetica al quadrato μ2. Il risultato è quello che volevo dimostrare $$ \sigma^2 = \mu_q^2 - \mu^2 $$
- La correzione di Sheppard
Quando la distribuzione è suddivisa in classi il raggruppamento causa un'approssimazione nel calcolo della varianza. Per ridurre l'approssimazione si utilizza la correzione di Sheppard. $$ \sigma^2_R = \sigma^2 - \frac{ \alpha^2 }{12} $$ Dove σ2 è la varianza e α è l'ampiezza delle classi.Nota. Una certa approssimazione nel calcolo si presenta in tutti gli indicatori quando il fenomeno è suddiviso in classi ma è molto più marcato nella varianza perché la misura della varianza è il quadrato dell'unità di misura del fenomeno osservato.
E così via.