Errore standard
L'errore standard \( e_x \) rappresenta la deviazione standard della media campionaria, ovvero quanto ci si aspetta che la media $ E(X) $ calcolata su un campione \( X \) differisca dalla vera media \( \mu \) della popolazione.
L'errore standard è dato dalla formula:
$$ e_x = \frac{\sigma}{\sqrt{n}} $$
Dove:
- \( \sigma \) è la deviazione standard della popolazione, cioè una misura della dispersione dei dati nella popolazione.
- \( n \) è la dimensione del campione, cioè il numero di osservazioni raccolte dal campione.
Se la media campionaria è \( E(X) \), allora si posso ragionevolmente affermare che la media della popolazione \( \mu \) si trova approssimativamente all'interno dell'intervallo
$$ E(X) \pm e_x $$
Dalla formula $ e_x = \frac{\sigma}{\sqrt{n}} $ deduco che all'aumentare della dimensione del campione \( n \) l'errore standard diminuisce.
Questo avviene perché con campioni più grandi la media campionaria tende a essere più vicina alla media reale della popolazione.
Nota. Se il campione è abbastanza grande (solitamente n>30), posso fare affidamento sulla distribuzione normale delle medie campionarie per calcolare l'errore standard anche se la popolazione di partenza non ha una distribuzione normale. Viceversa, se la dimensione del campione è piccola e la popolazione da cui proviene il campione non è normale, l'errore standard può essere meno affidabile perché il teorema del limite centrale non si applica così efficacemente.
Un esempio pratico
Devo stimare il reddito medio di una popolazione di lavoratori in una città.
Ovviamente non posso intervistare tutti i lavoratori, quindi prelevo un campione casuale di $n= 50 $ persone dalla popolazione e analizzo i dati del campione.
$$ n = 50 $$
Il reddito medio delle 50 persone intervistate (media campionaria) è €2.500 al mese.
$$ E(X) = 2.500 \ € $$
Per ipotesi, conosco la deviazione standard dei redditi nella popolazione ( $ \sigma $ ) ed è €600. Questo dato rappresenta la variabilità dei redditi nella popolazione.
$$ \sigma = 600 \ € $$
Ora voglio calcolare quanto il reddito medio campionario di €2.500 è vicino alla media reale della popolazione.
Per farlo, calcolo l'errore standard della media campionaria:
$$ e_x = \frac{\sigma}{\sqrt{n}} = \frac{600}{\sqrt{50}} \approx \frac{600}{7,07} \approx 84,86 $$
Pertanto, l'errore standard è quindi circa €84,86.
Questo significa che se prendessi molti campioni casuali di 50 persone, le loro medie campionarie oscillerebbero attorno alla media della popolazione con una variazione tipica di circa €84,86.
Nota. Le medie campionarie raccolte da più campioni casuali di uguale dimensione formano la distribuzione campionaria della media. Grazie al teorema del limite centrale, questa distribuzione tende ad assumere una forma normale all'aumentare della dimensione del campione, indipendentemente dalla distribuzione iniziale della popolazione. Questo mi consente di utilizzare le proprietà della distribuzione normale per costruire intervalli di confidenza intorno alla media campionaria, anche quando la popolazione di origine non segue una distribuzione normale.
Costruzione di un intervallo di confidenza
Con l'errore standard posso costruire un intervallo di confidenza per stimare la media reale del reddito della popolazione.
Ad esempio, voglio costruire un intervallo di confidenza (IC) al 95%.
$$ IC_{95} = \bar{x} \pm z \times e_x $$
Dove $ z $ è un valore critico associato al livello di confidenza in una distribuzione normale, $ \bar{x} $ è la media campionaria e $ e_x $ è l'errore standard.
Nota. I valori critici (z) vengono solitamente trovati tramite una tabella della distribuzione normale standard, o utilizzando software statistici che calcolano la probabilità cumulata per ciascun valore z. Ecco alcuni valori critici più comunemente utilizzati
- 90% di confidenza: z=1,645
- 95% di confidenza: z=1,96
- 99% di confidenza: z=2,575
- 99,9% di confidenza: z=3,291
Per un livello di confidenza del 95% in una distribuzione standard normale, devo usare un valore critico parii z=1,96.
$$ IC_{95} = \bar{x} \pm 1,96 \times e_x $$
Sapendo che la media campionaria è $ \bar{x} 2.500 \ € $ e l'errore standard è $ e_x = 84,86 \ € $$
$$ IC_{95} = 2.500 \pm 1,96 \times 84,86 \approx 2.500 \pm 166,32 $$
$$ IC_{95} = [2.333,68 \, \text{€}, 2.666,32 \, \text{€}] $$
In conclusione, con un livello di confidenza del 95%, posso affermare che il reddito medio reale della popolazione si trova tra €2.333,68 e €2.666,32.
Questo intervallo tiene conto dell'incertezza nella stima della media campionaria, rappresentata dall'errore standard.
Nota. Se volessi ridurre l'errore standard e ottenere una stima più precisa, dovrei aumentare la dimensione del campione. Ad esempio, per dimezzare l'errore standard, dovrei quadruplicare la dimensione del campione: Se la nuova dimensione del campione fosse \( 4 \times 50 = 200 \), l'errore standard diventerebbe: $$ e_x = \frac{600}{\sqrt{200}} = \frac{600}{14,14} \approx 42,43 $$ L'errore standard si è ridotto a €42,43 e ha dimezzato la variabilità attorno alla media stimata, il che rende l'intervallo di confidenza più stretto e la stima più precisa.
Relazione tra errore standard e dimensione del campione:
Dato che l'errore standard è inversamente proporzionale alla radice quadrata della dimensione del campione \( n \), c'è una relazione importante da ricordare :
Se si vuole ridurre l'errore standard di un certo fattore $ q $, bisogna aumentare il campione di un fattore quadrato $ q^2 $. $$ \frac{1}{q} \times \frac{\sigma}{\sqrt{n}} = \frac{\sigma}{\sqrt{q^2 \times n}} = $$
Ad esempio per dimezzare l'errore standard ( $ q=2 $ ), devo quadruplicare la dimensione del campione $ 4n $. Questo perché:
$$ \frac{1}{2} \times \frac{\sigma}{\sqrt{n}} = \frac{\sigma}{\sqrt{4n}} $$
Quindi, per raddoppiare la precisione (dimezzare l'errore) richiede molto più impegno in termini di numero di osservazioni.
In altre parole, per ottenere stime più precise è necessario aumentare significativamente la dimensione del campione e raccogliere molti più dati.
Esempio. Se ho un campione di dimensione \( n = 100 \) e l'errore standard \( e_x = 5 \), per ridurre l'errore standard a 2,5 (dimezzarlo), dovrò aumentare il campione a \( 4 \times 100 = 400 \) osservazioni. Questo perché l'errore standard diminuisce solo con la radice quadrata di \( n \), quindi è necessario un campione molto più grande per migliorare la precisione della stima.
Errore standard su un singolo campione
Quando sto lavorando con un singolo campione, se conosco la deviazione standard della popolazione \( \sigma \), posso calcolare l'errore standard per la media campionaria di quel campione con la formula classica:
$$ \frac{\sigma}{\sqrt{n}} $$
Tuttavia, in genere la deviazione standard della popolazione \( \sigma \) non è conosciuta. Pertanto, devo trovare una via alternativa per calcolare l'errore standard.
Se non conosco \( \sigma \), posso calcolare la deviazione standard sul campione.
In questo caso, però, devo considerare che l'errore standard è sottostimato perché non è più uno stimatore corretto.
In particolar modo, quando la dimensione del campione è piccola, usare la deviazione standard del campione invece della vera deviazione standard della popolazione tende a sottostimare sistematicamente la deviazione standard della popolazione, e quindi anche l'errore standard. Ad esempio, con n=2 la sottostima è di circa il 25% e per n=6 la sottostima è del 5%.
Per correggere questo problema, calcolo l'errore standard usando la seguente formula:
$$ e_x = \frac{s}{\sqrt{n}} $$
Dove $ s $ è la deviazione standard la deviazione standard del campione \( s \).
$$ s = \sqrt{ \frac{1}{n-1} \cdot \sum_{i=1}^n (x_i-\bar{x})^2 } $$
Nella formula della deviazione standard del campione è presente al denominatore $ n−1 $ invece di $n $. Questo è detto correttore di Bessel e serve a compensare la sottostima della varianza quando uso un campione anziché l'intera popolazione.
Questa correzione mi garantisce che l'errore standard calcolato sul campione sia più affidabile.
Nota. In alcuni testi ho notato che la correzione viene apportata direttamente sull'errore standard. $$ e_x = \frac{ \sigma_s}{\sqrt{n-1}} $$ In questi testi, la deviazione standard viene calcolata sul campione senza il correttore di Bessel: $$ \sigma_s = \sqrt{ \frac{1}{n} \cdot \sum_{i=1}^n (x_i-\bar{x})^2 } $$ Anche se matematicamente si arriva comunque all'errore standard, questo approccio è da evitare, perché la deviazione standard così calcolata è sottostimata. Dal punto di vista matematico, il risultato sull'errore standard è comunque lo stesso. $$ e_x = \frac{s}{\sqrt{n}} $$ $$ e_x = \frac{ \sqrt{ \frac{1}{n-1} \cdot \sum_{i=1}^n (x_i-\bar{x})^2 } }{\sqrt{n}} $$ $$ e_x = \sqrt{ \frac{1}{n-1} \cdot \sum_{i=1}^n (x_i-\bar{x})^2 } \cdot \frac{ 1 }{\sqrt{n}} $$ $$ e_x = \sqrt{ \frac{ 1 }{\sqrt{n}} \cdot \frac{1}{n-1} \cdot \sum_{i=1}^n (x_i-\bar{x})^2 } $$ $$ e_x = \sqrt{ \frac{ 1 }{\sqrt{n}} \cdot \sum_{i=1}^n (x_i-\bar{x})^2 } \cdot \frac{1}{\sqrt{ n-1 }} $$ $$ e_x = \sigma_s \cdot \frac{1}{\sqrt{ n-1 }} $$ $$ e_x = \frac{ \sigma_s}{\sqrt{ n-1 }} $$ Dove $ \sigma_s $ è la formula deviazione standard applicata al campione anziché alla popolazione. $$ \sigma_s = \sqrt{ \frac{1}{n} \cdot \sum_{i=1}^n (x_i- \bar{x})^2 } $$
E così via