Stima di una percentuale con intervallo di confidenza

Per stimare una percentuale sconosciuta $ p $ di una caratteristica in una popolazione, si può utilizzare la frequenza relativa $ f $ della stessa caratteristica osservata in un campione.

Se la rilevazione viene fatta su più campioni, ognuno con la stessa dimensione, la stima della percentuale è la media aritmetica delle frequenze relative osservate.

$$ F = \frac{f_1+f_2+...+f_n}{n} $$

L'errore standard di questa stima si calcola con la seguente formula:

$$ \sigma_F =\sqrt{ \frac{f \cdot (1-f) }{n} } $$

Dove $ f $ è la frequenza relativa osservata nel campione, mentre $ n $ è la dimensione del campione, ossia la sua numerosità.

Questo errore misura l'incertezza della stima e diventa più piccolo se la dimensione del campione $ n $ aumenta, ciò accade perché l'aumento di $ n $ riduce l'incertezza.

Invece di indicare una singola stima puntuale, è meglio fornire un intervallo di confidenza che indica un range in cui la percentuale $ p $ vera della popolazione dovrebbe trovarsi con una certa probabilità (es. 95% o 99%).

L'intervallo di confidenza si calcola a partire dall'errore standard e dipende dal livello di confidenza scelto.

Ad esempio, scelgo un livello di confidenza del 95%.

Poi individuo il valore critico $ z $ corrispondente nella distribuzione normale. Nel caso di un livello di confidenza del 95% in una distribuzione normale, il valore critico è $ z=1.96 $.

Infine, costruisco un intervallo di confidenza intorno alla stima.

$$ ( F - z \cdot \sigma_F \ \ , \ \ F + z \cdot \sigma_F ) $$

In questo modo posso ottenere una stima entro un range di valori affidabili.

Nota. Se l'estremo inferiore $ z \cdot \sigma_F $ è un numero negativo, va considerato uguale a zero.

    Un esempio pratico

    Voglio stimare la percentuale di persone in una città che possiedono un'auto elettrica, ma non conosco il valore esatto di questa percentuale nella popolazione.

    Prendo un campione di 200 persone e scopro che 60 di queste possiedono un'auto elettrica.

    La frequenza campionaria \( f \) sarà quindi:

    $$ f = \frac{60}{200} = 0,30 \text{ (cioè il 30%)} $$

    Ora voglio stimare l'intervallo di confidenza per la percentuale di persone che possiedono un'auto elettrica nella popolazione, utilizzando un livello di confidenza del 95%.

    Calcolo l'errore standard con la seguente formula:

    $$ \sigma_F = \sqrt{\frac{f \cdot (1 - f)}{n}} $$

    In questo caso \( f = 0,30 \) è la frequenza osservata, \( n = 200 \) è la dimensione del campione.

    $$ \sigma_F = \sqrt{\frac{0,30 \cdot (1 - 0,30)}{200}} $$

    $$ \sigma_F = \sqrt{\frac{0,30 \cdot 0,70}{200}} $$

    $$ \sigma_F = \sqrt{\frac{0,21}{200}} $$

    $$ \sigma_F = \sqrt{0,00105} $$

    $$ \sigma_F  \approx 0,0324 $$

    Per calcolare l'intervallo di confidenza, utilizzo un livello di confidenza del 95%, che corrisponde a un valore critico \( z = 1,96 \).

    L'intervallo di confidenza è dato dalla formula:

    $$ \left( f - z \cdot \sigma_F, f + z \cdot \sigma_F \right) $$

    Sostituisco i valori:

    $$ \left( 0,30 - 1,96 \cdot 0,0324, 0,30 + 1,96 \cdot 0,0324 \right) $$

    $$ \left( 0,30 - 0,0635, 0,30 + 0,0635 \right) $$

    $$ \left( 0,2365, 0,3635 \right) $$

    Quindi, basandomi su questo campione con un livello di confidenza del 95%, posso affermare che la percentuale di persone nella città che possiedono un'auto elettrica è compresa tra il 23,65% e il 36,35%.

    L'ampiezza dell'intervallo è detta forbice e diminuisce con la numerosità $ n $ del campione.

    E così via.

     

     


     

    Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

    FacebookTwitterLinkedinLinkedin
    knowledge base

    Statistica induttiva (inferenza)