Stima puntuale della media
La stima puntuale della media è una singola stima numerica utilizzata per approssimare il valore della media di una popolazione.
In altre parole, la stima puntuale della media è la media di un singolo campione di dati.
Il termine "puntuale" significa che non è un intervallo o un range di valori, ma un singolo numero che funge da stima.
Nota. E' utile quando non conosco i dati dell'intera popolazione, perché sarebbe troppo costoso o difficile raccogliere dati da tutti gli individui.
Come funziona?
Consiste nel prelevare un campione rappresentativo e calcolare la media di questo campione.
Se ho un campione di dati con \(n\) osservazioni \(x_1, x_2, \dots, x_n\), la stima puntuale della media \( \mu \) della popolazione è data dalla media campionaria \( \bar{x} \):
$$ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i $$
Dove:
- \( \bar{x} \) è la stima puntuale della media della popolazione,
- \( n \) è la dimensione del campione (ossia il numero di unità nel campione)
- \( x_i \) sono le osservazioni individuali nel campione.
Questo valore è la "stima puntuale" della media della popolazione.
Un esempio pratico
Voglio stimare il reddito medio di una popolazione di $ N = 100 $ persone, ma non posso raccogliere i dati da tutti.
Quindi, seleziono un campione casuale di $ n = 5 $ persone e ottengo i seguenti redditi annuali (in migliaia di euro):
$$ 40, 50, 60, 45, 55. $$
La stima puntuale della media della popolazione è la media campionaria, ossia la media degli elementi nel campione.
$$ \bar{x} = \frac{40 + 50 + 60 + 45 + 55}{5} = \frac{250}{5} = 50 \text{ mila di euro}. $$
In questo caso, la stima puntuale della media del reddito per la popolazione è 50 mila di euro.
Limiti della stima puntuale
La stima puntuale non dà informazioni sulla precisione o sull'affidabilità della stima.
In altre parole, non posso sapere quanto sia vicina alla vera media della popolazione.
Inoltre, è possibile che la stima puntuale sia poco rappresentativa della popolazione, soprattutto se il campione è piccolo o non ben selezionato.
Nota. Generalmente, per ridurre questo rischio è preferibile lavorare con campioni più grandi, in particolare con una dimensione $ n \ge 30 $, per diversi motivi. Campioni più grandi garantiscono stime più precise e affidabili, permettono di applicare il Teorema del Limite Centrale, e riducono l'impatto degli outlier (valori anomali) e altre distorsioni. Tuttavia, se la distribuzione della popolazione è normale, anche campioni piccoli possono fornire stime affidabili della media.
Perché è meglio lavorare con campioni più grandi?
- Teorema del Limite Centrale (TLC)
Secondo questo teorema, se il campione è sufficientemente grande (in genere \( n \geq 30 \)), la distribuzione delle medie campionarie tende ad essere approssimativamente normale, anche se la distribuzione della popolazione non è normale. Questo mi permette di utilizzare tecniche statistiche che si basano sulla normalità, come il calcolo di intervalli di confidenza e i test di ipotesi. - Minore errore standard
L'errore standard della media campionaria è inversamente proporzionale alla radice quadrata della dimensione del campione, come indicato dalla formula: $$ e_x = \frac{\sigma}{\sqrt{n}} $$ Dove \( \sigma \) è la deviazione standard della popolazione e \( n \) è la dimensione del campione. All'aumentare di \( n \), l'errore standard si riduce, il che significa che la media campionaria è una stima più precisa della vera media della popolazione. In altre parole, un campione più grande riduce la variabilità delle medie campionarie, rendendo le stime più affidabili. - Minore impatto degli outlier
In campioni piccoli, i valori anomali (outlier) possono avere un impatto significativo sulla stima della media, distorcendola. In campioni più grandi, l'influenza di eventuali outlier è ridotta, perché i valori estremi sono bilanciati da un numero maggiore di osservazioni centrali. Questo rende la media campionaria più rappresentativa della popolazione. - Maggiore rappresentatività
Campioni più grandi tendono a essere più rappresentativi della popolazione. In un campione piccolo, potrei involontariamente ottenere un gruppo di osservazioni che non riflettono accuratamente la popolazione. Un campione più grande ha maggiori probabilità di includere una varietà di individui che rappresentano più fedelmente l'intera popolazione. - Intervalli di confidenza più stretti
Campioni più grandi producono intervalli di confidenza più stretti, fornendo una stima più precisa. Un intervallo di confidenza stretto riflette un'alta probabilità che la vera media della popolazione si trovi all'interno di un intervallo ristretto intorno alla media stimata.
Per questo motivo, spesso si accompagna la stima puntuale con un intervallo di confidenza, che fornisce un range di valori all'interno del quale ci aspettiamo che si trovi la vera media della popolazione con una certa probabilità (ad esempio, il 95%).
Un esempio di stima puntuale con intervallo di confidenza
Voglio stimare la media del reddito annuo di una popolazione di dipendenti in un'azienda.
Non posso raccogliere i dati di tutta la popolazione, quindi prelevo un campione casuale di 10 dipendenti, i cui redditi annui (in migliaia di euro) sono i seguenti:
$$ 35, 42, 39, 47, 41, 44, 38, 40, 36, 43 $$
La stima puntuale della media della popolazione è semplicemente la media aritmetica del campione:
$$ \bar{x} = \frac{35 + 42 + 39 + 47 + 41 + 44 + 38 + 40 + 36 + 43}{10} = \frac{405}{10} = 40,5 \text{ mila di euro} $$
Quindi, la stima puntuale della media del reddito annuo nella popolazione è 40,5 migliaia di euro.
Per valutare l'affidabilità della stima puntuale \( \bar{x} = 40,5 \), posso calcolare l'errore standard utilizzando la deviazione standard del campione.
Nota. Utilizzo la deviazione standard del campione perché non conosco la deviazione standard dell'intera popolazione. Generalmente, quando si lavora con dati campionari non si hanno informazioni precise sull'intera popolazione. Del resto, se li avessi, non avrei bisogno di compiere un'indagine campionaria.
Per prima cosa, calcolo la deviazione standard del campione \( s \). I passaggi sono i seguenti:
Trovo gli scarti dei redditi dal valore medio stimato (40,5):
$$ (35 - 40,5) = -5,5,\quad (42 - 40,5) = 1,5,\quad (39 - 40,5) = -1,5,\quad (47 - 40,5) = 6,5,\quad \text{etc.} $$
Elevo al quadrato ciascuno scarto:
$$ (-5,5)^2 = 30,25,\quad (1,5)^2 = 2,25,\quad (-1,5)^2 = 2,25,\quad (6,5)^2 = 42,25,\quad \text{etc.} $$
Sommo i quadrati degli scarti:
$$ 30,25 + 2,25 + 2,25 + 42,25 + 0,25 + 12,25 + 6,25 + 0,25 + 20,25 + 6,25 = 122,5 $$
Divido la somma per \( n - 1 \), dove \( n \) è la dimensione del campione (in questo caso \( n = 10 \)):
$$ s^2 = \frac{122,5}{10 - 1} = \frac{122,5}{9} \approx 13,61. $$
La deviazione standard campionaria \( s \) è la radice quadrata di questo valore:
$$ s \approx \sqrt{13,61} \approx 3,69. $$
A questo punto, posso calcolare l'errore standard.
L'errore standard della media \( s_{\bar{x}} \) si calcola come:
$$ s_{\bar{x}} = \frac{s}{\sqrt{n}} = \frac{3,69}{\sqrt{10}} \approx \frac{3,69}{3,16} \approx 1,17 $$
Una volta noto l'errore standard, posso costruire un intervallo di confidenza per stimare la media della popolazione.
Ad esempio, voglio costruire un intervallo di confidenza al 95%, che corrisponde a un valore critico \( z \) di circa 1,96 in una distribuzione normale.
L'intervallo di confidenza sarà:
$$ \bar{x} \pm z \cdot s_{\bar{x}} = 40,5 \pm 1,96 \cdot 1,17 \approx 40,5 \pm 2,2932. $$
Quindi, l'intervallo di confidenza al 95% per la media della popolazione è circa:
$$ [38,2068 \ , \ 42,7932] $$
Questo significa che, con una probabilità del 95%, la media reale della popolazione si trova all'incirca tra 38,2 mila euro e 42,79 mila euro.
Nota. In questo esempio, per rendere più semplice la spiegazione ho utilizzato un campione composto da $ n=10 $ elementi, quindi molto piccolo. Poi ho utilizzato il valore critico $ z=1.96 $ per costruire un intervallo di confidenza al 95%. In realtà, un campione al di sotto di $ n <30 $ non soddisfa il teorema centrale del limite. Quindi, non dovrei utilizzare i valori critici di una distribuzione normale. Quando il campione è piccolo e si utilizza la deviazione standard campionaria s, dovrei fare riferimento alla distribuzione t di Student. Ho evitato di farlo per non complicare la spiegazione.
Un solo campione e' sufficiente per stimare la media della popolazione?
In linea generale, un solo campione può fornire una buona stima della media della popolazione, ma la sua affidabilità dipende da diversi fattori.
Ecco alcuni punti chiave da considerare:
- Dimensione del campione
Un campione di piccole dimensioni potrebbe non essere rappresentativo dell'intera popolazione, e quindi la stima della media potrebbe essere poco accurata. Più grande è il campione, maggiore è la probabilità che la stima della media sia vicina alla vera media della popolazione. In statistica, secondo la legge dei grandi numeri, all'aumentare del numero di osservazioni, la media campionaria si avvicina sempre più alla media della popolazione.Ad esempio, un campione di 10 osservazioni può fornire una stima utile, ma potrebbe non riflettere tutte le caratteristiche della popolazione, mentre un campione di 100 o 1.000 osservazioni sarebbe molto più accurato.
- Variabilità nella popolazione
Se la popolazione è molto variabile (ossia, se i valori all'interno della popolazione sono molto diversi tra loro), è più difficile ottenere una stima accurata della media con un solo campione. In questi casi, l'errore standard è più grande e l'intervallo di confidenza è più ampio, indicando maggiore incertezza nella stima. Al contrario, se i valori nella popolazione sono più omogenei (poca variabilità), un campione di dimensioni moderate potrebbe essere sufficiente per stimare la media con buona precisione. - Campionamento casuale
Un'altra considerazione importante è che il campione deve essere selezionato in modo casuale. Se il campione non è rappresentativo (ad esempio, se c'è un bias nel modo in cui le osservazioni sono state raccolte), la stima della media potrebbe essere distorta. La casualità garantisce che ogni individuo della popolazione abbia la stessa probabilità di essere incluso nel campione, migliorando la qualità della stima. - Intervallo di confidenza
Anche se con un solo campione posso stimare la media, l'intervallo di confidenza mi aiuta a capire l'incertezza associata a questa stima. Se l'intervallo di confidenza è troppo ampio, significa che il campione fornisce una stima poco precisa, e potrebbe essere utile raccogliere un campione più grande o ulteriori campioni per ottenere una stima più affidabile. - Ripetere il campionamento
Per migliorare la precisione della stima, è molto utile prelevare più campioni indipendenti dalla stessa popolazione e calcolare le medie campionarie di ciascun campione e, infine, la media delle medie campionarie. Questo procedimento, chiamato "bootstrap" o ripetizione del campionamento, mi permette di ottenere una stima della media più robusta.In generale, la distribuzione delle medie campionarie tende ad avvicinarsi alla distribuzione normale indipendentemente dalla distribuzione della popolazione. Quindi, lavorare con la distribuzione delle medie campionarie è preferibile perché mi permette di fare inferenze basate sulla normalità della distribuzione, grazie al teorema del limite centrale, riduce l'impatto degli outlier (valori anomali) e rende più robusta la stima della media della popolazione rispetto all'uso di un singolo campione.
In generale, per ottenere una stima più affidabile, sarebbe preferibile avere campioni più grandi o prelevare più campioni indipendenti.
Note a margine
Alcune osservazioni e note a margine sulla stima puntuale della media.
- L' affidabilità di un solo campione richiede che la distribuzione della popolazione sia normale?
L'affidabilità di un solo campione non richiede necessariamente che la distribuzione della popolazione sia normale, ma la forma della distribuzione può influenzare la precisione e l'interpretazione dei risultati, specialmente con campioni di piccole dimensioni.- Se il campione è grande ( $ n \ge 30 $), non è necessario che la distribuzione della popolazione sia normale per ottenere una stima affidabile della media, grazie al teorema del limite centrale.
Nota. Secondo il teorema del limite centrale, indipendentemente dalla distribuzione della popolazione, se il campione è sufficientemente grande (solitamente $ n \ge 30 $ ), la distribuzione della media campionaria tende ad avvicinarsi a una distribuzione normale. Quindi, per campioni grandi, non è necessario che la popolazione abbia una distribuzione normale, perché la media campionaria sarà approssimativamente normale.
- Se il campione è piccolo ( $ n<30 $) la distribuzione della popolazione ha un impatto maggiore sull'affidabilità della stima della media.
- Se la distribuzione della popolazione è fortemente non normale, asimmetrica o presenta code lunghe, la media campionaria potrebbe non essere una buona stima della media della popolazione, e la distribuzione della media campionaria potrebbe discostarsi notevolmente dalla normalità. In questo caso, sarebbe meglio usare metodi alternativi o un campione più grande.
- Se la distribuzione della popolazione è normale, anche campioni piccoli possono fornire stime affidabili della media.
- Se il campione è grande ( $ n \ge 30 $), non è necessario che la distribuzione della popolazione sia normale per ottenere una stima affidabile della media, grazie al teorema del limite centrale.
E così via.