Campione in statistica

Un campione è un sottoinsieme di $ n $ elementi estratti da una popolazione più ampia, detta universo, con l’obiettivo di studiarne le caratteristiche principali e dedurre informazioni sull’intera popolazione senza doverla esaminare integralmente.
esempio di campione

È importante che il campione sia un campione rappresentativo, il che significa che deve riflettere in modo accurato le caratteristiche dell'universo da cui è tratto. In questo caso è detto "campione stratificato".

Solo in questo modo, infatti, le conclusioni che si ricavano dall’analisi del campione possono essere estese alla popolazione totale con un certo grado di confidenza.

A cosa serve?

Il campione viene utilizzato per stimare parametri chiave della popolazione, come la media, la varianza o la deviazione standard.

Esempio: Supponiamo di voler stimare l’altezza media di una popolazione di alberi in una foresta. Invece di misurare tutti gli alberi (popolazione), potremmo misurarne un centinaio (campione). Se il campione è ben scelto, la media dell’altezza del campione sarà vicina alla media dell’intera foresta, permettendoci di trarre conclusioni sulla popolazione senza aver misurato ogni singolo albero. 

Tuttavia, è importante tenere presente che i valori del campione possono variare rispetto a quelli della popolazione a causa della variabilità intrinseca nei campioni.

In generale più grande è la numerosità (n) del campione, maggiore è la probabilità che le stime siano accurate.

La numerosità del campione

Ogni campione è composto da un certo numero $ n $ di elementi.

Il rapporto tra la numerosità del campione (n) e quella della popolazione (N) è detto "tasso di campionamento".

$$ \frac{n}{N} $$

Quando il campione è composto da $ n \le 30 $ si parla di "piccolo campione".

Metodi di estrazione del campione

Il campione è composto da elementi estratti dalla popolazione. Esistono due modi possibili per farlo:

  • Estrazione con reinserimento
    In questo metodo, ogni elemento del campione, dopo essere stato selezionato, viene reinserito nell’universo. Quindi, lo stesso elemento può essere selezionato nuovamente. È un metodo semplice e utile quando si vuole mantenere costante la probabilità di selezione per ogni elemento.

    Esempio: Se estraggo una carta a sorte da un mazzo di carte di 40 carte e, ogni volta, rimetto la carta nel mazzo prima di una nuova estrazione, ogni carta ha sempre la stessa probabilità di essere estratta in ogni turno ovvero $ P = \frac{1}{40} $.

  • Estrazione senza reinserimento (in blocco)
    In questo caso, un elemento può essere selezionato solo una volta. Dopo ogni estrazione, l’elemento viene rimosso dal pool, quindi le probabilità cambiano per i successivi elementi.

    Esempio. Quando pesco una carta da un mazzo di 40 carte senza rimetterla dentro, la probabilità di estrarre una specifica carta cambia dopo ogni estrazione, poiché ci sono meno carte nel mazzo. Ad esempio, nella prima estrazione la probabilità è $ P = \frac{1}{40} $, mentre nella seconda estrazione è $ P = \frac{1}{39} $ e via dicendo.

Un esempio pratico

Immaginiamo di dover stimare la media del peso degli studenti in una scuola che ha un totale di $ N=1000 $ studenti.

Naturalmente, non è pratico pesare ogni singolo studente (l’intera popolazione), quindi decidiamo di prendere un campione di $ n=50 $ studenti e usarlo per stimare la media del peso degli studenti di tutta la scuola.

esempio di campione

Supponiamo che i pesi (misurati in kg) dei 50 studenti del campione siano i seguenti:

$$ 55,58,57,60,57,59,61,57,62,63,58,60,57,57,57,59,62,64,61,60,57,57,60,63,65,64,58,61,57,59,60,58,62,57,63,64,65,61,60,59,58,62,63,65,64,57,57,59,60,61 $$

La media del campione (indicata con \(\bar{x}\)) si calcola sommando tutti i pesi e dividendo per il numero di studenti nel campione.

$$ \bar{x} = \frac{55 + 58 + 57 + 60 + \ldots + 61}{50} $$

$$ \bar{x} = \frac{3000}{50} = 60 \, \text{kg} $$

Quindi, la media campionaria è 60 kg.

Nota. La media campionaria (o media del campione) è la media degli elementi presenti nel campione. In genere viene indicata da un simbolo $ \bar{x} $ diverso rispetto a quello usato per la media ( $ \mu $ ) della popolazione.

Usando il campione, posso stimare che la media del peso di tutta la popolazione (i 1000 studenti) è circa 60 kg.

Per stimare la variabilità dei dati calcoliamo la deviazione standard campionaria (\(s\)) usando questa formula che restituisce la somma degli scarti quadratici diviso \(n-1\)).

$$ s = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} $$

Dove:

- \(x_i\) è il valore di ogni singolo peso,
- \(\bar{x}\) è la media campionaria (60 kg in questo caso),
- \(n\) è il numero di elementi del campione (50 in questo caso).

Per semplificare, supponiamo che il calcolo ci dia \(s = 3,5\) kg

Possiamo concludere che la deviazione standard campionaria è $ s = 3,5 \ kg $, il che significa che i pesi degli studenti variano mediamente di circa 3,5 kg rispetto alla media.

Se la scelta del campione è stata fatta in modo corretto, questo ci dà una buona approssimazione della media e della variabilità dell’intera popolazione di 1000 studenti.

E così via.

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Statistica induttiva (inferenza)