Statistica induttiva
La statistica inferenziale (o induttiva) è un ramo della statistica che si occupa di trarre conclusioni su una popolazione a partire dall'analisi di un campione di dati.
A differenza della statistica descrittiva, che si limita a descrivere e riassumere i dati raccolti sull'intera popolazione, l'inferenza statistica mira a fare previsioni o inferenze su una popolazione più ampia basandosi su un campione rappresentativo.
Quindi, i principali concetti della statistica inferenziale sono la popolazione e il campione:
- Popolazione
L'insieme completo di elementi o individui che si vuole studiare. - Campione
Un sottoinsieme della popolazione, selezionato per l'analisi. E' scelto in modo che rappresenti l'intera popolazione.
In altre parole, la statistica inferenziale mi permette di fare previsioni e prendere decisioni basate su dati parziali, analizzando solo una parte della popolazione, con un certo grado di incertezza quantificabile.
A cosa serve? La statistica inferenziale è ampiamente utilizzata in molti campi. Ad esempio, nella ricerca scientifica è usata per generalizzare i risultati degli studi sperimentali a una popolazione più ampia. In economia è usata per fare previsioni economiche basate su dati campionari.
Un esempio pratico
Supponiamo di voler stimare l'altezza media di tutti gli studenti in una scuola. Circa 1000 studenti.
Invece di misurare l'altezza di ogni singolo studente (la popolazione), posso selezionare un campione casuale di studenti (ad esempio 100 studenti) e misurare la loro altezza.
Grazie alla statistica inferenziale, posso utilizzare i dati di questo campione per stimare l'altezza media di tutti gli studenti della scuola e fornire un intervallo di confidenza che indica quanto questa stima sia precisa.
Cos'è l'intervallo di confidenza? E' un intervallo di valori derivato dai dati campionari che ha una certa probabilità (detta livello di confidenza) di contenere il parametro della popolazione. Un altro strumento molto utile per verificare il risultato dell'inferenza statistica è il test di ipotesi che determina se i dati del campione forniscono prove sufficienti per accettare o rifiutare una ipotesi predeterminata sulla popolazione.
Esempio 2
Voglio stimare quante persone a Roma preferiscono la pizza margherita rispetto alla capricciosa.
Di sicuro non mi metto a interrogare ogni singolo romano. Ci metterei un'intera vita...
Quindi, prendo un campione di persone che sia rappresentativo dell'intera popolazione per struttura d'età, classe di reddito, stato di famiglia, ecc.
Poi raccolgo le loro preferenze sulla pizza con un questionario e faccio due conti per tirare fuori una stima.
Certo, c'è sempre un po' di margine d'errore, ma costa meno, mi impegna poco tempo ed è comunque un risultato accettabile.
E così via.