Variabili standardizzate

Le variabili standardizzate in statistica sono uno strumento fondamentale per comparare dati che hanno scale diverse, rendendo le variabili comparabili tra loro.

La standardizzazione di una variabile significa trasformarla in una nuova variabile con media pari a zero e deviazione standard pari a uno.

La formula per ottenere una variabile standardizzata \( Z \) è:

$$ Z = \frac{X - \mu}{\sigma} $$

Dove:

  • \( X \) è il valore della variabile originale.
  • \( \mu \) è la media della variabile.
  • \( \sigma \) è la deviazione standard della variabile.

Questa trasformazione mi permette di convertire qualsiasi distribuzione in una distribuzione normale standard, che ha media zero e deviazione standard unitaria.

A cosa serve la standardizzazione?

La standardizzazione serve a comparare tra loro delle variabili diverse, come peso e altezza, ciascuna con le proprie unità di misura, la standardizzazione le rende confrontabili.

Inoltre, nei modelli statistici e nei metodi di machine learning, spesso è richiesta la normalizzazione dei dati, ovvero che i dati abbiano una scala uniforme, per migliorare la convergenza degli algoritmi.

I valori standardizzati indicano quanti scarti (deviazioni standard) un certo valore è distante dalla media.  Quindi, sono più semplici da interpretare.

Ad esempio, \( Z = 2 \) indica che il valore è due deviazioni standard sopra la media.

Nota. Le variabili standardizzate sono particolarmente utili nelle analisi di correlazione e regressione, dove si vuole capire la relazione tra variabili. Usando variabili standardizzate, i coefficienti di regressione possono essere interpretati in termini di variazioni standard. Questo facilita senza alcun dubbio l'interpretazione dei risultati.

Un esempio pratico

Considero un dataset con le altezze degli studenti misurate in centimetri, con una media di \( \mu = 170 \) cm e una deviazione standard di \( \sigma = 10 \) cm.

Se uno studente ha un'altezza di 190 cm, posso standardizzare questa altezza così:

$$ Z = \frac{190 - 170}{10} = \frac{20}{10} = 2 $$

Questo significa che l'altezza dello studente è di due deviazione standard sopra la media.

Nota. In questo caso si tratta di un esempio molto semplice, utile solo per spiegare come si standardizza una variabile. In realtà la standardizzazione diventa molto utile soprattutto quando voglio confrontare dati che hanno natura diversa. Ad esempio, peso e altezza.

Esempio 2

In questo esempio utilizzo i seguenti dati relativi agli studenti di una classe:

  • Altezza media (\( \mu_{\text{altezza}} \)): 170 cm, con una deviazione standard (\( \sigma_{\text{altezza}} \)) di 10 cm.
  • Peso medio (\( \mu_{\text{peso}} \)): 65 kg, con una deviazione standard (\( \sigma_{\text{peso}} \)) di 8 kg.

Ora considero i dati di un singolo studente:

  • Altezza: 180 cm.
  • Peso: 75 kg.

Per confrontare le due caratteristiche, devo standardizzarle usando la formula:

$$ Z = \frac{X - \mu}{\sigma} $$

Applico la formula per standardizzare l'altezza dello studente:

$$ Z_{\text{altezza}} = \frac{180 - 170}{10} = \frac{10}{10} = 1 $$

Il valore standardizzato dell'altezza (\( Z_{\text{altezza}} \)) è pari a 1. Ciò significa che l'altezza dello studente è una deviazione standard sopra la media della classe.

Ora applico la formula per standardizzare il peso dello studente:

$$ Z_{\text{peso}} = \frac{75 - 65}{8} = \frac{10}{8} = 1.25 $$

Il valore standardizzato del peso (\( Z_{\text{peso}} \)) è pari a 1.25. Ciò significa che il peso dello studente è 1.25 deviazioni standard sopra la media della classe.

Confrontando i due valori standardizzati, posso dire che:

  • L'altezza dello studente è 1 deviazione standard sopra la media.
  • Il peso dello studente è 1.25 deviazioni standard sopra la media.

Questo confronto ci indica che, rispetto ai compagni, lo studente è più "atipico" in termini di peso che di altezza, visto che il suo peso si discosta maggiormente dalla media rispetto alla sua altezza.

Grazie alla standardizzazione, ho potuto confrontare due variabili diverse (altezza e peso) su una scala comune.

Questo mi aiuta a capire quale delle due caratteristiche dello studente si discosta di più dalla media della classe, rendendo più semplice l'interpretazione dei dati.

E così via.

 

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

La variabilità in statistica

Indici di variabilità relativa