La regressione lineare

La regressione lineare è un metodo statistico utilizzato per modellare la relazione tra una variabile dipendente (risposta o output) e una o più variabili indipendenti (predittori o input).

Nella sua forma più semplice, la regressione lineare è una relazione lineare tra le variabili descritta dall'equazione:

$$ y = m x + q +  \epsilon $$

Dove:

  • \( y \) è la variabile dipendente.
  • \( x \) è la variabile indipendente.
  • \( m \) è il coefficiente angolare (pendenza) che misura l’effetto di \( x \) su \( y \).
  • \( q \) è l'intercetta, ovvero il valore di \( y \) quando \( x = 0 \).
  • \( \epsilon \) è l'errore residuo o rumore, che rappresenta la differenza tra i valori osservati e quelli predetti.

Nella regressione lineare l'obiettivo è stimare i valori di \( m \) e \( q \) che minimizzano la somma dei quadrati delle differenze tra i valori osservati di \( y \) e quelli predetti dal modello (metodo dei minimi quadrati).

Una volta stimati questi parametri, posso usare l'equazione per fare previsioni o analizzare l’effetto delle variabili indipendenti sulla variabile dipendente.

L'origine del termine "regressione". Il termine "regressione" deriva dal lavoro di Francis Galton, un matematico e statistico del XIX secolo, che osservò come le altezze dei figli tendessero a "regredire" verso la media rispetto a quelle dei genitori. Notò che i figli di genitori molto alti tendevano a essere meno alti dei genitori, mentre i figli di genitori molto bassi tendevano a essere più alti dei genitori. In altre parole, l'altezza dei figli "regrediva" verso la media della popolazione. Originariamente la parola "regressione" indicava questa tendenza a ritornare verso un valore medio, ma oggi si usa per descrivere il metodo statistico che stima la relazione tra due o più variabili statistiche.

Come si calcola l'equazione della retta di regressione

Per calcolare una regressione lineare utilizzo il metodo dei minimi quadrati.

$$ y = m x + q +  \epsilon $$

L'obiettivo è trovare i coefficienti \( q \) (intercetta) e \( m \) (coefficiente angolare) che minimizzano la somma dei quadrati delle differenze tra i valori osservati (\( y_i \)) e quelli predetti \( \hat{y}_i \)).

Per prima cosa, calcolo le medie di \( x \) e \( y \):

$$ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \quad \text{e} \quad \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i $$

Dove \( n \) è il numero di osservazioni.

Il coefficiente angolare \( m \) si calcola in questo modo:

$$ m = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} $$

Questo coefficiente rappresenta l'inclinazione della retta e misura quanto cambia \( y \) per ogni unità di cambiamento in \( x \).

Poi calcolo l'intercetta \( q \) che indica il valore di \( y \) quando \( x = 0 \).

$$ q = \bar{y} - m \bar{x} $$

Quindi, l’equazione della retta di regressione è la seguente:

$$ \hat{y} = m x + q $$

Dove \( \hat{y} \) è il valore predetto dalla retta di regressione per ogni valore di \( x \).

Un esempio pratico

In questo esempio devo analizzare un piccolo insieme di dati.

Questa tabella mostra le variabili \( x \) (ore di studio) e \( y \) (punteggio ottenuto in un test):

Ore di studio (\( x \)) Punteggio (\( y \))
1 2
2 3
4 5
3 6
5 8

Calcolo le medie di \( x \) e \( y \)

$$ \bar{x} = \frac{1 + 2 + 4 + 3 + 5}{5} = 3 $$

$$ \bar{y} = \frac{2 + 3 + 5 + 6 + 8}{5} = 4.8 $$

Poi calcolo il coefficiente angolare \( m \) della retta di regressione usando questa formula:

$$ m = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} $$

Svolgo i calcoli intermedi ottenendo \( (x_i - \bar{x}) \) e \( (y_i - \bar{y}) \):

\( x_i \) \( y_i \) \( x_i - \bar{x} \) \( y_i - \bar{y} \) \( (x_i - \bar{x})(y_i - \bar{y}) \) \( (x_i - \bar{x})^2 \)
1 2 -2 -2.8 5.6 4
2 3 -1 -1.8 1.8 1
4 5 1 0.2 0.2 1
3 6 0 1.2 0 0
5 8 2 3.2 6.4 4

Infine calcolo la somma:

$$ \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) = 5.6 + 1.8 + 0.2 + 0 + 6.4 = 14 $$

$$ \sum_{i=1}^{n} (x_i - \bar{x})^2 = 4 + 1 + 1 + 0 + 4 = 10 $$

Sostituisco i risultati nella formula del coefficiente angolare.

$$ m = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} $$

$$ m = \frac{14}{10} = 1.4 $$

Il coefficiente angolare $ m $ è anche detto coefficiente di regressione di Y rispetto a X, perché mi dice quanto varia la variabile Y al variare della variabile X.

Una volta ottenuto il coefficiente angolare $ m $, posso calcolare anche l'intercetta \( q \)

$$ q = \bar{y} - m \cdot \bar{x} $$

$$ q = 4.8 - 1.4 \times 3 = 4.8 - 4.2 = 0.6 $$

Infine, scrivo l’equazione della retta di regressione con i parametri $ m $ e $ q $ che ho appena calcolato.

$$ \hat{y} = 0.6 + 1.4x $$

Questa equazione mi permette di tracciare la retta di regressione e di predire il punteggio (\( y \)) basato sulle ore di studio (\( x \)).

la retta di regressione lineare

Ad esempio, se uno studente studia per 4 ore, il punteggio atteso è 6.2. $$ \hat{y} = 0.6 + 1.4 \times 4 = 0.6 + 5.6 = 6.2 $$

Esiste una relazione tra le ore di studio e il punteggio ottenuto in un test?

Finora ho calcolato la retta di regressione di Y rispetto a X.

Per verificare se c'è una relazione tra le variabili statistiche, devo calcolare anche la retta di regressione di X rispetto a Y utilizzando un procedimento simile.

$$ \hat{x} = m'y + q' $$

La media di ciascuna variabile è sempre la stessa:

$$ \bar{x} = \frac{1 + 2 + 4 + 3 + 5}{5} = 3 $$

$$ \bar{y} = \frac{2 + 3 + 5 + 6 + 8}{5} = 4.8 $$

Il coefficiente angolare \( m' \) per la regressione di \( X \) rispetto a \( Y \) si ottiene con la formula:

$$ m' = \frac{\sum_{i=1}^{n} (y_i - \bar{y})(x_i - \bar{x})}{\sum_{i=1}^{n} (y_i - \bar{y})^2} $$

Svolgo i calcoli intermedi in una tabella

\( x_i \) \( y_i \) \( x_i - \bar{x} \) \( y_i - \bar{y} \) \( (y_i - \bar{y})(x_i - \bar{x}) \) \( (y_i - \bar{y})^2 \)
1 2 -2 -2.8 5.6 7.84
2 3 -1 -1.8 1.8 3.24
4 5 1 0.2 0.2 0.04
3 6 0 1.2 0 1.44
5 8 2 3.2 6.4 10.24

Poi sommo i dati ottenuti

$$ \sum_{i=1}^{n} (y_i - \bar{y})(x_i - \bar{x}) = 5.6 + 1.8 + 0.2 + 0 + 6.4 = 14 $$

$$ \sum_{i=1}^{n} (y_i - \bar{y})^2 = 7.84 + 3.24 + 0.04 + 1.44 + 10.24 = 22.8 $$

Quindi, sostituisco le sommatorie alla formula del coefficiente angolare:

$$ m' = \frac{\sum_{i=1}^{n} (y_i - \bar{y})(x_i - \bar{x})}{\sum_{i=1}^{n} (y_i - \bar{y})^2} $$

$$ m' = \frac{14}{22.8} \approx 0.614 $$

Il coefficiente angolare $ m' $ è detto coefficiente di regressione di X rispetto a X, perché mi dice quanto varia la variabile X al variare della variabile Y.

L'intercetta \( q' \) la calcolo utilizzando la formula:

$$ q' = \bar{x} - m' \bar{y} $$

$$ q' = 3 - 0.614 \times 4.8 \approx 3 - 2.9472 \approx 0.0526 $$

Con i valori ottenuti per \( m' \) e \( q' \), l'equazione della retta di regressione di \( X \) rispetto a \( Y \) è:

$$ \hat{x} = m'y + q' $$

$$ \hat{x} = 0.0526 + 0.614y $$

Questa equazione mi permette di stimare i valori di \( x \) in funzione di \( y \) utilizzando i dati osservati.

le due rette di regressione

Il confronto tra la retta di regressione di Y rispetto a X (rossa) e la retta di regressione di X rispetto a Y (verde) mi permette di capire se c'è una relazione di dipendenza lineare tra le due variabili statistiche: le ore di studio e il punteggio ottenuto ai test.

  • Se l'angolo tra le due rette è piccolo, esiste una relazione tra le due variabili. La regressione si dice "regressione perfetta" quando le due rette di regressione coincidono ovvero quando l'angolo tra le due rette è nullo.
  • Se l'angolo tra le due rette tende a 90° (angolo retto), non c'è una dipendenza lineare tra le variabili

Quindi, se le due rette sono molto simili (in particolare, se i coefficienti angolari sono reciprocamente vicini), potrebbe indicare una relazione simmetrica o quasi lineare perfetta tra le due variabili.

In questo esempio l'angolo tra le due rette è molto piccolo, quindi esiste una dipendenza lineare tra le due variabili statistiche.

In altre parole, le ore di studio influiscono sul punteggio ottenuto sui test e dal punteggio ottenuto sul test posso dedurre le ore di studio.

E così via.

 

 


 

Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

FacebookTwitterLinkedinLinkedin
knowledge base

Interpolazione