La correlazione lineare nelle tabelle a doppia entrata
Per calcolare il coefficiente di correlazione lineare \( r \) tra due variabili in una tabella a doppia entrata
Y / X | y₁ | y₂ | ... | yⱼ | ... | Totale |
---|---|---|---|---|---|---|
x₁ | f₁₁ | f₁₂ | ... | f₁ⱼ | ... | R₁ |
x₂ | f₂₁ | f₂₂ | ... | f₂ⱼ | ... | R₂ |
... | ... | ... | ... | ... | ... | ... |
xᵢ | fᵢ₁ | fᵢ₂ | ... | fᵢⱼ | ... | Rᵢ |
... | ... | ... | ... | ... | ... | ... |
Totale | C₁ | C₂ | ... | Cⱼ | ... | N |
Seguo questo procedimento:
- Calcolo le medie \( \bar{x} \) e \( \bar{y} \) delle variabili \( X \) e \( Y \) utilizzando le frequenze marginali.
- Determino gli scarti di ciascun valore dalla media (\( x_i - \bar{x} \) e \( y_j - \bar{y} \)).
- Moltiplico gli scarti di \( X \) e \( Y \) per le frequenze congiunte \( f_{ij} \) e sommo questi prodotti.
- Calcolo i quadrati degli scarti ponderati per le frequenze marginali \( R_i \) e \( C_j \) di \( X \) e \( Y \), e sommo i risultati
- Applico la formula di calcolo del coefficiente lineare $$ r = \frac{\sum (x_i - \bar{x})(y_j - \bar{y}) f_{ij}}{\sqrt{\sum (x_i - \bar{x})^2 R_i \cdot \sum (y_j - \bar{y})^2 C_j}} $$ dove la sommatoria doppia considera tutti i valori di \( i \) e \( j \) nelle righe e colonne. Questa formula fornisce \( r \), che indica l’intensità e la direzione della correlazione tra \( X \) e \( Y \).
Questo metodo mi permette di ottenere \( r \), un indicatore della correlazione lineare delle due variabili.
Nota. Nella tabella a doppia entrata che ho usato per rappresentare la distribuzione delle frequenze congiunte di due variabili, \( X \) e \( Y \):
- \( x_i \) e \( y_j \) indicano i valori delle variabili \( X \) e \( Y \).
- \( f_{ij} \) rappresenta la frequenza congiunta associata alla coppia \( (x_i, y_j) \).
- \( C_j \) è la somma delle frequenze nelle colonne, rappresentando le frequenze marginali per \( Y \).
- \( R_i \) è la somma delle frequenze nelle righe, rappresentando le frequenze marginali per \( X \).
- \( N \) è il totale generale, ovvero la somma di tutte le frequenze congiunte.
In generale questa struttura mi permette di calcolare statistiche come il coefficiente di correlazione, partendo dalle frequenze congiunte \( f_{ij} \), dalle frequenze marginali di \( X \) e \( Y \), e dalle medie delle distribuzioni marginali.
Un esempio pratico
Vediamo un esempio pratico per il calcolo del coefficiente di correlazione \( r \) con una tabella a doppia entrata.
Supponiamo di voler studiare la correlazione tra il numero di ore di studio (\( X \)) e il voto finale (\( Y \)) di un gruppo di studenti.
\( Y = 6 \) | \( Y = 7 \) | \( Y = 8 \) | Totale (Ri) | |
---|---|---|---|---|
\( X = 4 \) | 3 | 2 | 1 | 6 |
\( X = 5 \) | 1 | 3 | 1 | 5 |
\( X = 6 \) | 1 | 1 | 2 | 4 |
Totale (Cj) | 5 | 6 | 4 | 15 |
La tabella seguente riporta le frequenze congiunte degli studenti per ogni combinazione di ore di studio e voto:
Calcolo le medie marginali di \( X \) e \( Y \):
$$ \bar{x} = \frac{4 \times 6 + 5 \times 5 + 6 \times 4}{15} = \frac{24 + 25 + 24}{15} = \frac{73}{15} \approx 4.87 $$
$$ \bar{y} = \frac{6 \times 5 + 7 \times 6 + 8 \times 4}{15} = \frac{30 + 42 + 32}{15} = \frac{104}{15} \approx 6.93 $$
Poi calcolo gli scarti dalla media per ogni valore di \( X \) e \( Y \).
Gli scarti della variabile \( X \) sono:
- \( 4 - \bar{x} = 4 - 4.87 = -0.87 \)
- \( 5 - \bar{x} = 5 - 4.87 = 0.13 \)
- \( 6 - \bar{x} = 6 - 4.87 = 1.13 \)
Gli scarti della variabile \( Y \) sono:
- \( 6 - \bar{y} = 6 - 6.93 = -0.93 \)
- \( 7 - \bar{y} = 7 - 6.93 = 0.07 \)
- \( 8 - \bar{y} = 8 - 6.93 = 1.07 \)
Per facilitare la comprensione del procedimento, riporto gli scarti direttamente sopra le righe e accanto alle colonne della tabella.
Poi calcolo il prodotto degli scarti per ciascuna coppia (cella della tabella) e lo moltiplico per la frequenza congiunta \( f_{ij} \):
|
\( y_j - \bar{y} \) | |||
---|---|---|---|---|
\( -0.93 \) | \( 0.07 \) | \( 1.07 \) | ||
\( x_i - \bar{x} \) |
\( -0.87 \) | \( (-0.87)(-0.93) \times 3 \) | \( (-0.87)(0.07) \times 2 \) | \( (-0.87)(1.07) \times 1 \) |
\( 0.13 \) | \( (0.13)(-0.93) \times 1\) | \( (0.13)(0.07) \times 3 \) | \( (0.13)(1.07) \times 1 \) | |
\( 1.13 \) | \( (1.13)(-0.93) \times 1\) | \( (1.13)(0.07) \times 1 \) | \( (1.13)(1.07) \times 2 \) |
Ad esempio, nella prima cella in alto a sinistra la variabile \( X=4 \) ha uno scarto di \( 0.87 \) rispetto alla media \( \bar{x} \) mentre la variabile \( Y=6 \) ha uno scarto di \( - 0.93 \) rispetto alla media \( \bar{y} \). La frequenza congiunta di queste variabili è \( 3 \). Dove per frequenza congiunta intendo il numero degli studenti che ha studiato \( X=4 \) ore ottenendo un voto pari a \( Y=6 \). Il risultato finale è \( 2.43 \) $$ (-0.87)(-0.93) \times 3 = 2.43 $$
A questo punto, svolgo i calcoli in ciascuna cella della tabella e sommo i totali parziali per ciascuna riga.
|
\( y_j - \bar{y} \) | ||||
---|---|---|---|---|---|
\( -0.93 \) | \( 0.07 \) | \( 1.07 \) | \( (x_i - \bar{x})(y_j - \bar{y}) f_{ij} \) | ||
\( x_i - \bar{x} \) |
\( -0.87 \) | 2.43 | -0.12 | -0.93 | 1.38 |
\( 0.13 \) | -0.12 | 0.03 | 0.14 | 0.05 | |
\( 1.13 \) | -1.05 | 0.08 | 2.42 | 1.45 |
Sommo i totali parziali dei prodotti di ciascuna riga:
$$ \sum (x_i - \bar{x})(y_j - \bar{y}) f_{ij} = 1.38 + 0.05 + 1.45 = 2.88 $$
Calcolo il quadrato degli scarti \( (x_i - \bar{x})^2 \) di ogni riga e lo moltiplico per le frequenze marginali \( R_i \) della riga stessa \( X \)
$$ \sum (x_i - \bar{x})^2 R_i = (-0.87)^2 \times 6 + (0.13)^2 \times 5 + (1.13)^2 \times 4 $$
$$ \sum (x_i - \bar{x})^2 R_i = 4.54 + 0.08 + 5.11 $$
$$ \sum (x_i - \bar{x})^2 R_i = 9.73 $$
|
\( y_j - \bar{y} \) | |||||
---|---|---|---|---|---|---|
\( -0.93 \) | \( 0.07 \) | \( 1.07 \) | \( (x_i - \bar{x})(y_j - \bar{y}) f_{ij} \) | \( (x_i - \bar{x})^2 R_i \) | ||
\( x_i - \bar{x} \) |
\( -0.87 \) | 2.43 | -0.12 | -0.93 | 1.38 | 4.54 |
\( 0.13 \) | -0.12 | 0.03 | 0.14 | 0.05 | 0.08 | |
\( 1.13 \) | -1.05 | 0.08 | 2.42 | 1.45 | 5.11 |
Calcolo il quadrato degli scarti \( y_i - \bar{y})^2 \) di ogni colonna e lo moltiplico per le frequenze marginali \( C_j \) della colonna stessa \( X \)
$$ \sum (y_j - \bar{y})^2 C_j = (-0.93)^2 \times 5 + (0.07)^2 \times 6 + (1.07)^2 \times 4 $$
$$ \sum (y_j - \bar{y})^2 C_j = 4.32 + 0.03 + 4.58 $$
$$ \sum (y_j - \bar{y})^2 C_j = 8.93 $$
|
\( y_j - \bar{y} \) | |||||
---|---|---|---|---|---|---|
\( -0.93 \) | \( 0.07 \) | \( 1.07 \) | \( (x_i - \bar{x})(y_j - \bar{y}) f_{ij} \) | \( (x_i - \bar{x})^2 R_i \) | ||
\( x_i - \bar{x} \) |
\( -0.87 \) | 2.43 | -0.12 | -0.93 | 1.38 | 4.54 |
\( 0.13 \) | -0.12 | 0.03 | 0.14 | 0.05 | 0.08 | |
\( 1.13 \) | -1.05 | 0.08 | 2.42 | 1.45 | 5.11 | |
\( (y_i - \bar{y})^2 C_i \) | 4.32 | 0.03 | 4.58 |
Infine, applico la formula:
$$ r = \frac{\sum (x_i - \bar{x})(y_j - \bar{y}) f_{ij}}{\sqrt{\sum (x_i - \bar{x})^2 R_i \cdot \sum (y_j - \bar{y})^2 C_j}} $$
$$ r = \frac{2.88}{\sqrt{9.73 \cdot 8.93}} = \frac{2.88}{9.33} \approx 0.31 $$
Il coefficiente di correlazione \( r \approx 0.31 \) indica una correlazione positiva moderata tra le ore di studio e il voto finale.
E così via.