La correlazione lineare nelle tabelle a doppia entrata

Per calcolare il coefficiente di correlazione lineare \( r \) tra due variabili in una tabella a doppia entrata

Y / X y₁ y₂ ... yⱼ ... Totale
x₁ f₁₁ f₁₂ ... f₁ⱼ ... R₁
x₂ f₂₁ f₂₂ ... f₂ⱼ ... R₂
... ... ... ... ... ... ...
xᵢ fᵢ₁ fᵢ₂ ... fᵢⱼ ... Rᵢ
... ... ... ... ... ... ...
Totale C₁ C₂ ... Cⱼ ... N

Seguo questo procedimento:

  1. Calcolo le medie \( \bar{x} \) e \( \bar{y} \) delle variabili \( X \) e \( Y \) utilizzando le frequenze marginali.
  2. Determino gli scarti di ciascun valore dalla media (\( x_i - \bar{x} \) e \( y_j - \bar{y} \)).
  3. Moltiplico gli scarti di \( X \) e \( Y \) per le frequenze congiunte \( f_{ij} \) e sommo questi prodotti.
  4. Calcolo i quadrati degli scarti ponderati per le frequenze marginali \( R_i \) e \( C_j \) di \( X \) e \( Y \), e sommo i risultati
  5. Applico la formula di calcolo del coefficiente lineare $$ r = \frac{\sum (x_i - \bar{x})(y_j - \bar{y}) f_{ij}}{\sqrt{\sum (x_i - \bar{x})^2 R_i \cdot \sum (y_j - \bar{y})^2 C_j}} $$ dove la sommatoria doppia considera tutti i valori di \( i \) e \( j \) nelle righe e colonne. Questa formula fornisce \( r \), che indica l’intensità e la direzione della correlazione tra \( X \) e \( Y \).

Questo metodo mi permette di ottenere \( r \), un indicatore della correlazione lineare delle due variabili.

Nota. Nella tabella a doppia entrata che ho usato per rappresentare la distribuzione delle frequenze congiunte di due variabili, \( X \) e \( Y \):

  • \( x_i \) e \( y_j \) indicano i valori delle variabili \( X \) e \( Y \).
  • \( f_{ij} \) rappresenta la frequenza congiunta associata alla coppia \( (x_i, y_j) \).
  • \( C_j \) è la somma delle frequenze nelle colonne, rappresentando le frequenze marginali per \( Y \).
  • \( R_i \) è la somma delle frequenze nelle righe, rappresentando le frequenze marginali per \( X \).
  • \( N \) è il totale generale, ovvero la somma di tutte le frequenze congiunte.

In generale questa struttura mi permette di calcolare statistiche come il coefficiente di correlazione, partendo dalle frequenze congiunte \( f_{ij} \), dalle frequenze marginali di \( X \) e \( Y \), e dalle medie delle distribuzioni marginali.

    Un esempio pratico

    Vediamo un esempio pratico per il calcolo del coefficiente di correlazione \( r \) con una tabella a doppia entrata.

    Supponiamo di voler studiare la correlazione tra il numero di ore di studio (\( X \)) e il voto finale (\( Y \)) di un gruppo di studenti.

      \( Y = 6 \) \( Y = 7 \) \( Y = 8 \) Totale (Ri)
    \( X = 4 \) 3 2 1 6
    \( X = 5 \) 1 3 1 5
    \( X = 6 \) 1 1 2 4
    Totale (Cj) 5 6 4 15

    La tabella seguente riporta le frequenze congiunte degli studenti per ogni combinazione di ore di studio e voto:

    Calcolo le medie marginali di \( X \) e \( Y \):

    $$ \bar{x} = \frac{4 \times 6 + 5 \times 5 + 6 \times 4}{15} = \frac{24 + 25 + 24}{15} = \frac{73}{15} \approx 4.87 $$

    $$ \bar{y} = \frac{6 \times 5 + 7 \times 6 + 8 \times 4}{15} = \frac{30 + 42 + 32}{15} = \frac{104}{15} \approx 6.93 $$

    Poi calcolo gli scarti dalla media per ogni valore di \( X \) e \( Y \).

    Gli scarti della variabile \( X \) sono:

    • \( 4 - \bar{x} = 4 - 4.87 = -0.87 \)
    • \( 5 - \bar{x} = 5 - 4.87 = 0.13 \)
    • \( 6 - \bar{x} = 6 - 4.87 = 1.13 \)

    Gli scarti della variabile \( Y \) sono:

    • \( 6 - \bar{y} = 6 - 6.93 = -0.93 \)
    • \( 7 - \bar{y} = 7 - 6.93 = 0.07 \)
    • \( 8 - \bar{y} = 8 - 6.93 = 1.07 \)

    Per facilitare la comprensione del procedimento, riporto gli scarti direttamente sopra le righe e accanto alle colonne della tabella.

    Poi calcolo il prodotto degli scarti per ciascuna coppia (cella della tabella) e lo moltiplico per la frequenza congiunta \( f_{ij} \):

      
     
    \( y_j - \bar{y}  \)
    \( -0.93 \) \( 0.07 \) \( 1.07 \)
     
    \( x_i - \bar{x}  \)
     
    \( -0.87 \) \( (-0.87)(-0.93) \times 3 \) \( (-0.87)(0.07) \times 2 \) \( (-0.87)(1.07) \times 1 \)
    \( 0.13 \) \( (0.13)(-0.93) \times 1\) \( (0.13)(0.07) \times 3 \) \( (0.13)(1.07) \times 1 \)
    \( 1.13 \) \( (1.13)(-0.93) \times 1\) \( (1.13)(0.07) \times 1 \) \( (1.13)(1.07) \times 2 \)

    Ad esempio, nella prima cella in alto a sinistra la variabile \( X=4 \) ha uno scarto di \( 0.87 \) rispetto alla media \( \bar{x} \) mentre la variabile \( Y=6 \) ha uno scarto di \( - 0.93 \) rispetto alla media \( \bar{y} \). La frequenza congiunta di queste variabili è \( 3 \). Dove per frequenza congiunta intendo il numero degli studenti che ha studiato \( X=4 \) ore ottenendo un voto pari a \( Y=6 \). Il risultato finale è \(  2.43 \) $$ (-0.87)(-0.93) \times 3 = 2.43 $$

    A questo punto, svolgo i calcoli in ciascuna cella della tabella e sommo i totali parziali per ciascuna riga.

      
     
    \( y_j - \bar{y}  \)
    \( -0.93 \) \( 0.07 \) \( 1.07 \) \( (x_i - \bar{x})(y_j - \bar{y}) f_{ij} \)
     
    \( x_i - \bar{x}  \)
     
    \( -0.87 \)   2.43  -0.12   -0.93 1.38
    \( 0.13 \)  -0.12  0.03   0.14  0.05
    \( 1.13 \)  -1.05   0.08   2.42  1.45

    Sommo i totali parziali dei prodotti di ciascuna riga:

    $$  \sum (x_i - \bar{x})(y_j - \bar{y}) f_{ij} = 1.38 + 0.05 + 1.45 = 2.88 $$

    Calcolo il quadrato degli scarti \( (x_i - \bar{x})^2 \) di ogni riga e lo moltiplico per le frequenze marginali \( R_i \) della riga stessa \( X \)

    $$ \sum (x_i - \bar{x})^2 R_i = (-0.87)^2 \times 6 + (0.13)^2 \times 5 + (1.13)^2 \times 4  $$

    $$ \sum (x_i - \bar{x})^2 R_i = 4.54 + 0.08 + 5.11 $$

    $$ \sum (x_i - \bar{x})^2 R_i = 9.73 $$

      
     
    \( y_j - \bar{y}  \)
    \( -0.93 \) \( 0.07 \) \( 1.07 \) \( (x_i - \bar{x})(y_j - \bar{y}) f_{ij} \) \( (x_i - \bar{x})^2 R_i \)
     
    \( x_i - \bar{x}  \)
     
    \( -0.87 \) 2.43  -0.12   -0.93  1.38  4.54
    \( 0.13 \) -0.12   0.03   0.14  0.05 0.08
    \( 1.13 \)  -1.05   0.08   2.42  1.45  5.11 

    Calcolo il quadrato degli scarti \( y_i - \bar{y})^2 \) di ogni colonna e lo moltiplico per le frequenze marginali \( C_j \) della colonna stessa \( X \)

    $$ \sum (y_j - \bar{y})^2 C_j = (-0.93)^2 \times 5 + (0.07)^2 \times 6 + (1.07)^2 \times 4  $$

    $$ \sum (y_j - \bar{y})^2 C_j = 4.32 + 0.03 + 4.58 $$

    $$ \sum (y_j - \bar{y})^2 C_j = 8.93  $$

      
     
    \( y_j - \bar{y}  \)
    \( -0.93 \) \( 0.07 \) \( 1.07 \) \( (x_i - \bar{x})(y_j - \bar{y}) f_{ij} \) \( (x_i - \bar{x})^2 R_i \)
     
    \( x_i - \bar{x}  \)
     
    \( -0.87 \) 2.43 -0.12 -0.93 1.38 4.54
    \( 0.13 \) -0.12 0.03  0.14 0.05 0.08
    \( 1.13 \) -1.05 0.08 2.42 1.45  5.11 
    \( (y_i - \bar{y})^2 C_i \) 4.32 0.03 4.58

    Infine, applico la formula:

    $$ r = \frac{\sum (x_i - \bar{x})(y_j - \bar{y}) f_{ij}}{\sqrt{\sum (x_i - \bar{x})^2 R_i \cdot \sum (y_j - \bar{y})^2 C_j}} $$

    $$ r = \frac{2.88}{\sqrt{9.73 \cdot 8.93}} = \frac{2.88}{9.33} \approx 0.31 $$

    Il coefficiente di correlazione \( r \approx 0.31 \) indica una correlazione positiva moderata tra le ore di studio e il voto finale.

    E così via.

     


     

    Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

    FacebookTwitterLinkedinLinkedin
    knowledge base

    Indipendenza statistica