La concentrazione della variabilità

La concentrazione misura la variabilità di un fenomeno additivo. In altre parole, misura quanto sono concentrati i dati in una variabile statistica X.

La concentrazione è compresa tra due situazioni estreme

Massima concentrazione
Se una sola unità ha l'intero ammontare della variabile statistica X, la concentrazione è massima.
Equidistribuzione
Se tutte le unità hanno lo stesso ammontare del carattere,allora la concentrazione è nulla. Si verifica l'equidistribuzione. E' anche conosciuta come "concentrazione nulla".

Come si misura la concentrazione
Un esempio pratico

Come si misura la concentrazione

Se una variabile statistica ha n modalità di natura quantitativa, ordino le n modalità in ordine non decrescente. Dalla più piccola alla più grande.

$$ x_{1},x_{2},...,x_{n} $$

Esempio. Ho la distribuzione X composta da 8 valori

Ordino i dati in modo non decrescente.
i dati sono ordinati

Poi suddivido le n unità osservate in n frazioni cumulate (p_i) che chiamo frazioni cumulate delle unità.

$$ p_1 = \frac{1}{n} \\ p_2 = \frac{2}{n} \\ \vdots \\ p_n = \frac{n}{n} = 1 $$

Esempio. Nella distribuzione X ci sono n=8 unità osservate. Quindi, le frazioni cumulate delle unità sono $$ p_1 = \frac{1}{8} = 0,125 \\ p_2 = \frac{2}{8} = 0,25 \\ p_3 = \frac{3}{8} = 0,375 \\ p_4 = \frac{4}{8} = 0,5 \\ p_2 = \frac{5}{8} = 0,625 \\ p_6 = \frac{6}{8} = 0,75 \\ p_7 = \frac{7}{8} = 0,875 \\ p_8 = \frac{8}{8} = 1 $$ Le aggiungo nella tabella precedente.
le frazioni cumulate delle unità

Le frazioni cumulate delle unità sono valori da 0 a 1.

Calcolo il totale x_tot del carattere nella variabile statistica

$$ x_{tot} = \sum_{i=1}^n x_{i} $$

Esempio. In questo caso il totale delle osservazioni è x_tot=238

Aggiungo il cumulato x' delle osservazioni

Esempio. Aggiungo la colonna del cumulato x' alla tabella

Infine, calcolo le frazioni cumulate del carattere.

$$ q_1 = \frac{1}{ x_{tot} } \cdot \sum_{i=1}^1 x_i $$

$$ q_2 = \frac{1}{ x_{tot} } \cdot \sum_{i=1}^2 x_i $$

$$ q_n = \frac{1}{ x_{tot} } \cdot \sum_{i=1}^n x_i = 1 $$

Anche in questo le frazioni cumulate del carattere sono valori compresi tra 0 e 1.

Esempio. Aggiungo la colonna q delle frazioni cumulate del carattere alla tabella.
la tabella con la colonna del cumulato

Il confronto tra le frazioni cumulate delle unità osservate (p_i) e del carattere (q_i) delinea un quadro della concentrazione dei dati.

Per fare questo confronto utilizzo la curva di Lorenz o curva della concentrazione.

Sull'area delle ascisse misuro le frazioni cumulate delle unità osservate (p_i) mentre sull'asse delle ordinate misuro le frazioni cumulate del carattere (q_i)

La diagonale dal punto di origine (0;0) al punto (1;1) in alto a destra identifica la retta di equidistribuzione.

Se ci fosse un'equidistribuzione del carattere tutti i punti si collocherebbero su questa retta.

la retta di equidistribuzione

Infine, traccio dei punti nelle coordinate (p_i,q_i) per i=1,...,n.

Quando unisco questi punti ottengo la curva di concentrazione della variabile statistica.

la curva di concentrazione

L'area compresa tra la retta di equidistribuzione e la curva di concentrazione misura la concentrazione della variabile statistica ed è detta area di concentrazione (A).

l'area di concentrazione

L'indice della concentrazione (R) è dato dal rapporto tra l'area di concentrazione (A) e l'area di massima concentrazione.

$$ R = \frac{ \text{area di concentrazione (A)} }{ \text{area di max. concentrazione} } $$

Questo indice misura la concentrazione dei dati tra 0 e 1, dove 1 rappresenta la massima concentrazione.

Un esempio pratico

Faccio un esempio pratico per calcolare l'indice di concentrazione, utilizzando una distribuzione di valori e le loro frequenze.

Supponiamo di avere una distribuzione di redditi all'interno di un piccolo gruppo di persone.

x_i (reddito)	f_i (frequenza)
10.000	2
20.000	3
30.000	5
40.000	4
50.000	6

Questi valori rappresentano i redditi ($ x_i $) di un gruppo di persone e le rispettive frequenze ($ f_i $) indicano quante persone percepiscono ciascun reddito.

Moltiplico ogni $ x_i $ per la rispettiva frequenza $ f_i $:

x_i	f_i	x_i × f_i
10.000	2	20.000
20.000	3	60.000
30.000	5	150.000
40.000	4	160.000
50.000	6	300.000

Calcolo le frequenze relative ($ f_i / \sum f_i $) e poi le sommo per ottenere le cumulate.

La somma delle frequenze ($ \sum f_i $) è $ 2 + 3 + 5 + 4 + 6 = 20 $.

x_i	f_i	Frequenza relativa (f_i/20)	f_rc	x_i × f_i	Intensità relativa (∑ x_i × f_i / 690000)	i_rc
10.000	2	0.10	0.10	20.000	0.029	0.029
20.000	3	0.15	0.25	60.000	0.087	0.116
30.000	5	0.25	0.50	150.000	0.217	0.333
40.000	4	0.20	0.70	160.000	0.232	0.565
50.000	6	0.30	1.00	300.000	0.435	1.000

Il totale delle intensità è pari a 690.000

$$ 20.000 + 60.000 + 150.000 + 160.000 + 300.000 = 690.000 $$

Le frequenze cumulate ($ f_{rc} $) sono la somma progressiva delle frequenze relative.

Le intensità relative cumulate ($ i_{rc} $) sono la somma progressiva delle intensità relative.

A questo punto, rappresento i punti $(f_{rc}; i_{rc})$ nel piano cartesiano e li colleghiamo per ottenere la spezzata di concentrazione.

f_rc	i_rc
0.10	0.029
0.25	0.116
0.50	0.333
0.70	0.565
1.00	1.000

Ecco il diagramma cartesiano che mostra la spezzata di concentrazione e la retta di equidistribuzione.

I punti rappresentano le frequenze relative cumulate ($ f_{rc} $) e le intensità relative cumulate ($ i_{rc} $), mentre la linea tratteggiata rappresenta la retta di equidistribuzione.

la rappresentazione sul piano cartesiano

Per calcolare l'indice di concentrazione, devo calcolare l'area compresa tra la retta di equidistribuzione (la bisettrice del primo quadrante, ovvero $ y = x $) e la spezzata di concentrazione.

L'area di massima concentrazione è sempre pari a 0,5.

Nota. L'area di massima concentrazione è pari a 0,5 perché rappresenta l'area del triangolo formato dalla retta di equidistribuzione $ y = x $ che descrive una distribuzione perfettamente equa, nel piano delle frequenze relative cumulate e delle intensità relative cumulate. Questa retta forma un triangolo con i punti (0,0), (1,0) e (1,1), con base e altezza pari a 1. L'area del triangolo è calcolata come: $$ \text{Area} = \frac{1 \times 1}{2} = 0,5 $$ Quest'area rappresenta il massimo possibile e viene usata per normalizzare l'area di concentrazione effettiva, permettendo così di calcolare l'indice di concentrazione $ R $.

Per misurare l'area di concentrazione devo calcolare l'area tra la spezzata e l'asse orizzontale delle frequenze cumulate.

Suddivido la zona sottesa in triangoli e trapezi in base ai punti della spezzata di concentrazione:

- $ (0.0, 0.0) $
- $ (0.10, 0.029) $
- $ (0.25, 0.116) $
- $ (0.50, 0.333) $
- $ (0.70, 0.565) $
- $ (1.00, 1.000) $

In questo modo ottengo cinque figure geometriche elementari, un triangolo e quattro trapezi.

la suddivisione dell'area sotto la curva

Il primo segmento parte dal punto $(0, 0)$ e arriva a $(0.10, 0.029)$.

Si tratta di un triangolo con base $ 0.10 - 0.00 = 0.10 $ e altezza $ 0.029 $

Quindi, l'area del triangolo iniziale è:

$$ \text{Area} = 0.5 \times \text{Base} \times \text{Altezza} = 0.5 \times 0.10 \times 0.029 = 0.00145 $$

Per ciascun segmento successivo, calcolo l'area del trapezio usando la formula:

$$ \text{Area} = 0.5 \times (\text{Altezza}_1 + \text{Altezza}_2) \times (\text{Base}) $$

Il trapezio tra $(0.10, 0.029)$ e $(0.25, 0.116)$ ha come base: $ 0.25 - 0.10 = 0.15 $ e come altezze $ 0.029 $ e $ 0.116 $

$$ \text{Area} = 0.5 \times (0.029 + 0.116) \times 0.15 = 0.010875 $$

Il trapezio tra tra $(0.25, 0.116)$ e $(0.50, 0.333)$ ha come base $ 0.50 - 0.25 = 0.25 $ e come altezze $ 0.116 $ e $ 0.333 $

$$ \text{Area} = 0.5 \times (0.116 + 0.333) \times 0.25 = 0.056875 $$

Il trapezio tra $(0.50, 0.333)$ e $(0.70, 0.565)$ ha come base $ 0.70 - 0.50 = 0.20 $ e come altezze $ 0.333 $ e $ 0.565 $

$$ \text{Area} = 0.5 \times (0.333 + 0.565) \times 0.20 = 0.089800 $$

Il trapezio tra $(0.70, 0.565)$ e $(1.00, 1.000)$ ha come base $ 1.00 - 0.70 = 0.30 $ e come altezze $ 0.565 $ e $ 1.000 $

$$ \text{Area} = 0.5 \times (0.565 + 1.000) \times 0.30 = 0.234 $$

A questo punto, sommo le aree di tutti i trapezi e del triangolo:

$$ \text{Area totale} = 0.00145 + 0.010875 + 0.056875 + 0.089800 + 0.234 = 0.393 $$

L'area totale sottostante la spezzata di concentrazione, calcolata sommando le aree dei singoli trapezi e del triangolo, è risultata pari a 0.393.

Questo valore mi permette di calcolare l'area di concentrazione sottraendo l'area totale della spezzata (0.393) dall'area massima (0.5):

$$ \text{area di concentrazione} = 0.5 - 0.393 = 0.107 $$

L'area di concentrazione è pari a 0.107.

l'area di concentrazione

Pertanto, l'indice di concentrazione si calcola come segue:

$$ R = \frac{\text{area di concentrazione}}{\text{area di massima concentrazione}} = \frac{0,107}{0,5} = 0,214 $$

L'indice di concentrazione $ R = 0,214 $ indica che la distribuzione dei redditi nel gruppo è moderatamente concentrata, pari al 21,4%.

Un valore più vicino a 1 indica una maggiore concentrazione (una distribuzione non equa), mentre un valore vicino a 0 indica una distribuzione molto equa.

E così via.

Seguimi anche su YouTube