Con l’articolo della settimana scorsa abbiamo posto fine allo studio delle medie algebriche, che rappresentano una particolare varietà di indici di posizione, ma che non sono gli unici indici che la Statistica mette a disposizione per l’analisi della posizione centrale di una distribuzione di dati.
In questo articolo analizziamo la mediana, un particolare indice di posizione centrale avente caratteristiche differenti da qualsiasi media algebrica ed il cui utilizzo, in una analisi statistica, può risultare esclusivo oppure in accompagnamento ad un qualsiasi altro indice di tendenza centrale, a seconda della caratteristica dei dati della distribuzione e dell’obiettivo che l’analisi statistica si pone di raggiungere.
Definizione : la mediana rappresenta quella particolare modalità dell’unità statistica che occupa la posizione centrale all’interno della distribuzione ordinata delle osservazioni.
Dalla definizione si evince immediatamente come essa possa essere, a differenza di una media algebrica, calcolabile per ogni variabile, qualitativa o quantitativa, per la quale sia comunque possibile stabilire un ordinamento tra le modalità, e cioè come essa si possa quindi calcolare esclusivamente per variabili ordinali (per una precisa definizione di variabile ordinale si rimanda il lettore all’articolo precedentemente pubblicato nelle settimane scorse).
Operativamente, per il calcolo della mediana, che non risulta così immediato e semplice come per una qualsiasi media algebrica, occorre distinguere tra variabili discrete con dati singolarmente raccolti, variabili discrete con dati già organizzati in una distribuzione di frequenza e variabili continue con classi di modalità e rispettive frequenze.
MEDIANA DI VARIABILE DISCRETA CON DATI SINGOLARMENTE RACCOLTI
Nel caso di variabili discrete, registrate singolarmente e ordinate dal valore minimo a1 al valore massimo an , la mediana Me è quel valore così ottenuto :
1) disporre i valori in una successione ordinata in modo crescente oppure decrescente e contare il numero totale di dati n ;
2) se il numero totale n di dati è dispari, la mediana corrisponde al valore numerico del dato centrale cioè quello che occupa posizione (n+1)/2 ;
3) se il numero totale n di dati è pari, la mediana viene stimata utilizzando i due valori centrali che occupano le posizioni n/2 e (n/2)+1 ed è fornita dalla media aritmetica di queste due osservazioni intermedie.
Da quanto dettagliato sopra si evince che la mediana è quell’unico valore centrale per dati ordinati se questi sono in numero dispari, ovvero come la semi-somma dei due valori centrali se questi sono in numero pari.
A rigor di logica, quando i dati sono in numero pari la mediana è qualsiasi valore compreso tra i due valori centrali, ma agli effetti pratici, la precedente convenzione di identificarla nella semi-somma dei due valori centrali, assume il significato di agevolarne il calcolo e di identificare la mediana in un unico valore numerico.
Esempio (1) : si calcoli la mediana nella serie ordinata dei seguenti sei dati : 10,1 – 10,8 – 13,1 – 13,9 – 14,2 – 14,5. Essendo il numero di osservazioni pari, i due valori centrali sono 13,1 e 13,9 e la mediana è individuata dalla loro media aritmetica, 13,5.
MEDIANA DI VARIABILE DISCRETA CON DATI DISPONIBILI IN DISTRIBUZIONE DI FREQUENZA
Per variabili discrete, note mediante una seriazione (perché organizzate in una distribuzione di frequenza), occorre individuare la modalità dell’unità statistica corrispondente al posto centrale, il che è generalmente semplice se i dati sono stati ordinati per calcolare le frequenze relative cumulate (si rimanda il lettore alla lettura dell’articolo precedentemente pubblicato nelle settimane scorse concernente la funzione di ripartizione che risulterà utile nella comprensione per il calcolo della mediana in queste situazioni).
Infatti, dalla conoscenza della funzione di ripartizione F(A) , si individua la modalità ai-1 cui corrisponde F(ai-1) ai si abbia F(ai) > = 0,5. La mediana Me coincide con la modalità ai poiché tra le ni unità che possiedono modalità ai vi sarà certamente quella (se n è dispari) o quelle (se n è pari) di posto centrale.
Proviamo a chiarire con un esempio concreto.
Esempio (2) : sia data la seguente funzione di ripartizione : 4 [0,15], 6 [0,20], 9 [0,35], 10 [0,40], 12 [0,65], 23 [0,70], 25 [0,75], 27 [0,90], 29 [0,95], 33 [1,00]. Ricordiamo che per una lettura della seguente distribuzione abbiamo considerato il valore della modalità della variabile con il valore della frequenza cumulata fra parentesi quadre. Cioè, quando è scritto 4 [0,15] significa che la modalità 4 ha frequenza cumulata 0,15 o 15% all’interno della funzione di ripartizione. Pertanto se i dati sono disponibili in distribuzione di frequenza occorre preventivamente costruire la funzione di ripartizione. Si vede subito in questo caso che in corrispondenza di A = 10 la funzione di ripartizione vale F(10) = 0,40 mentre in corrispondenza di A = 12 la funzione di ripartizione vale F(12) = 0,65. Ciò implica che il 40% delle unità statistiche presenterà valori delle modalità inferiori a 10 ed il 65% delle unità statistiche presenterà valori delle modalità inferiori a 12. Ne consegue che vi saranno due unità statistiche, poiché in questo esempio la numerosità è pari essendo n = 20, al centro della distribuzione che, entrambe, hanno modalità pari a 12, quindi la mediana è 12, come da definizione di cui sopra.
MEDIANA DI VARIABILE CONTINUA CON CLASSI DI MODALITA’
Per variabili continue, il raggruppamento in classi delle modalità consente al più di determinare solamente una classe mediana nella quale ricade l’unità statistica che bipartisce la distribuzione ordinata delle modalità.
Un singolo indice sintetico può essere ottenuto approssimando la funzione di ripartizione attorno alla mediana, cioè :
Me = a(i-1) + [ai – a(i-1)] x {{0,5 – F[a(i-1)]}/ [F(a1) – F(a1-1)]}
Esempio (3) : consideriamo il seguente intervallo centrale comprendente le due classi centrali di una variabile continua tale che la funzione di ripartizione vale : F(35) = 0,35 e F(45) = 0,72 e tale per cui :
F(35)
In questo caso la classe mediana sarà pertanto [35;45]
Se interessa determinare un solo valore per la mediana applichiamo la formula di cui sopra :
Me = 35 + (45 – 35) x (0,50 – 0,35) / (0,72 – 0,35) = 39,05
Nel prossimo articolo analizzeremo le proprietà, i pregi ed i difetti della mediana e metteremo a confronto tale indice di posizione con la media aritmetica semplice.
Bibliografia :
Statistica per le decisioni
Piccolo D.
Il Mulino
Statistica applicata alla ricerca biologica ed ambientale
Prof. Soliani L.
Uni Nova Editore