MISURE DI DISPERSIONE O VARIABILITA’
La dispersione o variabilità è la seconda importante caratteristica di una distribuzione di dati poiché la sola utilizzazione di indici di posizione o tendenza centrale non è sufficiente né a descrivere e sintetizzare in modo completo l’andamento di un determinato fenomeno oggetto di studio, né a discriminare tra situazioni nelle quali i fenomeni siano tra loro molto differenziati, pur in presenza di valori di indici di posizione centrale molto simili.
Per quanto concerne l’andamento di un determinato fenomeno oggetto di studio è abbastanza intuibile come il solo calcolo di un valore di tendenza centrale della distribuzione di dati che lo descrive sia insufficiente a sintetizzare in modo corretto la realtà fisica in quanto ogni tipo di fenomeno, naturale o non (economico, sociale, ecc…) si caratterizza anche per una certa variabilità, sia temporale che spaziale.
Inoltre, spesso accade di dover mettere a confronto diverse distribuzioni di dati rappresentanti numericamente lo stesso fenomeno studiato in diversi luoghi o in diversi momenti temporali; questa rappresenta la classica casistica ove in presenza di valori di indici di tendenza centrali simili ci troviamo comunque di fronte ad uno stesso fenomeno avente andamento differenziato, per luogo o tempo, causa una diversa distribuzione dei valori estremi, la quale non può che emergere da una analisi della dispersione della distribuzione di dati.
In questo e nei futuri articoli verranno introdotte le metodologie e gli indici statistici maggiormente idonei ad evidenziare questa caratteristica di una distribuzione di dati, ricordando che in climatologia risulta di fondamentale importanza saper utilizzare tali metodologie (come vedremo in futuri articoli specifici) nell’analisi dei dati climatici, al fine di una corretta analisi climatico – statistica.
In statistica descrittiva le misure di dispersione o variabilità vengono innanzitutto classificate in base al punto di riferimento cui vengono calcolate, come illustrato nel seguente schema, da cui derivano quattro distinte metodologie applicabili a seconda della caratteristica del fenomeno e della sua distribuzione teorica di probabilità:
1) dispersione rispetto ad un valore di posizione , utilizzate per misurare la variabilità mediante una sintesi degli scarti tra le singole modalità ed il valore di riferimento, quasi sempre un indice di tendenza centrale;
2) dispersione delle modalità ordinate , utilizzate per misurare la variabilità mediante indici derivati dalla funzione di ripartizione empirica (frequenze cumulate), già introdotta nei precedenti articoli;
3) mutua variabilità , calcolata mediante una sintesi delle diversità esistenti tra tutte le coppie di modalità;
4) mutevolezza delle frequenze , calcolata mediante una sintesi della variabilità rispetto alle sole frequenze relative.
DISPERSIONE RISPETTO AD UN VALORE DI POSIZIONE
Un fenomeno reale può variare nel tempo, sul territorio, ecc…, ed un indice di variabilità ha l’obiettivo preciso di misurare e mettere in risalto questo aspetto di assoluta e fondamentale importanza da non trascurare mai nell’analisi statistica dei dati osservati.
Fin dagli albori della Statistica descrittiva è apparso ragionevole ed intuitivo misurare la variabilità di un fenomeno verificando se le singole unità statistiche presentano modalità più o meno stabili rispetto ad un indice di tendenza centrale, il quale viene pertanto assunto come rappresentativo della intera distribuzione di frequenza.
Se, come spesso avviene, per ragioni che approfondiremo in articoli futuri, si assume come punto di riferimento la media aritmetica semplice, allora la metodologia consiste nel sintetizzare le differenze tra le singole modalità rispetto ad essa, cioè tutte le quantità :
a1 – M, a2 – M, …, an – M
Il lettore di certo ricorderà però che, come già anticipato anche in articoli precedenti, la somma algebrica degli scarti dalla media aritmetica semplice presenta la caratteristica di essere nulla e pertanto appare evidentemente opportuno sintetizzare la variabilità di una variabile A tramite altre metodologie quali l’utilizzo degli scarti assoluti o i quadrati degli scarti, dai quali derivano poi vari indici statistici di variabilità.
Scarto medio assoluto
Lo scarto medio assoluto Sm dalla media aritmetica semplice M , è fornito dalla formula :
Sm = SOM(ASS(ai – M)) / n
cioè esso è il risultato della divisione fra la sommatoria del valore assoluto degli scarti delle singole modalità dalla media aritmetica semplice ed il numero n di modalità osservate.
Se le modalità sono disponibili mediante raggruppamenti per frequenze la precedente formula si modifica semplicemente eseguendo a numeratore la sommatoria del rapporto fra il valore assoluto degli scarti delle modalità rispetto la media aritmetica ponderata e la relativa frequenza:
Sm = SOM(ASS(ai – M) x ni) / n
ESEMPIO : consideriamo la seguente distribuzione di dati [5,6,6,7,7,8,10] e calcoliamo lo scarto medio assoluto mediante i seguenti passaggi :
media = (5+6+6+7+7+8+10) / 7 = 7
scarti dalla media = (5-7, 6-7, 6-7, 7-7, 7-7, 8-7, 10-7) = (-2, -1, -1, 0, 0, 1, 3)
scarti assoluti dalla media = (2, 1, 1, 0, 0, 1, 3)
sommatoria degli scarti assoluti = 8
scarto medio assoluto = 8 / 7 = 1,14
Bibliografia :
Statistica per le decisioni
Piccolo D.
Il Mulino
Statistica applicata alla ricerca biologica ed ambientale
Prof. Soliani L.
Uni Nova Editore