Nell’articolo della settimana scorsa abbiamo introdotto quel ramo della Statistica descrittiva che si occupa dell’analisi della dispersione dei dati ed in particolare abbiamo posto l’accento sulla dispersione rispetto ad un valore di posizione centrale esaminando gli scarti dalla media aritmetica semplice.
Il lettore ricorderà che la sommatoria degli scarti dalla media aritmetica semplice assume sempre un valore nullo che, di fatto, ne impedisce un pratico utilizzo nella Statistica e, pertanto, si è provveduto ad introdurre lo scarto medio assoluto ottenuto sul valore assoluto degli scarti dalla media aritmetica semplice, proprio per annullare tale particolarità.
In questo articolo tratteremo una nuova misura di dispersione dei dati, la devianza , utilizzando, anziché i valori assoluti degli scarti dalla media aritmetica semplice, i loro quadrati.
La devianza è pertanto fornita dalla sommatoria degli scarti dalla media aritmetica semplice elevati al quadrato :
devianza = SOM(ai – M)^2 (1)
L’equazione (1) introdotta rappresenta la cosiddetta forma euristica , spesso assai poco pratica in particolare quando la media aritmetica semplice è un valore frazionale con valori decimali. A tal punto diviene conveniente ricorrere ad un’altra formula, algebricamente equivalente, che permette di effettuare i calcoli manuali in tempi più brevi e con una sola approssimazione finale, chiamata forma empirica :
devianza = SOM(ai^2) – SOM(ai)^2 / n (2)
In questo caso calcoleremo la devianza come differenza fra la sommatoria di ogni valore osservato elevato al quadrato ed il rapporto fra la sommatoria di tutti i valori, elevata al quadrato, ed il numero di osservazioni.
ESEMPIO : calcoliamo mediante l’equazione della forma euristica (1) e della forma empirica (2) la devianza della seguente distribuzione di dati [5,6,7,7,8,10].
Equazione forma euristica (1) = calcolo della media M = (5 + 6 + 7 + 7 + 8 + 10) / 6 = 7,1666…
Calcolo della devianza = (5 – 7,16)^2 + (6 – 7,16)^2 + (7 – 7,16)^2 + (7 – 7,16)^2 + (8 – 7,16)^2 + (10 – 7,16)^2 = 4,665 + 1,3456 + 0,0256 + 0,0256 + 0,7056 + 8,0656 = 14,8356.
Equazione forma empirica (2) = (25 + 36 + 49 + 49 + 64 + 100) – 43^2 / 6 = 323 – 1849 / 6 = 323 – 308,1666… = 14,8334.
Come è possibile osservare anche nell’esempio proposto, i due valori della devianza spesso non risultano identici, in particolare quando stimati con più cifre decimali, a causa dell’approssimazione con la quale è calcolata la media, se essa non risulta essere un valore intero.
In questi casi, è da ritenersi maggiormente corretta la stima fornita dall’equazione della forma empirica, che non richiede approssimazioni nei conteggi intermedi.
E’ utile ricordare che, per dati disponibili mediante frequenze, l’equazione della forma euristica si trasforma come segue :
devianza = SOM(Mai – Ma)^2 x ni
dove Mai rappresenta il valore centrale di ogni classe ed il valore Ma rappresenta la media generale della distribuzione di dati.
In conclusione si ricorda che il valore della devianza dipende da due caratteristiche della distribuzione dei dati, gli scarti di ogni valore dalla media aritmetica ed il numero dei dati della distribuzione. La prima caratteristica rappresenta la misura della dispersione o variabilità dei dati ed è l’effetto che si intende stimare mentre la seconda rappresenta di fatto un fattore limitante per l’uso della devianza, poiché un confronto tra due o più devianze appartenenti a diverse distribuzioni di dati richiederebbe campioni con lo stesso numero di dati.
Nel prossimo articolo inizieremo ad introdurre quelle misure della dispersione o variabilità dei dati che sono indipendenti dal numero di osservazioni e, pertanto, possono essere considerate robuste a tal punto che gran parte delle metodologie statistiche trovano fondamento nel loro impiego : la varianza e la deviazione standard.
Bibliografia :
Statistica per le decisioni
Piccolo D.
Il Mulino
Statistica applicata alla ricerca biologica ed ambientale
Prof. Soliani L.
Uni Nova Editore