home

MICRO·CORSO di STATISTICA
percorso standard

Giovanni Garasto corso

percorso standard

1.  Primi passi
          ... ... ...
          1.7 Questioni di metodo

 ° Ogni problema tecnico-scientifico che coinvolga dei dati ha aspetti specifici che vanno studiati di volta in volta in modo circostanziato e rigoroso; ciò al fine di individuare quali siano gli strumenti statistici più idonei e quali di questi risultino ammissibili sia in termini tecnici (rispetto delle condizioni di applicazione, affidabilità dei risultati) sia in termini operativi generali (analisi costi-benefici).

In ogni caso, u
n’indagine, osservazionale o sperimentale, condotta con l’ausilio di tecniche statistiche, consta grosso modo delle fasi di seguito indicate.

(1) Programmazione, che comporta:

· descrizione dell’ambito della ricerca;
· definizione dell’obiettivo con la costruzione dell’ipotesi generale, cioè della congettura di partenza da sottoporre a verifica nel corso dell’analisi dei dati;
· costruzione dell’ipotesi nulla e della o delle ipotesi alternative: tali ipotesi devono essere espresse in termini operativi rigorosi e devono essere verificabili, cioè deve essere individuato esattamente cosa deve essere verificato (falsificato) e come;
· definizione precisa delle unità statistiche della popolazione e delle variabili/mutabili da studiare;
· scelta dei test statistici appropriati sulla base della conoscenza della natura (quindi scala di misura) e della distribuzione dei dati e delle ipotesi da verificare;
· scelta di un campione che sia rappresentativo della popolazione, eventuale costruzione di una lista di estrazione, definizione delle modalità di campionamento, che può essere: casuale semplice (sorteggio o utilizzo della tabella dei numeri casuali al fine di garantire che ciascun componente della popolazione abbia le stesse probabilità di entrare a far parte del campione), sistematico, stratificato, multifasico, multistadio;
· definizione, con l’ausilio di specifiche tecniche, della numerosità del campione necessaria a garantire l’affidabilità dell’inferenza, cioè dell’estrapolazione alla popolazione, all’interno di un certo margine di errore, delle conclusioni raggiunte sulla base dell’analisi del campione (sono in genere considerati piccoli campioni quelli di numerosità inferiore o uguale a 30 e grandi campioni quelli di numerosità uguale o maggiore di 100);
· analisi costi/benefici e analisi di fattibilità della ricerca;
· definizione degli aspetti organizzativi (tempi e modi di utilizzo delle risorse umane e strumentali).

(2) Attuazione della parte strettamente operativa, cioè della rilevazione e prima manipolazione dei dati, che comprende:

· effettuazione di conteggi e misure e di eventuali calcoli, quindi registrazione dei dati grezzi;
· prima valutazione dei dati grezzi al fine di garantire la correttezza dei passi successivi;
· archiviazione in matrici ordinate (tabulazione), in genere con l’ausilio di strumenti informatici come i fogli elettronici; sono da considerare i problemi relativi alle modalità di archiviazione (es.: in genere si pongono le variabili in colonna e le unità statistiche in riga) e al trattamento dei valori (es.: con numeri molto grandi o molto piccoli si preferisce la notazione scientifica, per potenze di 10; gli arrotondamenti vanno effettuati, per difetto o per eccesso col 5 riportato alla più vicina cifra pari, attenendosi alle cifre significative o, comunque, a quelle scelte per convenzione; ecc.);
· individuazione di eventuali dati anomali (outliers), cioè di valori campionari da ritenersi frutto di errore di rilevazione o trascrizione e quindi non rappresentativi della popolazione di origine del campione; si tratta di valori che presentano, a colpo d’occhio, scarti particolarmente elevati rispetto agli altri elementi della serie, la cui disomogeneità al campione può essere confermata, oltre che con l’esame visivo del grafico della distribuzione, con specifici test statistici, tutti basati sull’utilizzo dell’informazione contenuta negli altri dati campionari; una loro eventuale eliminazione deve essere sempre preceduta da un’accurata riflessione sia sulla loro possibile origine e significato, sia sulla possibilità di estendere il campionamento, sia, infine, sull’opportunità di conservarli applicando poi, nell’elaborazione, test di ipotesi non parametrici, che sono test “robusti, che utilizzano tutti i dati ma rendono minima l’influenza dei valori estremi, quelli che più si allontanano dal valore di tendenza centrale” [Castino-Roletto];
· individuazione di eventuali ‘derive’ sistematiche nelle serie di dati, anche con l’ausilio di specifici test statistici non parametrici;
· valutazioni sul modello distributivo dei dati, che condizionerà le modalità descrittive e l’uso successivo dei test di confronto e di associazione; al fine d'individuare la palusibile distribuzione della popolazione d'origine dei dati si usano specifici test di bontà dell'adattamento (categoria cui appartengono i test di normalità);
· eventuale trasformazione dei dati in relazione alla loro natura e distribuzione; in tal senso vanno, per es., la trasformazione logaritmica decimale [utile per normalizzare distribuzioni fortemente asimmetriche a destra (attenzione, in tal caso ai valori 0, il cui log è inesistente, e a quelli compresi tra 0 e 1, che producono "caratteristiche" negative !], la trasformazione in radice quadrata [utile per normalizzare dati derivati da conteggi a distribuzione poissoniana (batteri in campo microscopico, insetti su una superficie)], la trasformazione angolare [arcsenÖ(percentuale/100), utile per normalizzare percentuali derivate da proporzioni] e la trasformazione in ranghi necessaria per l’applicazione di alcuni test statistici [in tal caso, disposti i dati in scala ordinale crescente, si assegnano indici numerici crescenti corrispondenti alla loro posizione nella serie, o, per dati eguali, alla media delle loro posizioni].

(3) Descrizione dei dati, intesa come modalità sintetica di espressione dei dati disponibili, sostanziantesi in:

· calcolo dei parametri della distribuzione campionaria, variamente applicabili in funzione della scala di misura ed assumenti differente significato secondo la distribuzione dei dati; essi comprendono:

indici di posizione

Þ  media aritmetica, indice di tendenza centrale, non applicabile a dati in scala nominale e ordinale, rappresentata con il simbolo della variabile soprasegnato e calcolata in modo semplice [x=åxi /N] o ponderato (cioè dando ad ogni valore un ‘peso’, che, nel caso di ‘dati raggruppati’, coincide con la frequenza del valore nella serie) [xp=å(xi fi )/åfi]; la media aritmetica, che risente molto dei valori estremi, è valore tale per cui a) la somma algebrica degli scarti da essa è uguale a zero, b) la somma algebrica dei quadrati degli scarti da essa (devianza o somma dei quadrati) è minima rispetto ad analoga somma calcolata a partire dagli scarti da qualsiasi altro valore usato come riferimento, c) moltiplicando o dividendo tutti i valori per una costante ad ottenere una nuova variabile, la media della nuova variabile è pari alla media della variabile in esame moltiplicata o divisa per quella costante; va notato che la media di medie e la media di percentuali vanno sempre calcolate in modo ponderato;
Þ  media armonica, che è il reciproco della media aritmetica dei reciproci dei valori della serie, calcolata come semplice [xh=N/å(1/xi)] o ponderata [xhp=åfi /å(fi /xi )], non applicabile a valori nulli; essa va utilizzata in studi in cui sono in gioco grandezze inversamente proporzionali (es.: tempi di sopravvivenza dopo esposizione a un tossico, velocità-spazio percorso, potere d’acquisto di una moneta);
Þ  media geometrica, che è la radice n-esima del prodotto degli n dati della serie, calcolata come semplice [xg=NÖÕxi] o ponderata [xgp= åfiÖÕxifi]; essa è ottenuta più agevolmente calcolando la media aritmetica dei logaritmi dei dati e quindi l’antilogaritmo di questa [xg=10(ålogxi)/N], per cui non è applicabile a valori nulli o negativi; la media geometrica, che risente molto del valore più piccolo, è utile “quando i vari termini da mediare non si addizionano fra loro, ma seguono una legge moltiplicativa di accumulo” [Castino-Roletto] (per es., per serie di dati relativi a colture batteriche o a titoli anticorpali o a variazioni percentuali in tempi successivi);
Þ  media quadratica, che è la radice quadrata della media dei quadrati dei dati Q=Ö(Sy2/N);

NOTA: la verifica che la scelta operata a favore di un tipo di media è corretta va fatta a posteriori effettuando calcoli di conferma, basati su criteri ad hoc ragionevolemnte compatibili con il tipo di dati; si consideri, per es., il criterio del valore costante, “che consiste nel sostituire, a ciascun valore della serie, il valore y assunto come parametro di posizione e nel verificare se la somma dei valori non cambia.” [Castino-Roletto] o la verifica dell’uguaglianza tra recisproco della media e media dei reciproci in caso di dati costituiti da rapporti;

Þ  moda, che è il valore o classe più frequente di una distribuzione; una plurimodalità può essere segno di disomogeneità del campione;
Þ  mediana, che è il valore del dato posto al centro della serie ordinata (o la media dei valori dei dati centrali in serie di numerosità pari) e, in caso di dati raggruppati, è calcolata con  mediana=L1+{[(N/2)-(Sf)1]/fmedianac  in cui L1, fmediana e c sono ripettivamente il confine inferiore, la frequenza e l’ampiezza della classe contenente la mediana (classe mediana), (Sf)1 è la somma delle frequenze di tutte le classi inferiori alla mediana e N la frequenza totale; la mediana è indice di posizione che non risente dei valori estremi; appartiene alla categoria degli indici di ordine detti quantili o frattili, rappresentati dai valori dei dati posti in determinate posizioni della serie: essa è infatti il cinquantesimo percentile, il quinto decile, il secondo quartile;
Þ  numeri indice e media mobile che sono indici di posizione nel tempo;

indici di dispersione o di variabilità
Þ 
intervallo (o campo) di variazione, differenza tra il valore massimo e il valore minimo di una serie;
Þ  devianza (
D, SQ), somma dei quadrati degli scarti dalla media, calcolata con å(xi -x)2 o, per dati raggruppati in classi, con å[(xi -x )2 fi ], o ancora, per le grandi serie, con la formula abbreviata åxi2-[(åxi )2 /N]
Þ  varianza, calcolata con s2 = å(xi -x )2/(N-1), cioè dividendo la devianza per i gradi di libertà; altre formule per il calcolo della varianza sono quella abbreviata s2 =xi2 -[(åxi )2/N]}/(N-1), quella per dati raggruppati in classi s2 = å[(xi -x)2fi ]/(N-1) e la corrispondente formula abbreviata s2 =(xi2 fi )-[(åxi fi)2/N]}/(N-1); se la varianza di grandi campioni è calcolata da dati raggruppati in classi, si può usare (ma alcuni Autori la sconsigliano) la correzione per la continuità di Sheppard, consistente nel sottrarre alla varianza calcolata un fattore pari al quadrato dell’ampiezza delle classi diviso 12; va ricordato che le varianze godono della proprietà di potersi sommare tra loro;
Þ  deviazione standard (scarto quadratico medio, scarto tipo), radice quadrata della varianza [s per i campioni, s per le popolazioni], di uso rilevante nelle distribuzioni normali, in cui gli intervalli della media ±s (tratto compreso tra i due punti di flesso della curva), ±2s e ±3s comprendono rispettivamente il 68.27%, il 95.45% e il 99.73% dei valori; la deviazione standard è utilizzata per standardizzare le variabili, cioè renderle adimensionali e quindi confrontabili indipendentemente dall’unità di misura (la variabile standardizzata z è data dalla formula z=(x-m)/s);
Þ  coefficiente di variazione, misura relativa di dispersione (adimensionale) ottenuta con la formula CV%=100(s/x);
Þ  scarto (range o intervallo) interquartile, differenza fra i valori corrispondenti al terzo e al primo quartile; va considerto che in esso è compreso il 50% dei dati (di più quando applicato a una distribuzione normale, poiché viene a corrispondere all’intervallo x±1.35s);
Þ  scarto mediano assoluto (median absolute deviation, MAD), mediana degli scarti assoluti dalla mediana, utilizzabile sia per individuare dati anomali, sia per fornire stime “robuste” della media e della deviazione standard di una popolazione;

indici di forma di distribuzione
Þ  indici di asimmetria (skewness), tra cui l’indice g1 di Fisher, che è un momento standardizzato di terzo ordine, il quale può variare tra -¥ e +¥ ed è da considerarsi trascurabile per valore assoluto compreso tra 0 e 1/2 [va ricordato che i momenti statistici, mutuati dai momenti fisici e applicati alle serie statistiche, sono le medie delle potenze di ordine k degli scarti di valori xi da un valore arbitrario che può essere l’origine (cioè 0) o, nel nostro caso, la media, per cui m3=S(xi - x)3/N che viene standardizzato dividendolo per s3 [g2=(m3 /s3 )]; va ricordato che i momenti di primo e secondo ordine sono la media e la varianza;
Þ  indici di curtosi (cioè di appiattimento della curva di distribuzione, la quale può essere plati-, meso- o lepto-curtica), tra cui l’indice g2 di Fisher, momento standardizzato di quarto ordine, calcolato analogamente a quello di simmetria [g2=(m4 /s4 )-3]; l’indice, che può variare da -2 a +¥, è 0 in caso di mesocurtosi perfetta;

· tabulazioni di frequenza, che possono essere a una entrata oppure a entrata multipla (tabelle di contingenza che utilizzano più variabili/mutabili come criteri di classificazione); la costruzione delle classi di frequenza (numero e ampiezza) deve rispondere ad un criterio generale di buona leggibilità dei dati, cioè deve evidenziare quanto più correttamente possibile l’andamento della/e variabile/i; a tal proposito, sono state proposte formule per calcolare il numero minimo di classi R=1+(10/3)log10N [formula di Sturges](comunque non meno di 4-5), il numero massimo di classi R=10 logN [ formula di Dixon-Kronmal] oppure R=2ÖN [formula di Valleman] a seconda che N sia maggiore o minore di 100 (non più di 15-20), l’ampiezza ottimale delle classi h=3.5(s/ÖN) [formula di Scott] oppure hn=2(IQ)/N1/3 [formula di Freedman-Diaconis], in cui IQ=intervallo interquartile); inoltre è opportuno che tutte le classi abbiano la stessa ampiezza, che siano evitate le classi aperte e che i limiti di classe siano definiti senza ambiguità (ogni unità statistica deve essere classificata e, inoltre, deve essere classificabile in una e una sola classe);

· rappresentazioni grafiche, che consentono una comprensione immediata ancorché approssimativa dei dati e che possone essere lineari (es.: blob-chart), piane (es.: diagrammi a bastoni, diagrammi a gradini, diagrammi polari, istogrammi, poligoni di frequenza, diagrammi a nastro, diagrammi circolari, cartogrammi, pictogrammi), tridimensionali (stereogrammi); il tipo di grafico e la sua organizzazione interna devono essere scelti con cura in funzione del tipo di dati, degli obiettivi della rappresentazione, della leggibilità della stessa; una forma particolare di rappresentazione grafica è il Box-and-Whisker-plot, che è strutturato secondo alcuni importanti indici di distribuzione (mediana; media; primo e terzo quartile come estremi del box) e che prevede la segnalazione dei valori esterni ai whiskers cioè eccedenti 1.5 volte il range interquartile, nonché di quelli eccedenti ±3 volte lo stesso (valori anomali).

(4) Analisi inferenziale (con l’applicazione dei relativi test di ipotesi) di cui fanno parte:

· la stima dei parametri della popolazione a partenza dai dati campionari, puntuale o intervallare; in particolare: la media m della popolazione (media vera) [stimata dalla media campionaria (o dalla media ponderata di più medie campionarie)]; la varianza s2 della popolazione [stimata dalla varianza campionaria corretta (cioè moltiplicata per N/N-1) o, in caso di più campioni, della combinazione (somma) di più varianze campionarie corrette, per cui l’intervallo di confidenza per una deviazione standard è dato da s± zc [(2N)];
· l’effettuazione dei test di confronto (parametrici o non parametrici) tra campioni per rilevare eventuali differenze tra misure di posizione e/o di ordine e/o di variabilità;
· l’effettuazione di test di associazione tra variabili campionarie (parametrici o non parametrici).

    

Vai a >>>   1.8 Uso di strumenti di calcolo e software applicativo

 

estensore del corso e webmaster
giovanni f. garasto
docente presso la scuola di specializzazione in igiene e medicina preventiva della
università di ferrara

(esercitazioni di statistica)
e-mail: grg@unife.it