1. Primi
passi
...
... ...
1.7
Questioni di metodo
°
Ogni problema
tecnico-scientifico che coinvolga dei dati ha aspetti specifici che vanno
studiati di volta in volta in modo circostanziato e rigoroso; ciò al fine
di individuare quali siano gli strumenti statistici più idonei e quali di
questi risultino ammissibili sia in termini tecnici (rispetto delle condizioni
di applicazione, affidabilità dei risultati) sia in termini operativi
generali (analisi costi-benefici).
In ogni caso, un’indagine,
osservazionale o sperimentale, condotta con l’ausilio di tecniche
statistiche, consta grosso modo delle fasi di seguito indicate.
(1)
Programmazione,
che comporta:
·
descrizione
dell’ambito della ricerca;
·
definizione
dell’obiettivo con la costruzione dell’ipotesi generale, cioè della
congettura di partenza da sottoporre a verifica nel corso dell’analisi
dei dati;
·
costruzione dell’ipotesi
nulla e della o delle ipotesi
alternative: tali ipotesi devono essere espresse in termini operativi
rigorosi e devono essere verificabili, cioè deve essere individuato
esattamente cosa deve essere verificato (falsificato) e come;
·
definizione precisa
delle unità statistiche della popolazione e delle variabili/mutabili da
studiare;
·
scelta dei test
statistici appropriati sulla base della conoscenza della natura (quindi
scala di misura) e della distribuzione dei dati e delle ipotesi da
verificare;
·
scelta di un
campione che sia rappresentativo della popolazione, eventuale costruzione
di una lista di estrazione, definizione delle modalità di campionamento,
che può essere: casuale semplice (sorteggio o utilizzo della tabella dei
numeri casuali al fine di garantire che ciascun componente della
popolazione abbia le stesse probabilità di entrare a far parte del
campione), sistematico, stratificato, multifasico, multistadio;
·
definizione, con
l’ausilio di specifiche tecniche, della numerosità del campione
necessaria a garantire l’affidabilità dell’inferenza, cioè
dell’estrapolazione alla popolazione, all’interno di un certo margine
di errore, delle conclusioni raggiunte sulla base dell’analisi del
campione (sono in genere considerati piccoli campioni quelli di
numerosità inferiore o uguale a 30 e grandi campioni quelli di
numerosità uguale o maggiore di 100);
·
analisi
costi/benefici e analisi di fattibilità della ricerca;
·
definizione degli
aspetti organizzativi (tempi e modi di utilizzo delle risorse umane e
strumentali).
(2)
Attuazione
della parte strettamente operativa, cioè della rilevazione e prima
manipolazione dei dati, che comprende:
·
effettuazione di conteggi
e misure e di eventuali calcoli, quindi registrazione dei dati grezzi;
·
prima valutazione
dei dati grezzi al fine di garantire la correttezza dei passi successivi;
·
archiviazione in
matrici ordinate (tabulazione), in genere con l’ausilio di strumenti
informatici come i fogli elettronici; sono da considerare i problemi
relativi alle modalità di archiviazione (es.: in genere si pongono le
variabili in colonna e le unità statistiche in riga) e al trattamento dei
valori (es.: con numeri molto grandi o molto piccoli si preferisce la notazione scientifica, per potenze di 10; gli arrotondamenti vanno
effettuati, per difetto o per eccesso col 5 riportato alla più vicina
cifra pari, attenendosi alle cifre significative o, comunque, a quelle
scelte per convenzione; ecc.);
·
individuazione di
eventuali dati anomali (outliers),
cioè di valori campionari da ritenersi frutto di errore di rilevazione o
trascrizione e quindi non rappresentativi della popolazione di origine del
campione; si tratta di valori che presentano, a colpo d’occhio, scarti
particolarmente elevati rispetto agli altri elementi della serie, la cui
disomogeneità al campione può essere confermata, oltre che con l’esame
visivo del grafico della distribuzione, con specifici test
statistici, tutti basati sull’utilizzo dell’informazione contenuta
negli altri dati campionari; una loro eventuale eliminazione deve essere
sempre preceduta da un’accurata riflessione sia sulla loro possibile
origine e significato, sia sulla possibilità di estendere il
campionamento, sia, infine, sull’opportunità di conservarli applicando
poi, nell’elaborazione, test di ipotesi non parametrici, che sono test “robusti, che utilizzano tutti i dati ma rendono minima
l’influenza dei valori estremi, quelli che più si allontanano dal
valore di tendenza centrale” [Castino-Roletto];
·
individuazione di
eventuali ‘derive’ sistematiche nelle serie di dati, anche con
l’ausilio di specifici test
statistici non parametrici;
·
valutazioni sul
modello distributivo dei dati, che condizionerà le modalità descrittive
e l’uso successivo dei test di
confronto e di associazione; al fine d'individuare la palusibile
distribuzione della popolazione d'origine dei dati si usano specifici test
di bontà dell'adattamento (categoria cui appartengono i test
di normalità);
·
eventuale
trasformazione dei dati in relazione alla loro natura e distribuzione; in
tal senso vanno, per es., la trasformazione
logaritmica decimale
[utile per normalizzare distribuzioni fortemente asimmetriche a destra (attenzione,
in tal caso ai valori 0, il cui log è inesistente, e a quelli compresi
tra 0 e 1, che producono "caratteristiche" negative !],
la trasformazione in
radice quadrata [utile per normalizzare dati derivati da conteggi a
distribuzione poissoniana (batteri in campo microscopico, insetti su una
superficie)], la trasformazione
angolare [arcsenÖ(percentuale/100),
utile per normalizzare percentuali derivate da proporzioni]
e la trasformazione in ranghi
necessaria per l’applicazione di alcuni test
statistici [in tal caso, disposti i dati in scala ordinale crescente, si
assegnano indici numerici crescenti corrispondenti alla loro posizione
nella serie, o, per dati eguali, alla media delle loro posizioni].
(3)
Descrizione
dei dati, intesa come modalità sintetica di espressione dei dati
disponibili, sostanziantesi in:
·
calcolo
dei parametri della distribuzione campionaria, variamente applicabili
in funzione della scala di misura ed assumenti differente significato
secondo la distribuzione dei dati; essi comprendono:
indici di posizione
Þ
media
aritmetica, indice di
tendenza centrale, non applicabile a dati in scala nominale e ordinale,
rappresentata con il simbolo della variabile soprasegnato e calcolata in
modo semplice [x=åxi
/N]
o ponderato (cioè dando ad ogni valore un ‘peso’, che, nel
caso di ‘dati raggruppati’, coincide con la frequenza del valore nella
serie) [xp=å(xi
fi )/åfi];
la media aritmetica, che risente molto dei valori estremi, è valore tale per cui a) la
somma algebrica degli scarti da essa è uguale a zero, b) la somma
algebrica dei quadrati degli scarti da essa (devianza
o somma dei quadrati) è minima rispetto ad analoga somma calcolata a
partire dagli scarti da qualsiasi altro valore usato come riferimento, c)
moltiplicando o dividendo tutti i valori per una costante ad ottenere una
nuova variabile, la media della nuova variabile è pari alla media della
variabile in esame moltiplicata o divisa per quella costante; va notato
che la media di medie e la media di percentuali vanno sempre calcolate in
modo ponderato;
Þ
media
armonica, che è il
reciproco della media aritmetica dei reciproci dei valori della serie,
calcolata come semplice [xh=N/å(1/xi)]
o ponderata [xhp=åfi
/å(fi
/xi )],
non applicabile a valori nulli; essa va utilizzata in studi in cui sono in
gioco grandezze inversamente proporzionali (es.: tempi di sopravvivenza
dopo esposizione a un tossico, velocità-spazio percorso, potere
d’acquisto di una moneta);
Þ
media
geometrica, che è la
radice n-esima del prodotto degli n
dati della serie, calcolata come semplice [xg=NÖÕxi]
o ponderata [xgp=
åfiÖÕxifi];
essa è ottenuta più agevolmente calcolando la media aritmetica dei
logaritmi dei dati e quindi l’antilogaritmo di questa [xg=10(ålogxi)/N],
per cui non è applicabile a valori nulli o negativi; la media geometrica,
che risente molto del valore più piccolo, è utile “quando i vari
termini da mediare non si addizionano fra loro, ma seguono una legge
moltiplicativa di accumulo” [Castino-Roletto] (per es., per serie di
dati relativi a colture batteriche o a titoli anticorpali o a variazioni
percentuali in tempi successivi);
Þ
media
quadratica, che è la
radice quadrata della media dei quadrati dei dati Q=Ö(Sy2/N);
NOTA:
la verifica che la scelta operata a favore di un tipo di media è
corretta va fatta a
posteriori effettuando calcoli di conferma, basati su criteri ad
hoc ragionevolemnte compatibili con il tipo di dati; si
consideri, per es., il criterio del valore
costante, “che consiste nel sostituire, a ciascun valore
della serie, il valore y
assunto come parametro di posizione e nel verificare se la somma
dei valori non cambia.” [Castino-Roletto] o la verifica
dell’uguaglianza tra recisproco della media e media dei
reciproci in caso di dati costituiti da rapporti; |
Þ
moda,
che è il valore o classe più frequente di una distribuzione; una
plurimodalità può essere segno di disomogeneità del campione;
Þ
mediana,
che è il valore del dato posto al centro della serie ordinata (o la media
dei valori dei dati centrali in serie di numerosità pari) e, in caso di
dati raggruppati, è calcolata con mediana=L1+{[(N/2)-(Sf)1]/fmediana}×c in cui L1,
fmediana
e c
sono ripettivamente il confine inferiore, la frequenza e l’ampiezza
della classe contenente la mediana (classe
mediana), (Sf)1
è la somma delle frequenze di tutte le classi inferiori alla mediana e N
la frequenza totale; la mediana è indice di posizione che non risente dei
valori estremi; appartiene alla categoria degli indici di ordine
detti quantili o frattili,
rappresentati dai valori dei dati posti in determinate posizioni della
serie: essa è infatti il cinquantesimo percentile, il quinto decile, il
secondo quartile;
Þ
numeri
indice e media mobile che sono indici di posizione nel tempo;
indici
di dispersione o di
variabilità
Þ
intervallo
(o campo) di variazione,
differenza tra il valore massimo e il valore minimo di una serie;
Þ
devianza
(D,
SQ),
somma dei quadrati degli scarti dalla media, calcolata con å(xi
-x)2
o, per dati raggruppati in classi, con å[(xi
-x
)2 fi ],
o ancora, per le grandi serie, con la formula abbreviata åxi2-[(åxi
)2 /N]
Þ
varianza,
calcolata con s2
= å(xi
-x
)2/(N-1),
cioè dividendo la devianza per i gradi
di libertà; altre formule per il calcolo della varianza sono quella
abbreviata s2 ={åxi2
-[(åxi
)2/N]}/(N-1),
quella per dati raggruppati in classi s2
= å[(xi
-x)2fi
]/(N-1)
e la corrispondente formula abbreviata s2
={å(xi2
fi )-[(åxi
fi)2/N]}/(N-1);
se la varianza di grandi campioni è calcolata da dati raggruppati in
classi, si può usare (ma alcuni Autori la sconsigliano) la correzione
per la continuità di Sheppard, consistente nel sottrarre alla
varianza calcolata un fattore pari al quadrato dell’ampiezza delle
classi diviso 12; va ricordato che le varianze godono della proprietà di
potersi sommare tra loro;
Þ
deviazione
standard (scarto quadratico medio, scarto
tipo), radice quadrata della varianza [s
per i campioni, s
per le popolazioni], di uso
rilevante nelle distribuzioni normali, in cui gli intervalli della media ±s
(tratto compreso tra i due punti di
flesso della curva), ±2s
e ±3s
comprendono rispettivamente il 68.27%, il 95.45% e il 99.73% dei valori;
la deviazione standard è utilizzata per standardizzare
le variabili, cioè renderle adimensionali e quindi confrontabili
indipendentemente dall’unità di misura (la variabile standardizzata z
è data dalla formula z=(x-m)/s);
Þ
coefficiente
di variazione, misura
relativa di dispersione (adimensionale) ottenuta con la formula CV%=100(s/x);
Þ
scarto
(range o intervallo)
interquartile, differenza fra i valori corrispondenti al terzo e al
primo quartile; va considerto che in esso è compreso il 50% dei dati (di
più quando applicato a una distribuzione normale, poiché viene a
corrispondere all’intervallo x±1.35s);
Þ
scarto
mediano assoluto (median absolute deviation, MAD),
mediana degli scarti assoluti dalla mediana, utilizzabile sia per
individuare dati anomali, sia per fornire stime “robuste” della media
e della deviazione standard di una popolazione;
indici
di forma di distribuzione
Þ
indici
di asimmetria (skewness), tra cui l’indice g1
di
Fisher, che è un momento
standardizzato di terzo ordine, il quale può variare tra -¥
e +¥
ed è da considerarsi trascurabile per valore assoluto compreso tra 0 e
1/2 [va ricordato che i momenti statistici, mutuati dai momenti fisici e applicati alle
serie statistiche, sono le medie delle potenze di ordine k
degli scarti di valori xi
da un valore arbitrario che può essere l’origine (cioè 0) o, nel
nostro caso, la media, per cui m3=S(xi
- x)3/N
che viene standardizzato dividendolo per s3
[g2=(m3
/s3 )]; va ricordato che
i momenti di primo e secondo ordine sono la media e la varianza;
Þ
indici
di curtosi (cioè di
appiattimento della curva di distribuzione, la quale può essere plati-,
meso- o lepto-curtica), tra cui l’indice g2
di Fisher, momento
standardizzato di quarto ordine, calcolato analogamente a quello di
simmetria [g2=(m4
/s4 )-3];
l’indice, che può variare da -2 a +¥,
è 0 in caso di mesocurtosi perfetta;
·
tabulazioni
di frequenza, che possono essere a una entrata oppure a entrata
multipla (tabelle di contingenza
che utilizzano più variabili/mutabili come criteri di classificazione);
la costruzione delle classi di frequenza (numero e ampiezza) deve
rispondere ad un criterio generale di buona leggibilità dei dati, cioè
deve evidenziare quanto più correttamente possibile l’andamento della/e
variabile/i; a tal proposito, sono state proposte formule per calcolare il
numero minimo di classi R=1+(10/3)log10N
[formula di Sturges](comunque non meno di 4-5), il numero massimo di
classi R=10 logN
[ formula di Dixon-Kronmal]
oppure R=2ÖN
[formula di Valleman] a seconda che N
sia maggiore o minore di 100 (non più di 15-20), l’ampiezza ottimale
delle classi h=3.5(s/ÖN)
[formula di Scott] oppure hn=2(IQ)/N1/3
[formula di Freedman-Diaconis], in cui IQ=intervallo
interquartile); inoltre è opportuno che tutte le classi abbiano la stessa
ampiezza, che siano evitate le classi aperte e che i limiti di classe
siano definiti senza ambiguità (ogni unità statistica deve essere
classificata e, inoltre, deve essere classificabile in una e una sola
classe);
·
rappresentazioni
grafiche, che consentono una comprensione immediata ancorché
approssimativa dei dati e che possone essere lineari (es.: blob-chart),
piane (es.: diagrammi a bastoni, diagrammi a gradini, diagrammi polari,
istogrammi, poligoni di frequenza, diagrammi a nastro, diagrammi
circolari, cartogrammi, pictogrammi), tridimensionali (stereogrammi); il
tipo di grafico e la sua organizzazione interna devono essere scelti con
cura in funzione del tipo di dati, degli obiettivi della rappresentazione,
della leggibilità della stessa; una forma particolare di rappresentazione
grafica è il Box-and-Whisker-plot, che è strutturato secondo alcuni importanti
indici di distribuzione (mediana; media; primo e terzo quartile come
estremi del box) e che prevede
la segnalazione dei valori esterni ai whiskers
cioè eccedenti 1.5 volte il range
interquartile, nonché di quelli eccedenti ±3
volte lo stesso (valori anomali).
(4)
Analisi
inferenziale
(con l’applicazione dei relativi test
di ipotesi) di cui fanno parte:
·
la stima
dei parametri della popolazione a partenza dai dati campionari,
puntuale o intervallare; in particolare:
la media m
della popolazione (media vera)
[stimata dalla media campionaria (o dalla media ponderata di più medie
campionarie)]; la
varianza s2
della popolazione [stimata dalla varianza campionaria corretta
(cioè moltiplicata per N/N-1)
o, in caso di più campioni, della combinazione (somma) di più varianze
campionarie corrette, per cui l’intervallo di confidenza
per una deviazione standard è dato da s±
zc [sÖ(2N)];
·
l’effettuazione
dei test di confronto
(parametrici o non parametrici) tra campioni per rilevare eventuali
differenze tra misure di posizione e/o di ordine e/o di variabilità;
·
l’effettuazione
di test di associazione tra variabili campionarie (parametrici o
non parametrici).
Vai
a >>> 1.8
Uso di strumenti di calcolo e software applicativo
|