home

MICRO·CORSO di STATISTICA
percorso standard

Giovanni Garasto corso

percorso standard

1.  Primi passi
          ... ... ...
          1.6 Sviluppi del ragionamento statistico (in forma di glossario)

 ° ELEMENTI DEL RAGIONAMENTO STATISTICO - F

Stima dei parametri di una popolazione: è la rilevazione delle caratteristiche tipiche di una popolazione mediante opportuni stimatori delle stesse applicati a campioni estratti da quella popolazione (es.: gli stimatori media e varianza applicati a un campione forniscono una conoscenza approssimativa di media e varianza della popolazione di origine del campione).
Fra le stime
le migliori non sono quelle cosiddette puntuali (che cercano di far coincidere parametri veri e parametri campionari, ma che possono variare anche molto con le caratteristiche dei campioni) quanto piuttosto le stime intervallari, cioè quelle che individuano un intervallo di confidenza (intervallo fiduciale) all’interno del quale viene a cadere con una certa probabilità di errore il parametro considerato. Volendo esemplificare, il parametro media m (detta media vera) di una popolazione normodistribuita non è in sé conoscibile ma viene stimato, in modo puntuale, con la media m di un campione estratto dalla popolazione o, meglio ancora, in modo intervallare, con un intervallo fiduciale m ± z sm , in cui z è la deviata normale standardizzata (sostituita, nel caso di piccoli campioni, con la variabile t di Student, v.dopo) scelta sulla base di un margine di errore accettato, m è stimata dalla media di una popolazione di n medie campionarie e sm dal cosiddetto errore standard della media sm=s/Ön (deviazione standard corretta della media) (in cui s è a sua volta stimata dalla deviazione standard s della popolazione di medie campionarie). Analogamente, per stimare una proporzione p, si usa l’intervallo di confidenza di una proporzione p ± z Ö[p(1-p)/n] in cui p è ricavato dalla proporzione campionaria p. Anche una varianza vera, poi, può essere stimata da una varianza campionaria con il calcolo dell’intervallo fiduciale [s2(n-1)]/ c21-(a/2) < s2 < [s2(n-1)]/ c2a/2 , in cui c2  è ricavato dall’apposita tabella con n-1 gradi di libertà e le probabilità rispettive di a e 1-a, ciò poiché il rapporto tra la devianza campionaria di n dati e la varianza della popolazione segue una distribuzione c2 con n-1 gradi di libertà, la quale, essendo asimmetrica, non vede s2 al centro dell’intervallo fiduciale (come accade per una media).

   

Test di ipotesi: sono procedimenti statistici finalizzati a verificare se le differenze riscontrate tra i parametri di due o più distribuzioni campionarie siano da imputarsi o meno al caso, all’interno di un predeterminato margine di errore. Ciò richiede che, in primo luogo, si formulino supposizioni precise, mutuamente esclusive, da sottoporre ad analisi, denominate ipotesi nulla H0 (che postula l’assenza di differenze, per es. fra le medie di due campioni, H0: mcamp1=mcamp2=mpop, e che non può mai essere verificata ma solo eventualmente respinta) ed ipotesi alternativa H1 (per es., H1: mcamp1<>mcamp2 oppure H1: mcamp1<mcamp2 oppure H1: mcamp1>mcamp2; che sarà quella automaticamente accettata, o meglio ‘corroborata’, da un rifiuto di H0).
Si sceglie quindi, tra i disponibili, il test più appropriato per saggiare l’ipotesi nulla, secondo le finalità della ricerca e le caratteristiche statistiche dei dati, ciò poiché ogni test risponde ad uno specifico modello dotato di assunti propri  e di condizioni di validità da rispettare (come: numerosità dei dati a disposizione, scala di misura, tipo di distribuzione). Ad esempio, mentre il modello dei test cosiddetti parametrici (come il test t o l’analisi della varianza) richiede che i dati siano tra loro indipendenti, di tipo scalare e provenienti da popolazioni normodistribuite e con varianze ‘omogenee’, altri test, detti non parametrici, risultano svincolati da qualsiasi legge di distribuzione di probabilità esono quindi applicabili non solo a dati scalari con qualsiasi tipo di distribuzione, ma anche a dati su scala nominale o ordinale.

 

Funzione discriminante (o statistica): è quella variabile aleatoria (per es., t o F), funzione delle osservazioni campionarie, di cui è stata studiata e opportunamente tabellata la legge di probabilità e sulla cui curva di distribuzione viene individuato dal ricercatore un valore critico, cioè un valore che separa una dall’altra la zona di rifiuto e la zona di accettazione dell’ipotesi nulla. Quando il valore della funzione discriminante, calcolato sul campione dal ricercatore, è tale da cadere nella zona di rifiuto di H0 significa che esso ha una probabilità di accadimento talmente bassa che l’ipotesi nulla deve essere rigettata, potendosi così accogliere, all’interno dello stabilito margine di errore, l’ipotesi alternativa.
Va, in ogni caso, ricordato, che un test può avere una sua direzione: esso è detto bilaterale (a due code) quando la zona di rifiuto è suddivisa fra le due estremità della curva di distribuzione della funzione discriminante (es., per
H1: mcamp1<>mcamp2), monolaterale quando essa è concentrata solo ad una delle estremità (es., per H1: mcamp1>mcamp2). Di ciò si deve tenere conto quando si consultano le tabelle della funzione discriminante al fine di individuare il valore critico.

 

Errore alfa (a o del I tipo): è l’errore che si commette rigettando un’ipotesi nulla in realtà vera. La sua probabilità è detta livello di significatività statistica di un test ed è posta ordinariamente, ma non necessariamente, a 0.05 ( ® differenza statisticamente significativa).

 

Errore beta (b o del II tipo): è l’errore che si commette non respingendo un’ipotesi nulla in realtà falsa. Tale errore cresce al decrescere dell’a prescelto, a meno di ricorrere ad una più elevata numerosità campionaria.

 

Vai a >>>   1.7 Questioni di metodo

 

estensore del corso e webmaster
giovanni f. garasto
docente presso la scuola di specializzazione in igiene e medicina preventiva della
università di ferrara

(esercitazioni di statistica)
e-mail: grg@unife.it