home

MICRO·CORSO di STATISTICA
percorso standard

Giovanni Garasto corso

percorso standard

1.  Primi passi
          ... ... ...
          1.5 Elementi di probabilita'

 ° La statistica è una disciplina basata sulla probabilità.
Le tecniche statistiche cercano tutte di quantificare la probabilità di sbagliare nell’affermare che differenze osservate (nei confronti, nelle associazioni, nelle relazioni causa-effetto, ecc.) siano dovute al caso; esse non consentono mai di avere conclusioni certe, quanto piuttosto collegate ad una definita probabilità di errore.

 ° La statistica è basata sull’effettuazione di prove. Per prova, nella sua forma più semplice, s’intende il processo di estrazione, casuale, di un elemento da un insieme. Se le modalità di estrazione sono corrette, cioè se lo svolgimento del processo di estrazione è davvero casuale non interferendo con la probabilità che ha ogni elemento dell’insieme di essere estratto, il risultato della prova è detto evento aleatorio in quanto è in sé incerto, non prevedibile, ancorché dotato di una probabilità di accadimento strettamente dipendente dalle caratteristiche dell’insieme nel quale l’elemento è inserito. Se si conosce (o si può ipotizzare) la ‘struttura’ dell’insieme, è possibile, con l’ausilio del calcolo combinatorio, giungere a quantificare a priori la probabilità di accadimento di ognuno degli eventi possibili; ovviamente, di fronte a prove (estrazioni) ripetute, le modalità di calcolo riguarderanno anche particolari forme di probabilità collegate al tipo di legame che si può instaurare tra eventi successivi (probabilità composta e probabilità condizionata) e varieranno a seconda che ogni nuova estrazione contempli o meno la reimmissione nell’insieme degli elementi precedentemente estratti (calcolo combinatorio con o senza reinserimento) [vedi dopo].

 ° La probabilità è stata variamente definita.

Restando nell’ambito sopra descritto, l’impostazione classica (o matematica) vede la probabilità di un evento [indicata simbolicamente con
p=P(E) , mentre la probabilità di non accadimento (insuccesso) è indicata con q=P(non E)=1-p] come il rapporto tra la numerosità dei casi ‘favorevoli’ (quelli in cui un dato evento si verifica, detti anche successi) e la numerosità totale dei casi supposti tutti egualmente ‘possibili’ (successi+insuccessi); il valore di una tale probabilità, che è quindi un numero reale compreso tra 0 e 1, è individuabile a priori (probabilità formale) purché le numerosità siano tutte note o esattamente conoscibili.

Poiché così spesso non è, si è sviluppata una impostazione detta frequentista, per la quale la probabilità è più propriamente quel “valore costante intorno al quale tende a stabilizzarsi la frequenza relativa di un evento al crescere del numero delle prove di un dato esperimento” [Sintesi Vallardi]; per l’individuazione di una tale probabilità (sempre espressa col rapporto di cui sopra) si deve fare ricorso all’esperienza, cioè all’effettuazione di prove ripetute (probabilità empirica). “Un evento che non si verifica mai nel corso delle prove, per quanto grande sia il loro numero, è detto evento impossibile” (p=0), “mentre un evento che si verifica sempre è un evento certo” (p=1)[Castino-Roletto].

Poiché esistono anche eventi non equiprobabili e nemmeno deducibili in partenza da esperienze ripetute, è stata sviluppata anche un’impostazione cosiddetta soggettiva (bayesiana) secondo la quale la probabilità può essere definita come “la misura del grado di fiducia che un individuo coerente attribuisce, secondo le sue informazioni e opinioni, al realizzarsi di un determinato evento” [Castino-Roletto]; la stima di tale probabilità ha proprie modalità di calcolo, potendo essere modificata nel tempo al verificarsi di nuovi eventi.

 ° Ciò detto, vale la pena riportare qualche elemento di calcolo di probabilità. Dati due eventi indipendenti A e B, mutuamente escludentisi o meno, la probabilità totale sarà data rispettivamente da P(A o B)=P(A)+P(B) e da P(A o B)=P(A)+P(B)+P(A e B). La probabilità composta è invece la probabilità che due eventi A e B si verifichino uno dopo l’altro e, qualora essi siano indipendenti, essa sarà P(A e B)=P(A)×P(B), mentre, se il secondo evento è dipendente dal primo (es.: situazione di non “reinserimento”), essa sarà P(A e B)=P(A)×P(B/A), la quale ultima, detta probabilità condizionata, è P(B/A)=P(A e B)/P(A) . Per il teorema di Bayes, indicando con Bi un evento cui si è attribuito a priori una probabilità soggettiva, la probabilità di quest’ultimo dopo che si è verificato un evento A (probabilità a posteriori) è data da P(Bi /A)=[P(A/Bi )P(Bi )]/[P(A/B1 )P(B1 )+ P(A/B2 )P(B2 )+... P(A/Bk )P(Bk )] .

 ° Indipendentemente dall’impostazione prescelta, si può riuscire a comprendere tutta la portata del calcolo probabilistico in statistica semplicemente mettendo al posto dell’evento aleatorio, così come finora illustrato, una variabile statistica (perciò detta variabile aleatoria o casuale) che sia rappresentativa di un carattere alle cui modalità sono associate le rispettive probabilità di accadimento.

Per una variabile aleatoria discreta X, P(X) simboleggia la cosiddetta funzione o legge di probabilità di X, che è per l’appunto l’accoppiamento di tutti i possibili valori della variabile aleatoria ciascuno con la propria probabilità. E’ detta invece distribuzione di probabilità la distribuzione di frequenza di tutte le possibili modalità di X, rappresentabile in modo tabellare o grafico (con un poligono di frequenza).

In presenza di variabili continue,
P(X) è detta più propriamente funzione di densità di probabilità, rappresentata da una curva di frequenza in cui la probabilità è associata non ad ogni singola modalità ma all’insieme delle modalità comprese in un’area sottesa dalla curva.

Va ricordato che la probabilità totale, data dalla somma di tutte le singole probabilità e rappresentata dall’area sottesa a tutto il poligono (o alla curva), ha valore 1.

Con
F(x) è invece indicata la cosiddetta funzione di ripartizione (o di distribuzione) della variabile aleatoria X, che si riferisce al calcolo della probabilità che X sia minore o uguale a un certo valore reale xi (la rappresentazione grafica è allora quella di un diagramma di frequenze cumulate).

 ° Per ogni distribuzione di probabilità, essendo essa una distribuzione di frequenza, possono essere calcolati i parametri caratteristici riguardanti la zona di massima probabilità, detta speranza matematica (praticamente una media aritmetica) e la dispersione dei valori attorno a tale zona, detta varianza.
La speranza matematica, E(X) = S[xiP(xi)] , è “la somma aritmetica dei prodotti ottenuti moltiplicando ogni valore possibile della variabile per la sua probabilità” [Castino-Roletto]) (è quindi, come già detto, una media aritmetica).
La varianza,
V(X) =
SP(xi)[xi-E(X)]2 , è invece “la speranza matematica dei quadrati degli scarti dei singoli valori dalla speranza matematica” [Castino-Roletto]); nel caso delle variabili continue si usa la densità di probabilità per cui, nelle formulazioni matematiche, la sommatoria è sostituita dall’integrazione.

 ° In probabilità e statistica è detto modello distributivo la rappresentazione, in forma di funzione matematica o di curva di frequenza, della distribuzione di frequenza di una variabile statistica secondo una legge teorica, simboleggiata con una lettera maiuscola specifica della legge e con l’indicazione simbolica dei suoi parametri tra parentesi tonde [es.: N(m, s) indica la legge cosiddetta "normale", v.dopo]. La maggior parte dei fenomeni statistici può essere descritta con un numero limitato di leggi di probabilità, relative a variabili discrete o continue, che “permettono non solo di interpretare le osservazioni empiriche, ma anche di calcolare la probabilità di determinati eventi e quindi di avanzare previsioni su accadimenti futuri” [Castino-Roletto], fatto che rende importante scegliere con cura il modello probabilistico che meglio si attaglia alla distribuzione empirica di cui si dispone.

Tra le distribuzioni teoriche discrete importanti in statistica, vanno citate la distribuzione binomiale (con funzione
Y=B(n,p), matematicamente espressa da Pi =Cin pi qn-i, in cui Cin è la combinazione n!/[i!(n-i)!], e approssimata, per grandi campioni, alla normale (v.dopo), con media np e varianza npq inferiore alla media; è distribuzione valida per eventi classificati con una variabile binaria quando le probabilità dei due eventi alternativi restino costanti nel corso di una serie di prove indipendenti, cioè vi sia ‘estrazione con reimmissione’); la distribuzione multinomiale (estensione della binomiale, matematicamente espressa da P(n1,n2...nk) =[N!/(n1n2...nk)]p1n1p2n2...pknk ); la distribuzione poissoniana (tipica degli eventi rari, con n che tende all’infinito e p che tende a zero, quindi con la media come solo parametro e rappresentata matematicamente da Pi =(mi/i!)e-m ); la distribuzione ipergeometrica (praticamente una binomiale senza reimmissione, rappresentata da Pr/n=(CnrCN-nn1-r)/CNn1 ).

Tra le distribuzioni teoriche continue importanti nella pratica statistica vanno citate la distribuzione normale o gaussiana (o curva degli errori accidentali, con funzione
Y=N(m,s), matematicamente espressa da y=f(x)=[1/(2p)]exp[-(x-m)2/2s2]; la distribuzione normale ridotta o normale standardizzata (che è la distribuzione della variabile Z=(X-m)/s, utile per svincolare la funzione di distribuzione dagli infiniti valori reali di m e s, fatti rispettivamente 0 e 1, per cui tale distribuzione ha legge N(0,1) ed è rappresentata matematicamente da y=f(z)=(1/Ö2p)exp(-z2/2), che indica quale è la probabilità che uno scarto dalla media abbia un certo valore); la distribuzione gamma (utile per descrivere la distribuzione di intervalli di tempo e rappresentata matematicamente da f(x)=(1/m)exp(-x/m) in cui m=0 e x>0).

Vanno infine citate le distribuzioni relative ad alcune variabili utilizzate in test statistici, come la distribuzione chi-quadrato (usata per valutare l’accordo fra distribuzioni, che ha densità di probabilità espressa da
f(x)=Kx(n/2)-1 exp(-x/2), che all’aumentare di n tende alla normale e che è la distribuzione della varianza campionaria); la distribuzione t di Student (usata per confrontare una media campionaria e una teorica o due medie campionarie, che corrisponde alla distribuzione di t=(x-m)/(s/Ön), praticamente uno scarto ridotto delle medie campionarie, che ha densità di probabilità espressa da f(t)=f0[1+(t2/n]exp[-(n+1)/2)] e che tende alla normale per n tendente all’infinito; la legge di Student è applicabile a campioni provenienti da popolazioni normodistribuite e per dimensioni campionarie <30); la distribuzione F di Fisher (usata per il confronto simultaneo di più medie campionarie, che corrisponde al rapporto di due variabili casuali chi-quadrato indipendenti divise per i rispettivi gradi di libertà F=(A/m)/(B/n), che ha densità di probabilità espressa da f(F)=f0{[n2Fexp[(n1/2)-1]+n1Fexp[(n2/2)-1]]}e che per gradi di libertà 1 e n equivale al quadrato di una t di Student con n gradi di libertà).

 ° Quando si parla di distribuzioni di probabilità ci si riferisce ovviamente a distribuzioni teoriche, ai citati modelli distributivi ai quali si cerca di ricondurre la ‘struttura’ di popolazioni osservabili, i cui parametri possono essere esattamente conosciuti solo quando tali popolazioni non sono infinite e sono esaminate in ogni loro elemento. Spesso così non è, dovendosi ricorrere all’osservazione di campioni, di numerosità più o meno grande, rappresentativi delle popolazioni; in tal caso, i parametri (di posizione e di dispersione) relativi a uno o più campioni estratti da una popolazione sono utilizzati come stime, più o meno ‘affidabili’, dei parametri della popolazione (valori veri, simboleggiati con lettere greche) e quindi di quelli del corrispondente modello distributivo.

Nel caso di una distribuzione normale, la media aritmetica e la varianza campionarie
m e s2 costituiscono stime della media e della varianza
m e s2 della popolazione dalla quale il campione è stato estratto. Utilizzando tali parametri, è possibile ricondure il modello distributivo di una specifica distribuzione normale ad un modello standardizzato, adimensionale, che è quello della già più sopra citata variabile (o deviata) normale standardizzata Z [ =(X-m)/s ], matematicamente espresso con la formula y = f(x) = [1/(Ö2p)]×e^{-(1/2)z2} e per l’appunto utile a svincolare la funzione di distribuzione normale dagli infiniti valori reali di m e s, fatti rispettivamente uguali a 0 e 1.

RIASSUMENDO:

 ° ELEMENTI DEL RAGIONAMENTO STATISTICO - E

Evento aleatorio (casuale): evento il cui realizzarsi dipende esclusivamente dal caso.

Probabilità: può essere variamente definita, in ogni caso risulta nella quantificazione della possibilità di accadimento di un dato evento aleatorio E. Tale quantificazione, indicata con p=P(E) e rappresentata da un numero reale tra 0 e 1 compresi, è data dal rapporto tra la numerosità dei casi ‘favorevoli’ e quella dei casi ‘possibili’: il suo valore è talora definibile a priori (probabilità formale), ma più spesso può essere ricavato solo da esperienze ripetute (probabilità empirica), eventualmente con l’ausilio di informazioni e opinioni coerenti (probabilità soggettiva).

Variabile aleatoria (casuale): variabile statistica le cui modalità sono intese come eventi, associati ciascuno alla propria probabilità. La distribuzione di frequenza di tutte le possibili modalità di una variabile aleatoria è detta distribuzione di probabilità, rappresentata graficamente con un poligono di frequenza o con una curva di frequenza a seconda che la variabile aleatoria sia discreta o continua.

Parametri di una distribuzione di probabilità: sono quei valori caratteristici che consentono di sintetizzare l’informazione di una distribuzione di probabilità, i quali si riferiscono: alla zona di massima probabilità della variabile (praticamente una media) e alla dispersione dei valori attorno al valore centrale (varianza).

Gradi di libertà di un parametro statistico (g.d.l.): è il “numero dei valori, indipendenti fra loro, usati per calcolare il parametro in questione”, per cui il numero dei gradi di libertà (indicato con gdl) “è dato dal numero delle osservazioni (n, dimensione del campione) diminuito del numero (k) delle stime dei parametri della popolazione che entrano nel calcolo del parametro considerato” cioè gdl=n-k [Castino-Roletto].

 Modello distributivo: è la rappresentazione, in forma di funzione matematica o di curva di frequenza, della distribuzione di frequenza di una variabile statistica secondo una legge teorica. La maggior parte dei fenomeni statistici può essere descritta con un numero limitato di leggi di probabilità, relative a variabili discrete o continue, che “permettono non solo di interpretare le osservazioni empiriche, ma anche di calcolare la probabilità di determinati eventi e quindi di avanzare previsioni su accadimenti futuri” [Castino-Roletto].
Tra le distribuzioni teoriche più importanti nella pratica statistica vanno incluse sia quelle rappresentative di distribuzioni empiriche, discrete (es.: binomiale, multinomiale, poissoniana) o continue (es.: normale, normale ridotta) sia quelle utilizzate dai test statistici (es.: t di Student, F di Fisher, chi-quadrato). Circa queste ultime, va ricordato che, per semplicità, la pratica statistica ricorre comunemente all’uso di specifiche tabelle di distribuzione di probabilità delle variabili.

distribuzione normale (gaussiana): Il modello distributivo della normale è uno dei più importanti in statistica, poiché detta distribuzione è alla base di tutti i test parametrici e perché ad essa tendono alcune distribuzioni dopo trasformazione (per es. logaritmica) dei dati, la binomiale per n tendente all’infinito, la poissoniana per media alta cioè superiore a 6 e la distribuzione della media di qualunque variabile aleatoria indipendente per n grande (³100) o anche medio (³30) secondo la legge dei grandi numeri, la quale definisce che “qualunque sia la distribuzione di probabilità di una popolazione di origine, la distribuzione di probabilità di una popolazione di medie, ottenute da campioni di effettivo [numerosità] n, può essere assimilata ad una distribuzione normale, purché n abbia un valore abbastanza grande” o, in altri termini, che “la legge di probabilità di una popolazione di medie my di campioni di dimensione n tende alla legge normale N(m,s/Ön) quale che sia la legge di probabilità della popolazione d’origine, quando n è sufficientemente grande”[Castino-Roletto] [tale legge è derivazione del teorema del limite centrale, che dice che la distribuzione di qualsiasi parametro relativo a campioni estratti da una popolazione normale è anch’essa una normale N(m,s/Ön)].
Caratteristiche di una distribuzione normale sono: a) la forma unimodale simmetrica mesocurtica a campana, con due punti di flesso, b) la coincidenza degli indici di posizione media aritmetica, mediana e moda, c) un intervallo interquartile uguale a 1.33 volte la deviazione standard, d) un campo di variazione infinito.
La caratteristica più importante della distribuzione normale o, meglio, di tutte le distribuzioni normali (poiché ne esistono infinite, tante quante sono le combinazioni possibili di medie e varianze) è che, una volta conosciuti i valori rappresentativi dei suoi parametri, è possibile individuare gli intervalli intorno alla media comprendenti ben definite ‘quantità’ di valori: facendo ricorso alla distribuzione di  z  si ha chiara evidenza del fatto che negli intervalli individuati da m ± s, m ± 2s, m ± 3s sono sempre compresi rispettivamente il 68.27%, il 95.45% e il 99.73% dei valori.
Per verificare la compatibilità di una serie di dati con una distribuzione normale sono stati messi a punto specifici test (detti test di normalità) e tecniche. In quest’ultimo ambito si situa anche l’uso della carta di probabilità normale in cui “l’ascissa è in scala lineare, mentre l’ordinata è scomposta in parti proporzionali all’intervallo .... le distanze tra i valori non sono costanti: sono minori nella regione centrale ..... e aumentano progressivamente per i valori estremi. Riportando sul grafico per ogni valore di x le frequenze cumulative percentuali, se la distribuzione è normale i punti cadono su una retta. ..... Una procedura analoga è costituita dalla trasformazione in probits...” [Camussi].

Vai a >>>   1.6 Sviluppi del ragionamento statistico

 

estensore del corso e webmaster
giovanni f. garasto
docente presso la scuola di specializzazione in igiene e medicina preventiva della
università di ferrara

(esercitazioni di statistica)
e-mail: grg@unife.it