°
La statistica è una disciplina basata sulla
probabilità.
°
La statistica è basata
sull’effettuazione di prove.
Per prova, nella sua forma più semplice, s’intende il processo di
estrazione, casuale, di un elemento da un insieme. Se le modalità di
estrazione sono corrette, cioè se lo svolgimento del processo di
estrazione è davvero casuale non interferendo con la probabilità che ha
ogni elemento dell’insieme di essere estratto, il risultato della prova
è detto evento aleatorio in quanto è in sé incerto, non prevedibile,
ancorché dotato di una probabilità di accadimento strettamente
dipendente dalle caratteristiche dell’insieme nel quale l’elemento è
inserito. Se si conosce (o si può ipotizzare) la ‘struttura’
dell’insieme, è possibile, con l’ausilio del calcolo
combinatorio, giungere a quantificare a
priori la probabilità di accadimento di ognuno degli eventi
possibili; ovviamente, di fronte a prove (estrazioni) ripetute, le modalità
di calcolo riguarderanno anche particolari forme di probabilità collegate
al tipo di legame che si può instaurare tra eventi successivi (probabilità
composta e probabilità
condizionata) e varieranno a seconda che ogni nuova estrazione
contempli o meno la reimmissione nell’insieme degli elementi
precedentemente estratti (calcolo combinatorio con o senza reinserimento)
[vedi dopo]. °
La
probabilità è stata variamente
definita. Poiché
così spesso non è, si è sviluppata una impostazione detta frequentista,
per la quale la probabilità è più propriamente quel “valore costante
intorno al quale tende a stabilizzarsi la frequenza relativa di un evento
al crescere del numero delle prove di un dato esperimento” [Sintesi
Vallardi]; per l’individuazione di una tale probabilità (sempre
espressa col rapporto di cui sopra) si deve fare ricorso all’esperienza,
cioè all’effettuazione di prove ripetute (probabilità empirica). “Un
evento che non si verifica mai nel corso delle prove, per quanto grande
sia il loro numero, è detto evento impossibile”
(p=0), “mentre
un evento che si verifica sempre è un evento certo”
(p=1)[Castino-Roletto].
Poiché
esistono anche eventi non equiprobabili e nemmeno deducibili in partenza da
esperienze ripetute, è stata sviluppata anche un’impostazione
cosiddetta soggettiva (bayesiana)
secondo la quale la probabilità può essere definita come “la misura
del grado di fiducia che un individuo coerente attribuisce, secondo le sue
informazioni e opinioni, al realizzarsi di un determinato evento”
[Castino-Roletto]; la stima di tale probabilità ha proprie modalità di
calcolo, potendo essere modificata nel tempo al verificarsi di nuovi
eventi. °
Ciò detto, vale la pena riportare qualche elemento di calcolo di
probabilità. Dati due eventi
indipendenti A e
B, mutuamente escludentisi o meno, la probabilità
totale sarà data rispettivamente da P(A o B)=P(A)+P(B) e da
P(A o
B)=P(A)+P(B)+P(A e B). La probabilità
composta è invece la probabilità che due eventi A e
B si verifichino
uno dopo l’altro e, qualora essi siano indipendenti, essa sarà P(A e
B)=P(A)×P(B), mentre, se il secondo evento è
dipendente dal primo (es.: situazione di non “reinserimento”), essa
sarà P(A e B)=P(A)×P(B/A),
la quale ultima, detta probabilità
condizionata, è P(B/A)=P(A e B)/P(A) . Per il teorema
di Bayes, indicando con Bi un evento cui si è attribuito a
priori una probabilità soggettiva, la probabilità di quest’ultimo
dopo che si è verificato un evento A (probabilità a
posteriori) è data da P(Bi /A)=[P(A/Bi )P(Bi
)]/[P(A/B1 )P(B1 )+ P(A/B2 )P(B2
)+... P(A/Bk )P(Bk )] . ° Indipendentemente dall’impostazione prescelta, si può riuscire a comprendere tutta la portata del calcolo probabilistico in statistica semplicemente mettendo al posto dell’evento aleatorio, così come finora illustrato, una variabile statistica (perciò detta variabile aleatoria o casuale) che sia rappresentativa di un carattere alle cui modalità sono associate le rispettive probabilità di accadimento.
Per
una variabile aleatoria discreta X,
P(X) simboleggia
la cosiddetta funzione o legge
di probabilità di X,
che è per l’appunto l’accoppiamento di tutti i possibili valori della
variabile aleatoria ciascuno con la propria probabilità. E’ detta
invece distribuzione di probabilità la distribuzione di frequenza di tutte
le possibili modalità di X,
rappresentabile in modo tabellare o grafico (con un poligono di
frequenza).
Va
ricordato che la probabilità totale, data dalla somma di tutte le singole
probabilità e rappresentata dall’area sottesa a tutto il poligono (o
alla curva), ha valore 1. °
Per
ogni distribuzione di probabilità, essendo essa una distribuzione di
frequenza, possono essere calcolati i parametri caratteristici riguardanti la zona di massima probabilità,
detta speranza matematica (praticamente una media aritmetica) e la dispersione dei valori attorno a
tale zona, detta varianza. °
In probabilità e statistica è detto modello
distributivo la rappresentazione, in forma di funzione matematica o di
curva di frequenza, della distribuzione di frequenza di una variabile
statistica secondo una legge teorica, simboleggiata con una lettera
maiuscola specifica della legge e con l’indicazione simbolica dei suoi
parametri tra parentesi tonde [es.: N(m,
s)
indica la legge cosiddetta "normale", v.dopo]. La maggior parte
dei fenomeni statistici può essere descritta con un numero limitato di
leggi di probabilità, relative a variabili discrete o continue, che
“permettono non solo di interpretare le osservazioni empiriche, ma anche
di calcolare la probabilità di determinati eventi e quindi di avanzare
previsioni su accadimenti futuri” [Castino-Roletto], fatto che rende
importante scegliere con cura il modello probabilistico che meglio si
attaglia alla distribuzione empirica di cui si dispone. °
Quando
si parla di distribuzioni di probabilità ci si riferisce ovviamente a
distribuzioni teoriche, ai citati modelli
distributivi ai quali si cerca di ricondurre la ‘struttura’ di popolazioni
osservabili, i cui parametri possono essere esattamente conosciuti solo
quando tali popolazioni non sono infinite e sono esaminate in ogni loro
elemento. Spesso così non è, dovendosi ricorrere all’osservazione di campioni,
di numerosità più o meno grande,
rappresentativi delle popolazioni; in tal caso, i parametri (di
posizione e di dispersione) relativi a uno o più campioni estratti da una
popolazione sono utilizzati come stime,
più o meno ‘affidabili’, dei parametri della popolazione (valori veri, simboleggiati con lettere greche) e quindi di quelli
del corrispondente modello distributivo. RIASSUMENDO: ° ELEMENTI DEL RAGIONAMENTO STATISTICO - E Evento
aleatorio (casuale):
evento il cui realizzarsi dipende esclusivamente dal caso. Probabilità:
può essere variamente definita, in ogni caso risulta nella
quantificazione della possibilità di accadimento di un dato evento
aleatorio E. Tale quantificazione, indicata con
p=P(E) e rappresentata da
un numero reale tra 0 e 1 compresi, è data dal rapporto tra la numerosità
dei casi ‘favorevoli’ e quella dei casi ‘possibili’: il suo valore
è talora definibile a priori (probabilità formale),
ma più spesso può essere ricavato solo da esperienze ripetute (probabilità
empirica), eventualmente con l’ausilio di informazioni e
opinioni coerenti (probabilità soggettiva). Variabile
aleatoria (casuale): variabile statistica le cui modalità sono
intese come eventi, associati ciascuno alla propria probabilità. La
distribuzione di frequenza di tutte le possibili modalità di una
variabile aleatoria è detta distribuzione di probabilità,
rappresentata graficamente con un poligono di frequenza o con una curva di
frequenza a seconda che la variabile aleatoria sia discreta o continua. Parametri
di una distribuzione di probabilità: sono quei valori caratteristici
che consentono di sintetizzare l’informazione di una distribuzione di
probabilità, i quali si riferiscono: alla zona di massima probabilità
della variabile (praticamente una media) e alla dispersione dei valori
attorno al valore centrale (varianza). Gradi
di libertà di un parametro statistico (g.d.l.): è il
“numero dei valori, indipendenti fra loro, usati per calcolare il
parametro in questione”, per cui il numero dei gradi di libertà
(indicato con gdl) “è dato dal numero delle osservazioni (n, dimensione
del campione) diminuito del numero (k) delle stime dei parametri della
popolazione che entrano nel calcolo del parametro considerato” cioè
gdl=n-k [Castino-Roletto]. Modello
distributivo: è la rappresentazione, in forma di funzione
matematica o di curva di frequenza, della distribuzione di frequenza
di una variabile statistica secondo una legge teorica. La maggior
parte dei fenomeni statistici può essere descritta con un numero limitato
di leggi di probabilità, relative a variabili discrete o continue, che
“permettono non solo di interpretare le osservazioni empiriche, ma anche
di calcolare la probabilità di determinati eventi e quindi di avanzare
previsioni su accadimenti futuri” [Castino-Roletto]. distribuzione
normale (gaussiana): Il
modello distributivo della normale è uno
dei più importanti in statistica, poiché
detta distribuzione è alla base di tutti i test
parametrici e perché ad essa tendono alcune distribuzioni dopo
trasformazione (per es. logaritmica) dei dati, la binomiale per n
tendente all’infinito, la poissoniana per media alta cioè superiore a 6
e la distribuzione della media di qualunque variabile aleatoria
indipendente per n
grande (³100)
o anche medio (³30)
secondo la legge dei grandi numeri, la quale definisce che “qualunque sia la
distribuzione di probabilità di una popolazione di origine, la
distribuzione di probabilità di una popolazione di medie, ottenute da
campioni di effettivo [numerosità] n,
può essere assimilata ad una distribuzione normale, purché n abbia un
valore abbastanza grande” o, in altri termini, che “la legge di
probabilità di una popolazione di medie my
di campioni di dimensione n tende alla legge normale N(m,s/Ön)
quale che sia la legge di probabilità della popolazione d’origine,
quando n
è sufficientemente grande”[Castino-Roletto] [tale legge è derivazione
del teorema del limite centrale, che dice che la distribuzione di
qualsiasi parametro relativo a campioni estratti da una popolazione
normale è anch’essa una normale N(m,s/Ön)]. Vai
a >>> |
|