home

MICRO·CORSO di STATISTICA
percorso standard

Giovanni Garasto corso

percorso standard

1.  Primi passi
          ... ... ...
          1.4 Primi passi nel ragionamento statistico (in forma di glossario)

 ° ELEMENTI DEL RAGIONAMENTO STATISTICO - A

 Popolazione: insieme di tutti i dati simili, oggetto d’indagine; essa può essere finita o infinita, anche in relazione agli obiettivi dell’indagine.

 

Campione: gruppo limitato di dati estratto dalla popolazione che si vuole indagare.

 

Tecniche statistiche: modalità di elaborazione finalizzate alla descrizione e all’analisi dei dati, talora precedute da una loro opportuna trattazione (come, per es., un’individuazione ed eliminazione di dati ‘anomali’, oppure una  trasformazione, di vario tipo, dei valori in altri più idonei alla elaborazione).
Nell’ambito della
statistica descrittiva, primo passo verso la comprensione dei fenomeni, rientrano: la ‘riduzione’ dei dati a indici sintetici capaci di riassumere, senza perdite rilevanti, l’informazione (i cosiddetti indici di posizione, di dispersione, di forma della distribuzione), la rappresentazione tabellare dei dati sulla base di un opportuno numero di criteri di classificazione e la loro rappresentazione grafica, capace di consentire una comprensione immediata ancorché approssimativa dei dati stessi.
E’ invece scopo delle tecniche proprie della
statistica inferenziale (induttiva) portare a una conoscenza la meno approssimata possibile delle caratteristiche di una popolazione partendo dalle caratteristiche di uno o più campioni da essa estratti; a tale ambito risultano, comunque, collegate varie altre tecniche, come quelle, complementari, finalizzate al calcolo delle dimensioni campionarie o a verificare la ‘bontà dell’adattamento’ dei dati a una particolare distribuzione, i test di confronto tra campioni, i test di associazione tra variabili campionarie. Alle tecniche più semplici, ‘di base’, se ne affiancano di molto sofisticate, capaci di affrontare, da differenti angolature, fenomeni complessi.

 

 ° ELEMENTI DEL RAGIONAMENTO STATISTICO - B

 Insieme statistico: è un insieme di entità (individui/oggetti), detti unità statistiche, di cui almeno due differiscono tra loro per almeno un carattere.

 Carattere: è un attributo delle unità statistiche sottoposto a osservazione ed espresso come variabile statistica, la quale può essere discreta o teoricamente continua.

 Modalità di un carattere: sono i vari modi di essere/valori assunti da un carattere [es.: colore: rosso, verde, ecc.; peso delle persone: tutti i pesi possibili].

 Scala di misura di un carattere è il sistema di riferimento adottato per rappresentare la determinazione (natura/grandezza) di una data modalità di un carattere nelle unità statistiche, per cui si parla di scala nominale (quando il carattere non è quantizzabile) [es.: tipo di colore], ordinale (quando è possibile una gradazione quantitativa del carattere in termini semplici di maggiore/minore) [es.: voti scolastici], di intervallo (quando, per caratteri misurabili, lo zero è arbitrario e solo le differenze tra i valori sono continue e tra loro rapportabili, cioè confrontabili) [es.: temperatura in °C], di rapporto (quando lo zero è reale) [es.: peso].

Misurazione: è il processo che porta alla rilevazione delle modalità assunte da un determinato carattere, indipendentemente dalla scala utilizzata; il termine misura, però, è più comunemente utilizzato solo laddove c’è quantificazione, per cui si parla ordinariamente di misure ordinali e di misure scalari, queste ultime relative a grandezze rappresentabili su scale di intervallo e di rapporto.

 

 ° ELEMENTI DEL RAGIONAMENTO STATISTICO - C

Errori di misura: si tratta di errori, di vario tipo ed entità, determinati da cause che intervengono praticamente durante qualsiasi processo di misurazione. In conseguenza di ciò, si dà che il risultato di qualsiasi misurazione (inclusa quella di grandezze scalari) è sempre caratterizzato da un qualche grado di incertezza: ciò fa sì che detto risultato possa non coincidere con il valore vero, rimanendo questo teoricamente inconoscibile.

 

Errori casuali sono quelli che, in genere imprevedibili e di modesta entità, determinano una dispersione (scarti in più    in meno) dei valori misurati attorno al valore vero (variabilità; imprecisione della misura); gli effetti di tali errori sono rilevabili mediante misure ripetute.

 

Errori sistematici sono quelli che comportano un'inaccuratezza, cioè uno scostamento (bias) del valore misurato rispetto al valore vero nel senso di un suo aumento  o  di una sua diminuzione, in genere di modesta entità e proporzionale (bias relativo) o non proporzionale (bias fisso) al valore stesso; tali errori sono rilevabili solo "definendo" il valore vero a priori o con l’ausilio di materiali di riferimento.

 

Errori grossolani sono quelli riferiti a situazioni che hanno agito su una misura o un gruppo di misure in modo consistente ma del tutto accidentale in un dato momento; la loro rilevazione rientra nell’ambito dell’individuazione dei valori cosiddetti anomali (in inglese outliers), effettuata con tecniche grafiche o di calcolo statistico; il loro trattamento, finalizzato all’individuazione e controllo delle cause, non è statistico, ma tecnico-pratico, cioè va considerato di volta in volta e la correzione della causa è quasi sempre accompagnata dalla necessità di scartare il risultato della misura erroneamente ottenuto e di ripetere la misura stessa in condizioni idonee.

 

 ° ELEMENTI DEL RAGIONAMENTO STATISTICO - D

 Frequenze: sono le numerosità delle unità statistiche portatrici di ogni modalità di un dato carattere. Le frequenze possono essere assolute (numerosità tal quali) oppure relative (cioè ottenute dividendo ogni singola frequenza assoluta per la frequenza assoluta totale) o anche percentuali (frequenze relative moltiplicate per 100), tutte eventualmente cumulate o retrocumulate (cioè con le frequenze di ogni modalità sommate a quelle di tutte le modalità che precedono o che seguono, rispettivamente). I totali delle frequenze relative e di quelle percentuali sono sempre uguali a 1 e a 100 rispettivamente.

 

Distribuzione di frequenza: è data dal raggruppamento delle unità in classi di frequenza secondo valori puntuali o per intervalli. Ogni classe intervallare, a meno che non sia aperta, possiede dei limiti (valori estremi) e un valore centrale (dato dalla semisomma degli estremi).
Ogni distribuzione può essere rappresentata in forma tabellare o anche grafica mediante diagrammi vari, tra cui gli
istogrammi ed i corrispondenti poligoni di frequenza; questi ultimi, che sono formati da linee spezzate che congiungono i valori centrali delle classi, diventano curve di frequenza quando l’ampiezza degli intervalli tende a zero e il numero delle unità statistiche tende all’infinito.
Accanto alle distribuzioni di frequenza
univariate, si danno anche distribuzioni bivariate, la cui rappresentazione tabellare prevede l’incrocio delle variabili nelle classi (tabelle di contingenza a due vie con righe e colonne), o anche multivariate (pacchetti di tabelle di contingenza).
Circa la forma della distribuzione, va notato che sono possibili molti tipi di distribuzioni, sia discrete che continue (a campana, rettangolari, ascendenti, discendenti, a U, ecc.), con un numero variabile di punti locali di massima frequenza (distribuzioni zero-, pluri- o uni-modali, queste ultime simmetriche oppure asimmetriche a sinistra o a destra).

Parametri di una distribuzione di frequenza: sono quei valori numerici caratteristici che consentono di sintetizzare l’informazione contenuta in una distribuzione di frequenza e che rendono possibili ulteriori eventuali elaborazioni; si distinguono indici di posizione (indici di tendenza centrale: medie e moda, e indici di ordine: mediana e altri quantili), indici di dispersione (intervallo di variazione, devianza, varianza, deviazione standard, ecc.), indici di forma della distribuzione (indici di asimmetria e di curtosi).

Serie/seriazione statistica: è l’insieme dei valori di una mutabile/variabile, che, se effettuata in corrispondenza di luoghi diversi o di tempi consecutivi, è detta rispettivamente serie geografica e serie storica (in quest’ultimo caso, i dati non sono indipendenti, ma autocorrelati, cioè ciascuno è influenzato dal precedente ed influenza il seguente); si parla di serie ordinata quando i valori sono posti in ordine ascendente o discendente. 

Vai a >>>   1.5 Elementi di probabilita'

 

estensore del corso e webmaster
giovanni f. garasto
docente presso la scuola di specializzazione in igiene e medicina preventiva della
università di ferrara

(esercitazioni di statistica)
e-mail: grg@unife.it