Le prove statistiche

Quando si analizzano dati ottenuti con una variabile quantitativa continua, le prove statistiche di stima e contrasto frequentemente impiegate si basano sulla supposizione che si è ottenuto un campione aleatorio di una distribuzione di probabilità di tipo normale o di Gauss.

Ma in molte occasioni questa supposizione non risulta valida, ed in altri non risulta facile da analizzare il sospetto che non sia adeguata, trattandosi di piccoli campioni.

In questi casi disponiamo di due possibili meccanismi:

I dati possono trasformarsi in modo tale da seguire una distribuzione normale.
Oppure ci si può avvalere di prove statistiche che non si basino su nessuna supposizione riguardo alla distribuzione di probabilità dalla quale furono ottenuti i dati, e per ciò si denominano prove non parametriche (distribuzione free), mentre le prove che suppongono una distribuzione di probabilità determinata dai dati si denominano prove parametriche.

1) PROVE NON PARAMETRICHE:

Le prove statistiche non parametriche sono quelle che, nonostante si basino su determinate supposizioni, non partono dal principio che i dati analizzati adottano una distribuzione normale.

Tecnica statistica che non presuppone nessuna distribuzione di probabilità teorica della distribuzione dei nostri dati.

Si denominano prove non parametriche quelle che non presuppongono una distribuzione di probabilità per i dati, per ciò si conoscono anche come di distribuzione libera (distribuzione free).

Nella maggior parte di esse i risultati statistici derivano unicamente a partire da procedimenti di ordinazione e scrutinio, per cui la loro base logica è di facile comprensione.

Quando lavoriamo con campioni piccoli (n < 10) nei quali si ignora se è valido supporre la normalità dei dati, conviene utilizzare prove non parametriche, almeno per corroborare i risultati ottenuti a partire dall’utilizzo della teoria basata nel normale.

In questi casi si impiega come parametro di centralizzazione la mediana che è quello punto per il quale il valore di X è il 50 % delle volte al di sotto ed il 50% al di sopra.

Le prove non parametriche non richiedono di assumere la normalità della popolazione e nella maggioranza dei casi si basano sull’ordinamento dei dati, la popolazione deve essere continua.

Il parametro che si usa per fare le prove statistiche è la Mediana e non la Media.

Sono tecniche statistiche che non presuppongono nessun modello probabilistico teorico.

Sono meno potenti delle tecniche parametriche, benché abbiano il vantaggio che possono applicarsi più facilmente.

2) PROVE PARAMETRICHE:

Le prove statistiche parametriche, come quella del “t” di Student o l’analisi della varianza (ANOVA), si basano sul fatto che si presuppone una forma determinata della distribuzione di valori, generalmente la distribuzione normale, nella popolazione dalla quale si ottiene il campione sperimentale.

In contrapposizione alle tecniche non parametriche, le tecniche parametriche presuppongono una distribuzione teorica di probabilità soggiacente alla distribuzione dei dati.
Sono più valide rispetto le parametriche.

Dentro le prove parametriche, le più abituali si basano sulla distribuzione di probabilità normale, e stimando i parametri del modello si suppone che i dati costituiscano un campione aleatorio di questa distribuzione, per cui la scelta di chi valuta ed il calcolo della precisione della stima, elementi basilari per costruire intervalli di fiducia e contrastare ipotesi, dipendono dal modello probabilistico supposto.
Quando un procedimento statistico è poco sensibile ad alterazioni nel modello probabilístico supposto, cioè i risultati ottenuti sono approssimativamente validi quando questo varia, si dice che è un procedimento robusto.

3) ANALISI DI LA VARIANZA (ANOVA)

ANOVA è la sigla per “analisi della Variazione” (ANalysis Of VAriance).

Una ANOVA racchiude diverse fonti della variazione ottenute in risultati sperimentali.

Insieme di tecniche statistiche per conoscere il modo in cui il valore medio di una variabile è interessato da differenti tipi di classificazioni dei dati.

Con l’analisi della varianza si possono regolare le stime dell’effetto di un trattamento secondo altri fattori come sesso, età, gravità, etc.

È una tecnica statistica che serve per decidire/determinare se le differenze che esistono tra le medie di tre o più gruppi (livelli di classificazione) sono statisticamente significative.

Le tecniche di ANOVA si basano sulla distribuzione della varianza per stabilire se la varianza spiegata dai gruppi formati è sufficientemente maggiore che la varianza residuale o non spiegata.

L’analisi della varianza (ANOVA) è una tecnica statistica di contrasto di ipotesi.

Tradizionalmente queste tecniche, congiuntamente con le tecniche di regressione lineare multipla, di cui sono praticamente un’estensione naturale, segnano il principio delle tecniche multivarianti.

Con queste tecniche si maneggiano simultaneamente più di due variabili, e la complessità dell’apparato matematico aumenta proporzionalmente col numero di variabili in gioco.

L’analisi della varianza di un fattore è il modello più semplice: un’unica variabile nominale indipendente, con tre o più livelli, spiega una variabile dipendente continua.

Un’altra alternativa che apparentemente è più logica ed intuitiva, consiste nel paragonare, in tutte le possibili combinazioni di due in due, le medie di tutti i sottogruppi formati.

Nell’ANOVA si confrontano medie, non varianze: medie dei sottogruppi o ceti originati dai fattori di classificazione studiati.

Una ANOVA quindi prova se la variazione associata ad una fonte spiegata è grande relativamente alla variazione inspiegata.

Se questo quoziente (la statistica di F) è tanto grande che per caso la probabilità che succeda è bassa (per esempio, P <=0.05), possiamo concludere (in questo livello della probabilità) che quella fonte della variazione aveva un effetto significativo.

CONDIZIONI GENERALI DI APLICAZIONE.

A – INDIPENDENZA DEGLI ERRORI I

Gli errori sperimentali devono essere indipendenti. Si ottiene se gli individui sono assegnati aleatoriamente. Si ottiene questa condizione se gli elementi dei diversi gruppi sono stati scelti con campionamento aleatorio.

B – NORMALITÁ

Si suppone che gli errori sperimentali si distribuiscano normalmente. Il che suppone che ognuna delle punteggiature yi.i si distribuirà normalmente.
Per comprovarlo si può applicare un test di accomodamento alla distribuzione normale come quello di Kolmogov-Smirnov.

C – OMOGENEITÀ DELLE VARIANZE (HOMOSCEDASTICIDAD???).

Le varianze dei sottogruppi deve essere omogenea σ21 = σ22 = ….. = σ2k poiché sono dovute all’errore. Si verificheranno mediante i test di: Ragione di varianzae (máx./min), C di Cochran, Barlett-Box…

4) ANALISI DELLA COVARIANZA (ANCOVA)

Metodo di analisi statistica che è un’estensione dell’analisi della varianza che permette di restringere i valutatori dell’effetto di un trattamento secondo possibili covariabili e fattori.
È una tecnica statistica che combina ANOVA (perché paragona medie tra gruppi) ed analisi di regressione (restringe i paragoni delle medie tra i gruppi per variabili continue o covariables).

5) ANALISI DI REGRESSIONE

In un insieme di dati sulla variabile dipendente e su una o più variabili indipendenti, x1,x2,… x1, consiste nel determinare il modello matematico più conveniente per descrivere y come una funzione delle x o per predire y a partire dalle x.

I tipi più ricorrenti sono il modello lineare ed il modello logistico.

6, ANALISI PER PROTOCOLLO

In una prova clinica, analisi dei dati secondo il trattamento preso, in contrapposizione all’analisi per intenzione di trattare che si realizza secondo il trattamento assegnato nel processo di attribuzione aleatoria. L’analisi per protocollo tende a misurare l’efficacia dell’intervento per la cui valutazione conviene includere solo i pazienti che sono stati realmente esposti ai trattamenti pianificati.