Programma
E' possibile consultare la versione più aggiornata dei contenuti del contenuto del corso, delle modalità di verifica ed ulteriori info sul sito dedicato disponibile sulla piattaforma e-learning Moodle.
Si riporta una descrizione sintetica del contenuto del corso di INFERENZA STATISTICA e LABORATORIO seguita da un'articolazione più dettagliata.
# INFERENZA STATISTICA
Il programma dal punto di vista della teoria dell'inferenza statistica può essere suddiviso in 3 parti principali:
1. Introduzione ai problemi di inferenza statistica nelle Scienze e nella Società; formalizzazione del modello statistico; introduzione ai principali problemi inferenziali (10 ore)
2. Funzione di verosimiglianza e inferenza basata sul principio di verosimiglianza (10 ore)
3. Inferenza frequentista:
- introduzione; il principio del campionamento ripetuto; distribuzioni campionarie (12 ore)
- Inferenza frequentista per problemi di stima puntuale e stima per intervallo (16 ore)
- Inferenza frequentista per problemi di verifica d'ipotesi (24 ore)
# LABORATORIO
Tutti gli argomenti affrontati durante le lezioni vengono ulteriormente esemplificati ed approfonditi mediante 12 sessioni di laboratorio con l'ausilio dei software R e RStudio in aula informatica (24 ore).
# ARTICOLAZIONE DETTAGLIATA
## Principali argomenti di teoria dell'inferenza statistica.
1. Leggi di probabilità e famiglie parametriche di distribuzioni. Variabile casuale e modello statistico per la rappresentazione di un fenomeno osservabile. Campionamento casuale semplice e modello statistico per un n-upla di osservazioni. Posizione del problema dell’inferenza statistica. Schema dei principali problemi inferenziali.
2. La funzione di verosimiglianza. Analisi della funzione di verosimiglianza. Stima di massima verosimiglianza. Insiemi di livello. Rapporti di verosimiglianza. Informazione osservata. Approssi- mazione normale. Insiemi di livello approssimati. Principio di verosimiglianza. Sufficienza. Famiglie esponenziali.
3. Elementi di teoria frequentista della stima parametrica.
- Statistiche campionarie. Distribuzioni delle statistiche campionarie. Media e varianza campionaria. Proprietà generali della media e della varianza campionaria. Distribuzioni di media e varianza campionarie nel caso di campioni da popolazioni normali. Teoremi asintotici per lo studio dello media campionaria: legge dei grandi numeri e teorema centrale di convergenza.
- Stimatori puntuali. Stimatori di massima verosimiglianza. Stimatori dei momenti. Valutazione degli stimatori: il criterio dell’errore quadratico medio. Stimatori non distorti. Consistenza. Ricerca degli stimatori ottimi. Informazione campionaria e limite inferiore di Cramer-Rao. Il concetto di sufficienza e il suo ruolo nella teoria della stima. Procedura di Rao-Blackwell. Proprietà asintotiche degli stimatori di massima verosimiglianza. Metodo Delta. Stima per intervallo. Intervalli di confidenza: definizione ed esempi rilevanti. Quantità pivoltali. Intervalli approssimati basati sulla normalità asintotica degli stimatori di massima verosimiglianza e sul metodo Delta.
- Verifica statistica delle ipotesi. Concetti generali: sistema di ipotesi; formalizzazioni alternative della procedura di verifica d’ipotesi; diversi tipi di errori errori (I e II specie). Controllo dell’errore nei test: ipotesi semplici e ipotesi composte. Lemma di Neyman-Pearson per l’ottenimento di test ottimi. Ipotesi composte. Funzione di potenza. Ottimalità dei test. Il test del rapporto delle verosimiglianze massimizzate. Test asintotici. Cenni ai test non parametrici: test di Normalità e test Chi-quadrato.
## Attività di laboratorio.
Il laboratorio prevede lo svolgimento di 12 sessioni. Di regola le sessioni si svolgono in aula informatica.
A. Introduzione all'ambiente R. Gli oggetti nella memoria della sessione corrente: modi degli oggetti con enfasi sui modi `numeric` e `function`. Cenni alle classi. Creazione di funzioni. Introduzione alla lettura di dati empirici attraverso file esterni e alla simulazione di dati da modello probabilistico.
B. Rappresentazioni grafiche. Grafici interattivi e famiglie di distribuzioni. Distribuzioni di probabilità e modelli statistici. Simulazione da un modello statistico assegnato.
C. Costruzione e studio di funzioni di verosimiglianza con R. Pacchetti e funzioni già predisposte in R per l'ottenimento di stime di massima verosimiglianza.
D. Cenni essenziali per l'importazione e manipolazione di dati esterni. Analisi inferenziale di dati empirici.
E. Simulazione di variabili aleatorie. Risultati asintotici del calcolo delle probabilità e approssimazione basata su simulazioni. Introduzione al PCR.
F. Principio del campionamento ripetuto (PCR). Statistiche campionarie e stimatori. Stimatori e loro simulazione. Studio del comportamento degli stimatori al variare della numerosità campionaria. Distribuzione esatta ed asintotica di uno stimatore. Distribuzione esatta ed approssimazione della distribuzione esatta mediante simulazione.
G. Valutazione approssimata dell'errore quadratico medio e confronto empirico/approssimato tra stimatori. Livelli di approssimazione ottenibili con la distribuzione asintotica di uno stimatore.
H. Intervalli di confidenza con R. Costruzione di funzioni per l'implementazione di stimatori per intervallo e intervalli di confidenza. Utilizzazione di funzioni già predisposte per l'ottenimento di intervalli di confidenza per alcuni importanti modelli parametrici.
I. Test d'ipotesi semplici: costruzione di funzioni per l'implementazione di una regola di decisione basata su statistica test e soglia. Valutazione (approssimata) delle proprietà inferenziali nel caso di ipotesi semplici.
J. Funzioni principali già disponibili in R per condurre verifiche di ipotesi parametriche (semplici o composte) mediante regola del p-value e per l'ottenimento di intervalli di confidenza. Test di ipotesi non parametriche: test di normalità.
K. Confronto tra intervalli di confidenza: valutazione approssimata di copertura e ampiezza attesa. Intervalli di confidenza asintotici.
L. Test asintotico di Wald.
Prerequisiti
Per affrontare i contenuti dell’insegnamento è indispensabile possedere le nozioni di base dell’Analisi matematica (in particolare: tutti gli strumenti analitici per lo studio di una funzione reale di variabile reale; derivate e integrali per funzioni reali di variabili reali) e della Probabilità (in particolare: variabili aleatorie, distribuzioni di probabilità, momenti, convergenza di successioni di variabili aleatorie). Nel corso di studio di cui fa parte il presente insegnamento tali nozioni vengono acquisite superando gli esami degli insegnamenti Matematica (II corso) e Probabilità.
Testi di riferimento
Testi consigliati:
• Inferenza Statistica (a cura di F. De Santis, S. Gubbiotti, L. Tardella, I. Verdinelli) appunti delle lezioni reperibili sul sito del corso ospitato sulla piattaforma elearning Moodle (http://elearning.sta.uniroma1.it/moodle2)
• Raccolta di esercizi reperibile sul sito del corso ospitato sulla piattaforma elearning Moodle (http://elearning.sta.uniroma1.it/moodle2)
Modalità insegnamento
Le lezioni frontali prevedono alternanza tra presentazione di aspetti teorici, applicazioni a modelli univariati notevoli, risoluzione di esercizi. Le lezioni teoriche sono poi integrate e completate da sessioni di laboratorio in aula informatica.
Frequenza
La frequenza del corso è facoltativa, ma fortemente consigliata. In caso di impossibilità a seguire le lezioni e/o i laboratori, si consiglia di contattare subito il docente. Tutte le informazioni di contatto sono fornite nella bacheca personale del docente consultabile attraverso il catalogo dei corsi di studi https://corsidilaurea.uniroma1.it/cerca/docente
Modalità di esame
Per poter verbalizzare l'esame da 12 crediti lo studente dovrà aver superato
- prova scritta
- prova orale
- prova pratica in laboratorio informatico attraverso l'utilizzo del software R
L’ordine con cui devono essere superate le tre prove è quello indicato. Può essere modificato solo per quanto riguarda la prova pratica di laboratorio.
Il docente consente a tutti gli studenti (frequentanti e non) di superare la prova scritta attraverso il superamento complessivo di due prove in itinere.
Il docente consente a tutti gli studenti (frequentanti e non) di superare la prova pratica attraverso il superamento di due prove in itinere.
Le date delle prove scritte sono programmate per tutto l'anno accademico e corrispondono alle date degli appelli pubblicate su INFOSTUD.
Le date delle prove di laboratorio sono programmate per tutto l'anno accademico e corrispondono alle date degli appelli pubblicate su INFOSTUD.
Le prove in itinere di regola sono programmate con il seguente criteri: prima prova in itinere nella settimana che inizia con il lunedì Pasqua.
La seconda prova in itinere è programmata o nell'ultimo giorno del periodo di lezioni o nei giorni immediatamente seguenti.
La validità delle prove superate è un anno solare dalla data della prova svolta.
Bibliografia
- D. Piccolo (2010). Statistica. Il Mulino
Modalità di erogazione
Le lezioni frontali prevedono alternanza tra presentazione di aspetti teorici, applicazioni a modelli univariati notevoli, risoluzione di esercizi. Le lezioni teoriche sono poi integrate e completate da sessioni di laboratorio in aula informatica.