PROBABILITA' E STATISTICA IN ALTA DIMENSIONE

Obiettivi formativi

Obiettivi generali: acquisire conoscenze in Probabilità e Statistica in alta dimensione con applicazioni alla Data Science Obiettivi specifici: Conoscenza e comprensione: al termine del corso lo studente avrà acquisito le nozioni di base di Probabilità e Statistica in alta dimensione e conoscerà algoritmi per risolvere alcuni problemi rilevanti in Data Science Applicare conoscenza e comprensione: al termine del corso lo studente potrà risolvere diversi problemi riguardanti strutture geometriche aleatorie in alta dimensione, riduzione di dimensione dei dati trattati, problemi di statistical learning e di regressione in alta dimensione. Capacità critiche e di giudizio: lo studente comprenderà le idee alla base di diversi algoritmi e software utilizzati in Data Science, comprendendo anche le situazioni ottimali di applicazioni e gli eventuali limiti applicativi. Capacità comunicative: lo studente dovrà mostrare capacità di esporre i contenuti del corso nella parte orale della verifica e nella soluzione di problemi nella prova scritta. Capacità di apprendimento: le conoscenze acquisite permetteranno allo studente una comprensione multidisciplinare di diversi problemi motivati dalla data science e faciliteranno lo studio di argomenti ricerca attualmente molto attivi.

Canale 1
ALBERTO FACHECHI Scheda docente
LORENZO TAGGI Scheda docente

Programmi - Frequenza - Esami

Programma
Il corso affronta concetti e metodi fondamentali della probabilità e statistica in alta dimensione, con particolare attenzione alle disuguaglianze di concentrazione, alle variabili casuali subgaussiane e subesponenziali, e alle loro applicazioni nell’ambito dell’analisi dei dati e dell’apprendimento automatico (machine learning). Gli argomenti trattati includono: Disuguaglianza di Hoeffding e definizione di variabili casuali subgaussiane. Proprietà equivalenti e norma subgaussiana. Disuguaglianza di Hoeffding per somme di variabili subgaussiane indipendenti. Variabili casuali subesponenziali e stima di Chernoff. Lemma di Johnson–Lindenstrauss e proiezioni dimensionali. Epsilon-nets, covering number e packing number; relazioni quantitative in 𝑅 𝑛 R n . Concentrazione della norma operatoriale di matrici con entrate subgaussiane e risultati spettrali (teoremi di Courant–Fischer, Weyl, Davis–Kahn). Stochastic Block Model e problemi di community detection. Algoritmo di spectral clustering e algoritmo k-means. Operatore Laplaciano e algoritmo di unnormalized Laplacian spectral clustering. Legge forte dei grandi numeri, teorema di Glivenko–Cantelli, disuguaglianza Dvoretzky–Kiefer–Wolfowitz (DKW). Dimensione VC, complessità di Rademacher e loro ruolo nell’apprendimento statistico. Durante le lezioni vengono assegnati e discussi esercizi teorici e computazionali, molti dei quali ripresi nelle esercitazioni di laboratorio.
Prerequisiti
Sono richieste conoscenze di base di probabilità e statistica, in particolare disuguaglianze di concentrazione elementari, variabili casuali discrete e continue, valore atteso e varianza, indipendenza, legge dei grandi numeri e teorema del limite centrale. È utile la familiarità con nozioni di algebra lineare (autovalori, autovettori, norme matriciali) e con strumenti di analisi matematica (successioni, limiti, derivate). È necessario conoscere il linguaggio Matlab, che verrà utilizzato durante le esperienze di laboratorio per l’esecuzione dei task previsti.
Testi di riferimento
R. Vershynin. ``High-Dimensional Probability. An Introduction with Applications in Data Science". Cambridge University Press. Disponibile online (gratuitamente). M. J. Wainwright. ``High-Dimensional Statistics. A Non-Asymptotic Viewpoint". Cambridge University Press.
Frequenza
Corso in presenza. Frequentazione è fortemente consigliata.
Modalità di esame
Esami: prova orale e/o scritta.
Bibliografia
R. Vershynin. ``High-Dimensional Probability. An Introduction with Applications in Data Science". Cambridge University Press. Disponibile online (gratuitamente). M. J. Wainwright. ``High-Dimensional Statistics. A Non-Asymptotic Viewpoint". Cambridge University Press.
Modalità di erogazione
Il corso prevede lezioni di teoria (per un totale di 44 ore) svolte alla lavagna o con l’ausilio di tablet, incentrate su esercizi di probabilità, enunciati di teoremi e relative dimostrazioni. Alle lezioni frontali si affiancano 12 ore di laboratorio, durante le quali gli studenti utilizzano Matlab per svolgere esercitazioni pratiche strettamente connesse con gli argomenti teorici trattati a lezione.
  • Codice insegnamento10611928
  • Anno accademico2025/2026
  • CorsoMatematica applicata
  • CurriculumMatematica applicata per le scienze
  • Anno2º anno
  • Semestre1º semestre
  • SSDMAT/06
  • CFU6