MACHINE LEARNING AND COMPUTATIONAL BIOLOGY

Obiettivi formativi

Obiettivi generali Obiettivo generale del corso è di trasferire agli studenti le conoscenze dello stato dell’arte del machine learning e della biologia computazionale a seguito dell’avvento di tecnologie di sequenziamento massivo per la produzione di dati genomici e proteomici. Tali basi sono necessarie poi per permettere agli studenti di raggiungere le competenze per una corretta analisi delle problematiche proprie dell’area e la capacità di progettazione ed implementazione di un software adatto alla risoluzione del problema proposto. Pertanto il percorso formativo è finalizzato alla formazione di una figura professionale che sia in grado di intervenire nella risoluzione e gestione di progetti informatici in ambito biomolecolare, con particolare riferimento alle tecniche di machine learning. Obiettivi specifici Il corso si propone di formare persone esperte di tecniche di machine learning nelle analisi dei dati biomedici e progettisti di sistemi software che possiedano le conoscenze di base della biologia molecolare e degli strumenti bio-informatici utilizzati per affrontare la gestione dell'enorme flusso di dati generati in questo settore. Persone con tale profilo professionale dovranno essere in grado, partendo dalla piattaforma sperimentale di produzione dei dati (saranno particolarmente dettagliate le problematiche derivanti dai dati prodotti con sequenziamento massivo), di stabilire quali siano gli algoritmi di interesse per l'analisi dei dati grezzi del progetto, con particolare riferimento agli algoritmi di machine learning. Dovranno inoltre acquisire una sensibilità critica ed essere in grado di definire un protocollo di analisi dei dati tenendo conto delle risorse di calcolo disponibili e, di conseguenza, ottimizzare l'analisi. Al termine del corso, gli studenti presenteranno anche strumenti da loro sviluppati per la gestione, l'integrazione e l'interrogazione delle enormi quantità di dati prodotti dalle analisi al fine di ottenere risultati finali biologici, efficaci e fruibili. Tali strumenti seguiranno gli standard richiesti nello sviluppo software tipici della comunità bioinformatica. 1. Applicazione di conoscenza e comprensione: Gli obiettivi formativi sono realizzati attraverso lezioni frontali, attività di laboratorio ed esercitazioni nelle quali sono previste simulazioni di progetti di lavoro, svolgimento in classe o discussione con partecipazione diretta degli studenti relativamente a problemi e all’analisi di casi di studio. 2. Autonomia di giudizio: Gli studenti del corso acquisiranno la capacità di elaborare informazioni complesse e/o frammentarie (ad esempio dovranno gestire dati di sequenze annotate solo in parte, ossia solo alcune di esse saranno associate ad un intervallo cromosomico di un organismo sequenziato, e spesso annotate in maniera non standard) e dovranno pervenire ad una modellazione dei dati pensata in maniera originale ed autonoma, scelta coerentemente con l'ambito biologico del proprio progetto sperimentale. 3. Abilità comunicative: Gli studenti saranno in grado di dialogare con i ricercatori dell'area biomedica, in modo chiaro, logico ed efficace, utilizzando gli strumenti metodologici acquisiti durante il corso e attraverso termini propri della biologia computazionale. L'acquisizione di queste competenze sarà testata attraverso una verifica orale e diversi progetti sviluppati in laboratorio. 4. Capacità di apprendimento: Gli studenti dovranno aver acquisito la capacità critica, originale ed autonoma di rapportarsi a problematiche proprie dei progetti di biologia computazionale e di applicare autonomamente le conoscenze acquisite durante il corso in vista di un'eventuale prosecuzione degli studi a livello superiore (laurea specialistica) o nella più ampia prospettiva di approfondimento culturale e professionale nel caso di un impiego nell’area biomedica/bioinformatica.

Canale 1
Antonio LUCIANO Scheda docente

Programmi - Frequenza - Esami

Programma
Introduction ML and Computational Biology Machine Learning Environment Unsupervised Learning Dimensionality Reduction (PCA, Eigenvectors, SVD) Clustering (kmeans, GMM) Supervised Learning Non-parametric Decision trees Random Forest/Nearest Neigh. Supervised Learning Parametric Linear Regression Polynomial regression under/overfitting Logistic Regression (LR) SVM
Prerequisiti
Teoria della Probabilità, Statistica, Algebra Lineare e Skill di Programmazione in Python.
Testi di riferimento
Slide del corso. Machine Learning: A Probabilistic Perspective Kevin P. Murphy, MIT Press Ltd. Christopher M. Bishop, “Pattern Recognition and Machine Learning”.
Frequenza
È consigliata la frequenza del corso.
Modalità di esame
L' esame può comprendere una parte scritta e una parte pratica in cui è necessario implementare e analizzare un sistema di ML di base. Essa può essere svolta con homework durante il corso o con un progetto finale. Per superare l'esame occorre conseguire un voto non inferiore a 18/30. Per conseguire un punteggio pari a 30/30 e lode, lo studente deve invece dimostrare di aver acquisito una conoscenza eccellente di tutti gli argomenti trattati durante il corso, essendo in grado di raccordarli in modo logico e coerente.
Modalità di erogazione
Si svolgeranno lezioni frontali in classe.
  • Codice insegnamento10602994
  • Anno accademico2024/2025
  • CorsoMolecular Biology, Medicinal Chemistry and Computer Science for Pharmaceutical Applications - Biologia molecolare, Chimica farmaceutica e Informatica per applicazioni farmaceutiche
  • CurriculumCurriculum unico
  • Anno3º anno
  • Semestre1º semestre
  • SSDINF/01
  • CFU6
  • Ambito disciplinareDiscipline Matematiche, Fisiche, Informatiche e Statistiche