NATURAL LANGUAGE PROCESSING AND TEXT MINING

Obiettivi formativi

General Objectives 1. Knowledge of the main application scenarios in analyzing collections of textual data using NLP techniques. 2. Knowledge and understanding of the main methodological and analytical challenges. 3. Knowledge of the main data analysis and machine learning techniques for natural language and the primary tools available to implement them. 4. Understanding of the theoretical foundations underlying advanced techniques for textual data analysis and natural language learning. 5. Ability to translate acquired notions into programs that solve specific problems. 6. Knowledge of the main evaluation techniques and their application to practical scenarios. Specific Objectives Abilities - Identify the most suitable text-mining and/or NLP techniques to address a given problem. - Implement the proposed solution by selecting the most appropriate tools. - Design and conduct experiments to evaluate proposed solutions under realistic conditions. Knowledge and Understanding - Knowledge of the main application scenarios. - Knowledge of the main analysis techniques. - Understanding of the theoretical and methodological assumptions underlying the main techniques. - Knowledge and understanding of the main evaluation techniques and corresponding performance indices. Applying Knowledge and Understanding - Translate application requirements into concrete data-analysis problems. - Identify the most suitable techniques and tools to address those problems. - Qualitatively estimate the scalability of the proposed solutions in advance. Critical and Judgment Skills - Evaluate experimentally the effectiveness, efficiency, and scalability of proposed solutions. Communication Skills - Effectively describe the requirements of a problem and communicate the chosen solutions and their rationale to others. Learning Ability - Develop independent-study skills on course-related topics and critically consult advanced manuals and scientific literature to tackle new scenarios or apply alternative techniques.

Canale 1
FABRIZIO SILVESTRI Scheda docente

Programmi - Frequenza - Esami

Programma
Parte 1 - Ranking e similarity search 1. Problemi di interesse. Ranking di documenti. Link analysis: rivisitazione del Pagerank come sistema di ranking indipendente dalle query. Link analysis dipendente dal contesto: Topic sensitive e Personalized Pagerank. Hub e autorità: l'algoritmo HITS. 2. Similarity search in collezioni di dati ad elevata dimensionalità: ricerca dei Top-k e nearest-neighbour (approssimati). Similarità tra insiemi e distanza di Jaccard. Permutazioni minwise indipendenti. Caso ideale e sua analisi. Firme e stima della similarità. Implementatione con famiglie universali di funzioni hash. Miglioramento dell'accuratezza e tecnica delle bande. Stima della frazione di falsi positivi e negativi. 3. Proprietà generali della tecnica delle bande. Locality Sensitive Hashing per altre distanze: distanza di Hamming e distanza angolare. 4. Altre tecniche per similarity search efficiente. Clustering dei punti e quantizzazione vettoriale: proprietà e limiti. Quantizzazione per prodotti. Definizione, proprietà e implementazione. Efficienza della tecnica basata su quantizzazione dei prodotti. 5. Metodi basati su grafi. Reti piccolo mondo navigabili. Il modello di Kleinberg di rete navigabile su lattici bidimensionali. Reti piccolo mondo navigabili su insiemi di punti nello spazio euclideo. Algoritmi di ricerca e di costruzione della rete. Parte 2 - Riduzione della dimensionalità e clustering 1. Un'applicazione di riferimento: sistemi di raccomandazione e Collaborative filtering 2. Rivisitazione dei principali aspetti di SVD e PCA: varianza, approssimazione di una matrice rispetto alla norma di Frobenius. Uso della SVD per collaborative filtering. SVD troncata ed embedding spettrali. 3. Fattori latenti. Altre decomposizioni di matrici. Decomposizioni a fattori positivi. Algoritmi per il calcolo di componenti a fattori positivi: l'algoritmo iterativo di Lee e Seung. Parte 3 – Reti neurali e linguaggio naturale 1. Reti neurali e modelli linguistici di grandi dimensioni 2. Neural Information Retrieval
Prerequisiti
- Nozioni di algebra lineare - Conoscenze di Analisi Matematica e studio delle funzioni, conoscenze di base di calcolo delle probabilità e statistica - Programmazione, algoritmi e strutture dati fondamentali
Testi di riferimento
- Christopher D. Manning, Prabhakar Raghavan, Henrich Schueze Introduction to Information Retrieval, Cambridge University Press, 2008 - J. Leskovec, A. Rajaraman, and J. Ullman, Mining of Massive Datasets, Cambridge University Press. - Dan Jurafsky and James H. Martin. Speech and Language Processing (3rd ed. draft). - Note e lavori scientifici sugli argomenti trattati suggeriti dal docente
Frequenza
Nessuna frequenza obbligatoria
Modalità di esame
Gli studenti sono valutati sulla base di: - Valutazione di progetti assegnati in itinere e da consegnare durante lo svolgimento del corso, validi per l'anno accademico - Prova scritta su tutto il programma del corso o su quelle parti che corrispondono a progetti non consegnati - Prova orale E' sempre possibile, su richiesta dello studente, essere valutato attraverso un esame scritto e una prova orale sull'intero programma del corso
Modalità di erogazione
Lezioni e esercitazioni svolte in classe
LUCA BECCHETTI Scheda docente
  • Codice insegnamento10621173
  • Anno accademico2025/2026
  • CorsoData Science
  • CurriculumCurriculum unico
  • Anno1º anno
  • Semestre2º semestre
  • SSDING-INF/05
  • CFU6