DATA MINING E CLASSIFICAZIONE

Obiettivi formativi

Obiettivi formativi Grazie ai progressi tecnologici, l'acquisizione dei dati è diventata poco costosa e grandi insiemi di dati vengono accumulati, ad esempio, tramite internet, l'e-commerce o i servizi bancari elettronici. Tali dati possono essere memorizzati nei data warehouse e data mart specificamente destinati al supporto delle decisioni aziendali. Il data mining fornisce le tecniche di gestione e analisi per estrarre le informazioni rilevanti da questi archivi e costruire modelli previsivi, fondamentali in settori quali la valutazione del credito, il marketing, la customer relationship management. Il corso prenderà in esame i metodi di preprocessing dei dati e la loro importanza. Verranno introdotti alcuni modelli non-parametrici di classificazione e regressione: Alberi di decisione, neural networks, support vector machine. Saranno illustrati i metodi di ensemble learning (Bagging, Boosting, Stacking, Blended). Sarà anche affrontata l'elaborazione di dati testuali e di immagini. Conoscenza e capacità di comprensione. Acquisire le basi delle tecniche affrontate nelle applicazioni di data mining. Comprendere come e perchè scegliere fra metodi statistici alternativi o eventualmente come combinare i diversi metodi. Capacità di trattare grosse masse di dati con l'ausilio dell'opportuno software, commerciale e open source. Capacità di applicare conoscenza e comprensione. Gli studenti sviluppano capacità critiche attraverso l’applicazione di un'ampia gamma di modelli statistici e di machine learning. Sviluppano inoltre il senso critico attraverso il confronto tra soluzioni alternative allo stesso problema ottenute utilizzando logiche di apprendimento diverse tra loro. Imparano ad interpretare criticamente i risultati ottenuti applicando le procedure a insiemi di dati reali. Autonomia di giudizio. Gli studenti sviluppano capacità critiche attraverso l’applicazione di un'ampia gamma di machine learning e modelli statistici. Sviluppano inoltre il senso critico attraverso il confronto tra soluzioni alternative allo stesso problema ottenute utilizzando logiche di apprendimento diverse tra loro. Imparano ad interpretare criticamente i risultati ottenuti applicando le procedure a insiemi di dati reali. Abilità comunicativa. Gli studenti, attraverso lo studio e l'esecuzione di esercizi pratici, acquisiscono il linguaggio tecnico-scientifico della disciplina, che deve essere opportunamente utilizzato sia nelle prove scritte intermedie e finali che nelle prove orali. Le abilità comunicative vengono sviluppate anche attraverso attività di gruppo. Capacità di apprendimento. Gli studenti che superano l’esame hanno appreso un metodo di analisi che consente loro di affrontare, negli insegnamenti successivi di area statistica, lo studio delle proprietà formali delle procedure di data mining in contesti modellistici più complessi.

Canale 1
AGOSTINO DI CIACCIO Scheda docente

Programmi - Frequenza - Esami

Programma
Grazie ai progressi tecnologici, l'acquisizione di dati è diventata poco costosa e grandi set di dati sono facilmente ottenibili. E' possibile analizzare questi dati per estrarre le informazioni rilevanti e costruire modelli previsionali, strumenti fondamentali in ambiti quali la valutazione del credito, il marketing, la gestione delle relazioni con i clienti. Il corso esaminerà le modalità di preprocessing dei dati e la loro importanza. Tratteremo alcuni dei modelli non parametrici per la classificazione e la regressione: alberi decisionali, support vector machine. Verranno illustrate le modalità di apprendimento tramite ensemble (Bagging, Boosting, Stacking, Blended). Particolare attenzione sarà rivolta ai modelli di rete neurale. Il corso affronterà anche l'analisi dei dati testuali e delle immagini. Il software che utilizzeremo durante buona parte del corso è SAS Viya. Ci prepareremo anche per l'esame di certificazione (facoltativo) che si svolgerà a settembre dopo un ulteriore mini corso. Chi supererà l'esame entro luglio riceverà anche il badge digitale che certificherà le proprie competenze nell'utilizzo di SAS Viya per il Machine Learning. Nell'ultima parte del corso studieremo il Natural Language Processing ed utilizzeremo anche Python per applicare dei modelli di rete neurale complessi.
Prerequisiti
Per frequentare con successo il corso è necessario aver completato un corso di inferenza statistica.
Testi di riferimento
Vengono utilizzati nel corso appunti forniti dal docente e argomenti tratti dai seguenti testi: Data Mining: Concepts and Techniques (J. Han, M. Kamber), An Introduction to Statistical Learning with application in R (James, Witten, Hastie, Tibshirani), The Elements of Statistical Learning, Data Mining, Inference and Prediction (T. Hastie, R. Tibshirani, J. Friedman, Springer-Verlag). Manuali SAS: Machine Learning using SAS Viya (LWCPML84). Altri materiali didattici saranno via via inseriti nel sito WEB dei corsi on-line: slides del corso, links ad altri siti, test su parti del corso, esempi di applicazione, appunti da scaricare.
Modalità insegnamento
L'insegnamento verrà svolto preferibilmente in presenza.
Frequenza
E' fortemente raccomandata la frequenza, considerando le attività con il software SAS
Modalità di esame
Esame scritto, orale, presentazione di un progetto
Modalità di erogazione
L'insegnamento verrà svolto preferibilmente in presenza.
AGOSTINO DI CIACCIO Scheda docente

Programmi - Frequenza - Esami

Programma
Grazie ai progressi tecnologici, l'acquisizione di dati è diventata poco costosa e grandi set di dati sono facilmente ottenibili. E' possibile analizzare questi dati per estrarre le informazioni rilevanti e costruire modelli previsionali, strumenti fondamentali in ambiti quali la valutazione del credito, il marketing, la gestione delle relazioni con i clienti. Il corso esaminerà le modalità di preprocessing dei dati e la loro importanza. Tratteremo alcuni dei modelli non parametrici per la classificazione e la regressione: alberi decisionali, support vector machine. Verranno illustrate le modalità di apprendimento tramite ensemble (Bagging, Boosting, Stacking, Blended). Particolare attenzione sarà rivolta ai modelli di rete neurale. Il corso affronterà anche l'analisi dei dati testuali e delle immagini. Il software che utilizzeremo durante buona parte del corso è SAS Viya. Ci prepareremo anche per l'esame di certificazione (facoltativo) che si svolgerà a settembre dopo un ulteriore mini corso. Chi supererà l'esame entro luglio riceverà anche il badge digitale che certificherà le proprie competenze nell'utilizzo di SAS Viya per il Machine Learning. Nell'ultima parte del corso studieremo il Natural Language Processing ed utilizzeremo anche Python per applicare dei modelli di rete neurale complessi.
Prerequisiti
Per frequentare con successo il corso è necessario aver completato un corso di inferenza statistica.
Testi di riferimento
Vengono utilizzati nel corso appunti forniti dal docente e argomenti tratti dai seguenti testi: Data Mining: Concepts and Techniques (J. Han, M. Kamber), An Introduction to Statistical Learning with application in R (James, Witten, Hastie, Tibshirani), The Elements of Statistical Learning, Data Mining, Inference and Prediction (T. Hastie, R. Tibshirani, J. Friedman, Springer-Verlag). Manuali SAS: Machine Learning using SAS Viya (LWCPML84). Altri materiali didattici saranno via via inseriti nel sito WEB dei corsi on-line: slides del corso, links ad altri siti, test su parti del corso, esempi di applicazione, appunti da scaricare.
Modalità insegnamento
L'insegnamento verrà svolto preferibilmente in presenza.
Frequenza
E' fortemente raccomandata la frequenza, considerando le attività con il software SAS
Modalità di esame
Esame scritto, orale, presentazione di un progetto
Modalità di erogazione
L'insegnamento verrà svolto preferibilmente in presenza.
  • Codice insegnamento1022798
  • Anno accademico2025/2026
  • CorsoScienze statistiche - Statistical Sciences
  • CurriculumDemografico sociale
  • Anno1º anno
  • Semestre2º semestre
  • SSDSECS-S/01
  • CFU9