Programma di Information Theory And Data Mining:

Elementi di teoria della probabilità: variabili e processi aleatori di tipo continuo e discreto, densità di probabilità, massa di probabilità, valore atteso.

Teoria dell'informazione: concetto di informazione, autoinformazione, entropia di Shannon, misure alternative di entropia, entropia relativa, divergenza di Kullback-Leibler, divergenza di Jensen-Shannon, entropia condizionale, entropia congiunta, informazione reciproca, correlazione totale, entropia differenziale, misure di informazione normalizzate.

Applicazioni al data science: concetto base di data science, definizione di dataset e attributi/feature, train set e test set, tipi di dati, analisi multivariata, descrizione statistica dei dataset, case study, metriche teoriche delle informazioni in attività di data science, preparazione dei dati, pulizia dei dati, discretizzazione degli attributi, riduzione della dimensionalità (Singular Value Decomposition), regole di associazione (unidimensionale e multidimensionale), algoritmi di classificazione (ID3, C4.5, Bayes, K-NN), alberi di classificazione, rilevamento di anomalie, clustering, addestramento e test di algoritmi, visualizzazione dei dati. Analisi e predizione di serie temporali. Metodi di valutazione degli algoritmi di data science.

Esperimenti informatici: introduzione a Python, applicazioni della teoria dell'informazione all’analisi dei dati, applicazioni di algoritmi di data science.