Navigazione di Sezione:
Statistical Data Analysis 2022/2023
Corso: Analisi statistica dei dati (6 CFU)
L’obiettivo del corso è consentire agli studenti di apprendere le nozioni fondamentali di statistica e di analisi dei dati nella fisica e di poterle mettere in pratica attraverso sessioni di laboratorio dove si troveranno di fronte problemi pratici che sono all’ordine del giorno nella fisica delle alte energie.
Il corso è composto da 4 moduli. Il primo modulo fornirà una panoramica dei concetti di base nei metodi statistici per la fisica sperimentale; il secondo introdurrà il linguaggio di programmazione C++ e il framework ROOT, mentre gli altri due moduli saranno dedicati a una parte più pratica con esercizi specifici concernenti alcuni dei problemi più rilevanti nell'analisi dei dati di fisica delle alte energie.
Modulo 1: Analisi statistica dei dati (Dr. Umberto De Sanctis)
Durata: 20h lezioni frontali
- Concetti di base in probabilità (approcci frequentisti e bayesiani, proprietà delle distribuzioni, funzioni caratteristiche)
- Funzioni di distribuzione di probabilità e loro proprietà (legge dei grandi numeri, teorema del limite centrale, convergenza, distribuzioni discrete e continue)
- Teoria dell'informazione (funzione di verosimiglianza, informazione di Fisher)
- Teoria degli stimatori (principio di massima verosimiglianza, metodo dei minimi quadrati, inferenza bayesiana)
- Stimatori puntuali (stima dei parametri con incertezze, stima del bias)
- Stimatori di intervalli (intervalli di confidenza e di credibilità, limiti superiori/inferiori, approssimazione asintotica)
- Test di ipotesi (test di Neyman-Pearson, test basato su rapporti di likelihoods)
- Goodness-of-fit(test del chi quadrato di Pearson, test per distribuzioni non binnate)
Bibliografia:
- F. James, "Statistical methods in experimental physics" 2a edizione, World Scientific, 2006
- G. Cowan, "Statistical data analysis" Oxford Science Publications, 1998
Modulo 2: nozioni di base su c++ e ROOT (Dr. Vincenzo Vitale)
Lunghezza. 18h (12h lezioni + esercizi 6h)
Questo modulo ha lo scopo di fornire:
- una conoscenza di base del linguaggio di programmazione C++ e del toolkit di analisi dei dati ROOT;
- la capacità di eseguire operazioni quali l'I/O dei dati e l'elaborazione computazionale, che sono alla base dell'analisi scientifica dei dati;
- la capacità di integrare le classi ROOT all'interno di codici di analisi personalizzati.
Gli argomenti trattati all'interno del modulo sono:
1) Le basi di C++. Funzioni, tipi, ambito, puntatore, matrici, test;
2) Tipi definiti dall'utente. Strutture, classi, altri tipi;
3) Modularità. Compilazione separata, spazi dei nomi, gestione degli errori;
4) Classi. Tipi concreti, tipi astratti, funzioni virtuali, gerarchie di classe, copia e spostamento;
5) Il toolkit del software ROOT. Le basi, le classi più usate;
6) Un esempio di codice ROOT per l'analisi dei dati. Istogrammi, riempimento casuale, fit, archiviazione su disco;
Bibliografia:
"Un tour di C++", Bjarne Stroustrup, Addison-Wesley
"C++ guida essenziale per il programmatore", Bjarne Stroustrup, Pearson Italia (è la versione tradotta del libro sopra)
Documentazione ROOT all'https://root.cern.ch/
Modulo 3 : modelli e trattamento sistematico delle incertezze (Dr. Marco Vanadia))
Lunghezza: 12h (4h lezioni + 8h esercizio)
Gli studenti eseguiranno un esercizio sulla misurazione di un parametro fisico tramite un modello di binned maximum likelihood fit, con particolare attenzione all'impatto delle incertezze sistematiche sulla misurazione e sulla modellizzazione delle loro correlazioni
Lezione: riepilogo delle basi del modello Binned Maximum Likelihood template fit su dati di Asimov, introduzione al software per l'analisi, trattamento delle incertezze sistematiche e casi d'uso tipici per l'analisi.
Esercizio: l'esercizio ha l'obiettivo di far apprendere agli studenti le seguenti tecniche:
- Implementazione della produzione di istogrammi, Maximum Likelihood fit con errori statistici su dati di Asimov, prima implementazione di incertezze sistematiche nel fit.
- Test dettagliato del modello di incertezze sistematiche per l'analisi e sulle ipotesi per la modellizzazione della correlazione delle incertezze.
- Fit ai dati, estrazione del parametro fisico, valutazione dei vincoli alle incertezze sistematiche nei dati.
Modulo 4: Classificazione segnale/fondo con tecniche di Machine Learning. Lunghezza: 12h (2h lezione + 10h esercizio) In questo modulo verrà studiato un classico esempio di classificazione eventi tra segnale e fondo, stima della frazione di segnale e valutazione dell'errore. Diversi metodi di classificazione basati su approcci di Machine Learning verranno illustrati e uno o più di questi verranno implementati per la risoluzione di un problema reale di fisica. Lezione: richiami alla classificazione degli eventi. Panoramica dei diversi metodi di classificazione e del framework TMVA (Toolkit for MultiVariate Analysis), esempi. Esercizio: gli studenti implementeranno una o più di queste tecniche (a seconda del tempo disponibile) e le applicheranno ad un set di dati rappresentativo di un reale caso di fisica.