Navigazione di Sezione:
Statistical Data Analysis 2020/2021
L’obiettivo del corso è consentire agli studenti di apprendere le nozioni fondamentali di statistica e di analisi dei dati nella fisica e di poterle mettere in pratica attraverso sessioni di laboratorio dove si troveranno di fronte problemi pratici che sono all’ordine del giorno nella fisica delle alte energie.
Il corso è composto da 4 moduli. Il primo modulo fornirà una panoramica dei concetti di base nei metodi statistici per la fisica sperimentale; il secondo introdurrà il linguaggio di programmazione C++ e il framework ROOT, mentre gli altri due moduli saranno dedicati a una parte più pratica con esercizi specifici concernenti alcuni dei problemi più rilevanti nell'analisi dei dati di fisica delle alte energie.
Modulo 1: Analisi statistica dei dati (Dr. Umberto De Sanctis)
Durata: 20h lezioni frontali
- Concetti di base in probabilità (approcci frequentisti e bayesiani, proprietà delle distribuzioni, funzioni caratteristiche)
- Funzioni di distribuzione di probabilità e loro proprietà (legge dei grandi numeri, teorema del limite centrale, convergenza, distribuzioni discrete e continue)
- Teoria dell'informazione (funzione di verosimiglianza, informazioni di Fisher)
- Teoria degli stimatori (principio di massima verosimiglianza, metodo dei quadrati più piccoli, inferenza bayesiana)
- Stimatori puntuali (stima dei parametri con incertezze, stima del bias)
- Stimatori di intervalli (intervalli di confidenza e di credibilità, limiti superiori/inferiori, approssimazione asintotica)
- Test di ipotesi (test di Neyman-Pearson, test basato su rapporti di likelihoods)
- Goodness-of-fit(test del chi quadrato di Pearson, test per distribuzioni non binnate)
Bibliografia:
- F. James, "Statistical methods in experimental physics" 2a edizione, World Scientific, 2006
- G. Cowan, "Statistical data analysis" Oxford Science Publications, 1998
Modulo 2: nozioni di base su c++ e ROOT (Dr. Vincenzo Vitale)
Lunghezza. 12h (8h lezioni + esercizi 4h)
Questo modulo ha lo scopo di fornire:
- una conoscenza di base del linguaggio di programmazione C++ e del toolkit di analisi dei dati ROOT;
- la capacità di eseguire operazioni quali l'I/O dei dati e l'elaborazione computazionale, che sono alla base dell'analisi scientifica dei dati;
- la capacità di integrare le classi ROOT all'interno di codici di analisi personalizzati.
Gli argomenti trattati all'interno del modulo sono:
1) Le basi di C++. Funzioni, tipi, ambito, puntatore, matrici, test;
2) Tipi definiti dall'utente. Strutture, classi, altri tipi;
3) Modularità. Compilazione separata, spazi dei nomi, gestione degli errori;
4) Classi. Tipi concreti, tipi astratti, funzioni virtuali, gerarchie di classe, copia e spostamento;
5) Il toolkit del software ROOT. Le basi, le classi più usate;
6) Un esempio di codice ROOT per l'analisi dei dati. Istogrammi, riempimento casuale, fit, archiviazione su disco;
Bibliografia:
"Un tour di C++", Bjarne Stroustrup, Addison-Wesley
"C++ guida essenziale per il programmatore", Bjarne Stroustrup, Pearson Italia (è la versione tradotta del libro sopra)
Documentazione ROOT all'https://root.cern.ch/
Modulo 3 : modelli e trattamento sistematico delle incertezze (Dr. Marco Vanadia))
Lunghezza: 8h (2h lezioni + 6h esercizio)
Gli studenti eseguiranno un esercizio sulla misurazione di un parametro fisico tramite un modello di binned maximum likelihood fit, con particolare attenzione all'impatto delle incertezze sistematiche sulla misurazione e sulla modellizzazione delle loro correlazioni
Lezione: riepilogo delle basi del modello Binned Maximum Likelihood template fit su dati di Asimov, introduzione al software per l'analisi, trattamento delle incertezze sistematiche e casi d'uso tipici per l'analisi.
Esercizio: l'esercizio ha l'obiettivo di far apprendere agli studenti le seguenti tecniche:
- Implementazione della produzione di istogrammi, Maximum Likelihood fit con errori statistici su dati di Asimov, prima implementazione di incertezze sistematiche nel fit.
- Test dettagliato del modello di incertezze sistematiche per l'analisi e sulle ipotesi per la modellizzazione della correlazione delle incertezze.
- Fit ai dati, estrazione del parametro fisico, valutazione dei vincoli alle incertezze sistematiche nei dati.
Modulo 4 : Tecniche di unfolding in fisica delle alte energie (Dr. Valerio Formato))
Lunghezza: 8h (2h lezione + 6h esercizio)
In questo modulo verranno studiati gli effetti introdotti dalla risoluzione strumentale sulla misurazione di distribuzioni. Gli studenti applicheranno diverse tecniche statistiche per recuperare la distribuzione vera e confronteranno i risultati ottenuti con queste tecniche e/o con diverse regolarizzazioni.
Lezione: introduzione all’unfolding e ai problemi che esso cerca di risolvere. Panoramica dei diversi metodi di unfolding: correzione bin-to-bin, unfolding con regolarizzazione di tipo SVD, unfolding bayesiano, unfolding bin-to-bin iterativo e forward folding.
Esercizio: gli studenti implementeranno una o più di queste tecniche (a seconda del tempo disponibile) e le applicheranno a diversi set di dati / funzioni di risoluzione.