Programma di Statistical Data Analysis:

L’obiettivo del corso è consentire agli studenti di apprendere le nozioni fondamentali di statistica e di analisi dei dati nella fisica e di poterle mettere in pratica attraverso sessioni di laboratorio dove si troveranno di fronte problemi pratici che sono all’ordine del giorno nella fisica delle alte energie.

Il corso è composto da 4 moduli. Il primo modulo fornirà una panoramica dei concetti di base nei metodi statistici per la fisica sperimentale; il secondo introdurrà il linguaggio di programmazione C++ e il framework ROOT, mentre gli altri due moduli saranno dedicati a una parte più pratica con esercizi specifici concernenti alcuni dei problemi più rilevanti nell'analisi dei dati di fisica delle alte energie.

 

Modulo 1: Analisi statistica dei dati (Dr. Umberto De Sanctis)

Durata: 20h lezioni frontali

 

  • Concetti di base in probabilità (approcci frequentisti e bayesiani, proprietà delle distribuzioni, funzioni caratteristiche)
  • Funzioni di distribuzione di probabilità e loro proprietà (legge dei grandi numeri, teorema del limite centrale, convergenza, distribuzioni discrete e continue)
  • Teoria dell'informazione (funzione di verosimiglianza, informazioni di Fisher)
  • Teoria degli stimatori (principio di massima verosimiglianza, metodo dei quadrati più piccoli, inferenza bayesiana)
  • Stimatori puntuali (stima dei parametri con incertezze, stima del bias)
  • Stimatori di intervalli (intervalli di confidenza e di credibilità, limiti superiori/inferiori, approssimazione asintotica)
  • Test di ipotesi (test di Neyman-Pearson, test basato su rapporti di likelihoods)
  • Goodness-of-fit(test del chi quadrato di Pearson, test per distribuzioni non binnate)

 

Bibliografia:

  • F. James, "Statistical methods in experimental physics" 2a edizione, World Scientific, 2006
  • G. Cowan, "Statistical data analysis" Oxford Science Publications, 1998

 

Modulo 2: nozioni di base su c++ e ROOT  (Dr. Vincenzo Vitale)

Lunghezza. 12h (8h lezioni + esercizi 4h)

 

Questo modulo ha lo scopo di fornire:

- una conoscenza di base del linguaggio di programmazione C++ e del toolkit di analisi dei dati ROOT;

- la capacità di eseguire operazioni quali l'I/O dei dati e l'elaborazione computazionale, che sono alla base dell'analisi scientifica dei dati;

- la capacità di integrare le classi ROOT all'interno di codici di analisi personalizzati.

 

Gli argomenti trattati all'interno del modulo sono:

 

1) Le basi di C++. Funzioni, tipi, ambito, puntatore, matrici, test;

2) Tipi definiti dall'utente. Strutture, classi, altri tipi;

3) Modularità. Compilazione separata, spazi dei nomi, gestione degli errori;

4) Classi. Tipi concreti, tipi astratti, funzioni virtuali, gerarchie di classe, copia e spostamento;

5) Il toolkit del software ROOT. Le basi, le classi più usate;

6) Un esempio di codice ROOT per l'analisi dei dati. Istogrammi, riempimento casuale, fit, archiviazione su disco;

 

 

Bibliografia:

"Un tour di C++", Bjarne Stroustrup, Addison-Wesley

"C++ guida essenziale per il programmatore", Bjarne Stroustrup, Pearson Italia (è la versione tradotta del libro sopra)

Documentazione ROOT all'https://root.cern.ch/

 

 

Modulo 3 : modelli e trattamento sistematico delle incertezze (Dr. Marco  Vanadia))

Lunghezza: 8h (2h lezioni + 6h esercizio)

 

Gli studenti eseguiranno un esercizio sulla misurazione di un parametro fisico tramite un modello di binned maximum likelihood fit, con particolare attenzione all'impatto delle incertezze sistematiche sulla misurazione e sulla modellizzazione delle loro correlazioni

 

Lezione: riepilogo delle basi del modello Binned Maximum Likelihood template fit su dati di Asimov, introduzione al software per l'analisi, trattamento delle incertezze sistematiche e casi d'uso tipici per l'analisi.

 

Esercizio: l'esercizio ha l'obiettivo di far apprendere agli studenti le seguenti tecniche:

 

  1. Implementazione della produzione di istogrammi, Maximum Likelihood fit con errori statistici su dati di Asimov, prima implementazione di incertezze sistematiche nel fit.
  2. Test dettagliato del modello di incertezze sistematiche per l'analisi e sulle ipotesi per la modellizzazione della correlazione delle incertezze.
  3. Fit ai dati, estrazione del parametro fisico, valutazione dei vincoli alle incertezze sistematiche nei dati.

 

Modulo 4 : Tecniche di unfolding in fisica delle alte energie (Dr. Valerio  Formato))

Lunghezza: 8h (2h lezione + 6h esercizio)

 

In questo modulo verranno studiati gli effetti introdotti dalla risoluzione strumentale sulla misurazione di distribuzioni. Gli studenti applicheranno diverse tecniche statistiche per recuperare la distribuzione vera e confronteranno i risultati ottenuti con queste tecniche e/o con diverse regolarizzazioni.

 

Lezione: introduzione all’unfolding e ai problemi che esso cerca di risolvere. Panoramica dei diversi metodi di unfolding: correzione bin-to-bin, unfolding con regolarizzazione di tipo SVD, unfolding bayesiano, unfolding bin-to-bin iterativo e forward folding.

 

Esercizio: gli studenti implementeranno una o più di queste tecniche (a seconda del tempo disponibile) e le applicheranno a diversi set di dati / funzioni di risoluzione.