Navigazione di Sezione:
Information Retrieval 2011/2012
Information Retrieval
Dr. Giambattista Amati
I sistemi di Information Retrieval (IR) permettono l'accesso e il recupero dell'informazione per basi documentali. Il corso affronta gli aspetti teorici e realizzativi per la compressione l'indicizzazione, l'accesso e il recupero di informazione per collezioni molto grandi di documenti.
Le finalità del corso sono di:
- Studiare le tecniche di compressione, indicizzazione e recupero per le grandi collezioni testuali
- Conoscere i modelli per il recupero dell’informazione utilizzati nei principali motori di ricerca per il WWW e nei sistemi tradizionali di IR.
- Sviluppare applicazioni specifiche mediante piattaforme open source di Information Retrieval e Data Mining (http://ir.dcs.gla.ac.uk/terrier/).
Programma
Architettura dei sistemi di IR
- Indicizzazione, metodi di compressione degli indici.
- Teoria dell’informazione applicata all’Information Retrieval
- Indice diretto e inverso, tassi di compressione.
- Funzioni di recupero dei documenti.
Ad hoc Information Retrieval
- Cenni storici sull’IR.
-
Modelli di IR.
- Il modello Two-Poisson
- Vector Space Model
- Il Modello del Linguaggio Dirichlet
- I modelli DFR (Divergence From Randomness)
- Valutazione dei modelli di IR.
Il World Wide Web.
- Modelli per la rappresentazione di links e anchor text.
- Estensione dei Modelli di IR per la ricerca di pagine web.
- Il problema della duplicazione nel WWW.
- Crawler.
Il sistema di Information Retrieval Terrier
- Implementazione in Terrier di funzioni avanzate per il recupero dell'informazione.
Testi
- G. Amati, Note di Information Retrieval.
- C.J. van Rijsbergen, Information retrieval, London: Butterworths, 1979. Consultabile on-line ( http://www.dcs.gla.ac.uk/Keith/Preface.html )
- Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. Consultabile on-line ( http://nlp.stanford.edu/IR-book/information-retrieval-book.html )
- Soumen Chakrabarti, Mining the Web, Discovering Knowledge from Hypertext Data, Morgan-Kaufmann Publishers, 2002(http://www.cse.iitb.ac.in/~soumen/mining-the-web/)