Programma di Information Retrieval:

 

Information Retrieval   (INF/01)

9 cfu II semestre

Dr. Giambattista Amati

I sistemi di Information Retrieval (IR) permettono l'accesso e il recupero dell'informazione per basi documentali. Il corso affronta gli aspetti teorici e realizzativi per la compressione l'indicizzazione, l'accesso e il recupero di informazione per collezioni molto grandi di documenti.

Le finalità del corso sono di:

- Studiare le tecniche di compressione, indicizzazione e recupero per le grandi collezioni testuali

- Conoscere i modelli per il recupero dell’informazione utilizzati nei principali motori di ricerca per il WWW e nei sistemi tradizionali di IR.

- Sviluppare applicazioni specifiche mediante piattaforme open source di Information Retrieval e Data Mining (http://ir.dcs.gla.ac.uk/terrier/).

Programma

Architettura dei sistemi di IR

  • Indicizzazione, metodi di compressione degli indici.
  • Teoria dell’informazione applicata all’Information Retrieval
  • Indice diretto e inverso, tassi di compressione.
  • Funzioni di recupero dei documenti.

Ad hoc Information Retrieval

  • Cenni storici sull’IR.
  • Modelli di IR.
    • Il modello Two-Poisson
    • Vector Space Model
    • Il Modello del Linguaggio Dirichlet
    • I modelli DFR (Divergence From Randomness)
  • Valutazione dei modelli di IR.

Il World Wide Web.

  • Modelli per la rappresentazione di links e anchor text.
  • Estensione dei Modelli di IR per la ricerca di pagine web.
  • Il problema della duplicazione nel WWW.
  • Crawler.
  •  

Il sistema di Information Retrieval Terrier

  • Implementazione in Terrier di funzioni avanzate per il recupero dell'informazione.
  • Analisi delle opinioni (Sentimental Analysis) mediante Terrier e il software statistico R.

 

Testi

 - G. Amati, Note di Information Retrieval.

 - C.J. van Rijsbergen, Information retrieval, London: Butterworths, 1979. Consultabile on-line ( http://www.dcs.gla.ac.uk/Keith/Preface.html )

- Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. Consultabile on-line ( http://nlp.stanford.edu/IR-book/information-retrieval-book.html )

- Soumen Chakrabarti, Mining the Web, Discovering Knowledge from Hypertext Data, Morgan-Kaufmann Publishers, 2002 (http://www.cse.iitb.ac.in/~soumen/mining-the-web/)