Insegnamento

Sistemi per information retrieval

Docente
Prof. De Luca Ernesto William

Settore scientifico Disciplinare

ING-INF/05

CFU

6

Descrizione dell'insegnamento

Il corso si propone di introdurre le tecnologie dei sistemi di recupero automatico dell’informazione da sorgenti eterogenee e distribuite. Esso fornisce competenze nella comprensione dei processi e nelle tecniche di information processing che caratterizzano gli odierni motori di ricerca e le loro applicazioni. Nel quadro delle tecnologie informatiche, una particolare enfasi sarà data alle tecnologie dell’apprendimento automatico che consentono il rapido sviluppo di sistemi basati sul riutilizzo di dati e conoscenze disponibili in forma elettronica nelle fonti aperte. Questa linea di tendenza, denominata data e text mining, sarà discussa in relazione alle applicazioni odierne nell’ambito del Web.

Obiettivi formativi (espressi come risultati di apprendimento attesi)

Al termine di questo corso, lo studente sarà in grado di:

  • apprendere gli algoritmi e le tecnologie per il recupero automatico dell’informazione;
  • conoscere i modelli Booleani, statistici ed algebrico-vettoriali per l’IR;
  • comprendere le architetture e le componenti dei sistemi di IR;
  • analizzare l’applicazione dei sistemi di IR ai motori di ricerca su Web;
  • saper applicare l’IR al trattamento dei dati multimediali;
  • studiare elementi di Machine Learning (ML) e Data Mining per l’IR;
  • comprendere l’elaborazione dei testi, l’estrazione dell’informazione, la classificazione automatica, il Semantic IR;
  • apprendere e integrare conoscenze da varie fonti al fine di conseguire una visione più ampia dei sistemi di retrieval e mostrare anche un'autonomia nell'affrontare possibili soluzioni a nuovi problemi di recupero delle informazioni;
  • esprimere con opportuno linguaggio gli argomenti del corso;
  • valutare in autonomia i vantaggi e gli svantaggi di quanto introdotto nelle tecnologie dei sistemi di recupero automatico dell’informazione da sorgenti eterogenee e distribuite.

Prerequisiti

Non sono richiesti requisiti specifici

Contenuti dell'insegnamento

  • Modulo 1: Introduzione ai sistemi di Information Retrieval (IR).
    • Gli obiettivi del modulo sono:
      • comprendere l’apprendimento automatico per i processi di IR;
      • apprendere l’importanza delle parole chiave;
      • analizzare il vector space model.
    • Le lezioni sono 2:
      • Introduzione generale ai Sistemi per IR
      • Introduzione ai temi dell‘IR
  • Modulo 2: Lexical Resources
    • Gli obiettivi del modulo sono:
      • comprendere i processi legati alla phonetics, phonology and morphology;
      • apprendere l’importanza della linguistics language technologies;
      • analizzare Lexical Resources e la Lexical Ontologies.
    • Le lezioni sono 4:
      • Semantics and Related Fields
      • Linguistics Language Technologies
      • Language Engineering Data in Linguistics and Corpora
      • Language Engineering: Lexical Resources
  • Modulo 3: Data e knowledge engineering
    • Gli obiettivi del modulo sono:
      • comprendere il funzionamento dei databases;
      • apprendere l’importanza della rappresentazione XML;
      • analizzare i concetti che sono dietro la rappresentazione XQuery.
    • Le lezioni sono 5:
      • Data Engineering: Introduction to Databases
      • Introduction to Data Representation
      • Data Engineering: Managing XML and Semi-structured Data
      • Data Representation: Extending XML
      • Data Representation: XQuery
  • Modulo 4: Machine Learning e Data Mining per IR
    • Gli obiettivi del modulo sono:
      • comprendere il funzionamento delle architetture dei sistemi di IR;
      • apprendere l’importanza della Vector Space Model;
      • analizzare i concetti che sono dietro la rappresentazione della Human Computer Interaction.
    • Le lezioni sono 6:
      • Information Retrieval: Document Pre-Processing
      • Information Retrieval: Indexing
      • Information Retrieval: The Vector Space Model
      • Information Retrieval: Search@Twitter
      • Information Retrieval: Evaluation
      • Information Retrieval: Human Computer Interaction

Attività didattiche

Didattica erogativa
L'insegnamento prevede, per ciascun CFU, 5 ore di Didattica Erogativa, costituite da circa 2,5 videolezioni (tenendo conto delle necessità di riascolto da parte degli studenti). Ogni videolezione esplicita i propri obiettivi e argomenti, ed è corredata da materiale testuale in pdf.
L’insegnamento prevede videolezioni (in ognuna sono specificati gli argomenti e gli obiettivi) organizzate in moduli. Alcune videolezioni sono a carattere prevalentemente teorico e forniscono i concetti fondamentali che caratterizzano i sistemi di information retrieval. Altre videolezioni sono focalizzate su aspetti pratici e riguardano i metodi, gli strumenti, le tecnologie che consentono di realizzare sistemi di information retrieval. Le videolezioni teoriche consentiranno di fornire agli studenti le conoscenze relative alle architetture e alle componenti dei sistemi di IR e il fondamentale ruolo delle risorse linguistiche. Le videolezioni pratiche, contengono esempi reali di utilizzo di progettazione e realizzazione di sistemi di IR e l’analisi dell’applicazione degli stessi ai motori di ricerca su Web.
Durante le videolezioni si metteranno a confronto metodi, approcci, e strumenti dei sistemi di retrieval questo consentirà una certa autonomia dello studente nella selezione e o sviluppo della tecnologia più adatta. In tutte le videolezioni si farà uso di una terminologia adeguata agli argomenti trattati per consentire allo studente una certa padronanza di linguaggio.
 
Didattica interattiva
L'insegnamento segue quanto previsto dalle Linee Guida di Ateneo sulla Didattica Interattiva e l'interazione didattica, e propone, per ciascun CFU, 1 ora di Didattica Interattiva dedicata alle seguenti attività: lettura area FAQ, partecipazione ad e-tivity strutturata costituita da attività finalizzate alla restituzione di un feedback formativo e interazioni sincrone dedicate a tale restituzione.
Tra le interazioni sincrone, sono utilizzate le aule virtuali. Il docente di solito rende disponibile un testo di esercitazione agli studenti e durante l’aula virtuale valuta il livello di apprendimento degli argomenti del corso, raccoglie i dubbi e fornisce chiarimenti ed eventuali approfondimenti.
Tra le interazioni sincrone, sono utilizzate le aule virtuali in genere così strutturate:

  • il docente rende disponibile un testo di esercitazione agli studenti con domande ed esercizi;
  • lo studente svolge in autonomia i quesiti proposti;
  • durante l’aula virtuale, il docente dà un “feedback formativo” ovvero valuta il livello di apprendimento degli argomenti del corso, raccoglie i dubbi e fornisce chiarimenti ed eventuali approfondimenti in base alle risposte date dagli studenti e alle difficoltà riscontrate. Il docente favorirà la discussione e il confronto al fine di sviluppare competenze critiche.

Criteri di valutazione

Tutte le prove di verifica e autoverifica intermedie previste dai Corsi ed erogate in modalità distance learning sono da considerarsi altamente consigliate e utili ai fini della preparazione e dello studio individuali. Le prove di verifica e autoverifica intermedie non sono obbligatorie ai fini del sostenimento della prova d´esame, la quale deve essere svolta in presenza dello studente davanti ad apposita Commissione ai sensi dell´art. 11 c.7 lett.e) del DM 270/2004.

Modalità della prova finale

 

Modalità di verifica dell'apprendimento

Tutte le prove di verifica e autoverifica intermedie previste dai Corsi ed erogate in modalità distance learning sono da considerarsi altamente consigliate e utili ai fini della preparazione e dello studio individuali. Le prove di verifica e autoverifica intermedie non sono obbligatorie ai fini del sostenimento della prova d’esame, la quale deve essere svolta in presenza degli studenti davanti ad apposita Commissione ai sensi dell´art. 11 c.7 lett.e) del DM 270/2004.

L’esame finale è volto a verificare la comprensione degli argomenti trattati, la capacità di applicare correttamente le nozioni a casi studio e la comprensione delle problematiche proposte nel corso. L’esame si svolge in forma scritta.
La prova scritta consiste in domande con diversa natura: aperta, a risposta multipla ed esercizi. Le domande sono formulate con questa tipologia sia per argomenti più teorici sia per argomenti più pratici. Viene richiesto agli studenti di dimostrare la comprensione dei metodi, algoritmi, risorse e infrastrutture necessarie per la realizzazione di sistemi di IR. Gli studenti devono dimostrare di saper progettare e realizzare tali sistemi. Verrà infatti valutata la loro capacità di definire architetture funzionali, creare e usare risorse linguistiche, individuare le componenti tecnologiche e progettare infrastrutture.  La prova scritta ha una durata massima di 90 minuti che consentirà di valutare non solo le conoscenze dello studente relative ai sistemi di IR ma anche la loro capacità di astrarre quanto imparato e saperlo adeguare a casi reali e complessi che vedono i sistemi di IR a supporto di motori di ricerca, parti integranti di sistemi di Machine Learning, e a valore aggiunto nei sistemi di Data Mining.
L’esame è finalizzato anche a valutare l’autonomia di giudizio, l’abilità comunicativa e la capacità di apprendere degli studenti.
Al fine di valutare il conseguimento degli obiettivi formativi del corso, il docente terrà conto nella valutazione finale dell’esame:

  • della capacità di apprendere e quindi di esporre l’argomento richiesto;
  • della padronanza di linguaggio dello studente;
  • della capacità di definire o usare architetture, funzionalità o strumenti per la progettazione di sistemi intelligenti e di valutare in modo appropriato le scelte tecnologiche in base a situazioni reali.
Per superare l’esame, lo studente deve dimostrare di aver acquisito conoscenze sufficiente, dei metodi, approcci e tecnologie dei sistemi di recupero automatico dell’informazione da sorgenti eterogenee e distribuite, una conoscenza di base tecniche di information processing che caratterizzano gli odierni motori di ricerca e le loro applicazioni, infine, di essere in grado di progettare sistemi di Information Retrieval. Per conseguire un punteggio pari a 30/30 e lode, lo studente deve invece dimostrare di aver acquisito una conoscenza eccellente di tutti gli argomenti trattati durante il corso.

Libri di testo

Oltre alle lezioni realizzate dal Docente ed ai materiali didattici pubblicati in piattaforma, è obbligatorio lo studio del seguente testo:

  • "Modern Information Retrieval", Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Addison Wesley, 1999. ISBN: 020139829X
  • "Introduction to Information Retrieval", Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Cambridge University Press.
  • “Automatic Text Categorization: from Information Retrieval to Support Vector Learning”, Roberto Basili, Alessandro Moschitti, ARACNE Editore, 2005.

Testi di Approfondimento:

  • "Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (Data-Centric Systems and Applications)", Liu, Bing, Springer-Verlag, Series: Data-Centric Systems and Applications, Berlin, ISBN: 978-3-540-37881-5, 2007.
  • http://biblioteca.unimarconi.it/pmb/opac_css/

Ricevimento studenti

Previo appuntamento (ew.deluca@unimarconi.it)