Contenuto
Ti trovi in: HOME »Programmi, progetti e risultati »I progetti »PRIN - Programmi di ricerca di Rilevante Interesse Nazionale»Programma di ricercaINIZIO_TESTO_DA_INDICIZZARE
PROGRAMMA DI RICERCA
italiano - english
Unità di Ricerca
- Università degli Studi di MODENA e REGGIO EMILIA
INGEGNERIA DELL'INFORMAZIONE
MODENA(MO) - Università degli Studi di BOLOGNA
ELETTRONICA, INFORMATICA E SISTEMISTICA
BOLOGNA(BO) - Università degli Studi di TRENTO
INFORMATICA E TELECOMUNICAZIONI
TRENTO(TN) - Università degli Studi ROMA TRE
INFORMATICA E AUTOMAZIONE
ROMA(RM)
Programmi di ricerca simili:
- 1 - Nuove tecniche e strumenti per l'interrogazione di servizi di ricerca su Web
- 2 - ESTEEM: Emergent Semantics and cooperaTion in multi-knowledgE EnvironMents - Metodi e strumenti avanzati per la collaborazione semantica in comunita' virtuali su web
- 3 - Basi di dati crittografate
- 4 - Metodi basati sulla similarita' per la visione artificiale e il riconoscimento delle forme: Teoria, algoritmi, applicazioni
- 5 - Web Ram: web retrieval and mining
- 6 - Ontologie, learning object e comunità di pratiche: nuovi paradigmi educativi per l'e-learning
- 7 - Tecniche di Indicizzazione e Reperimento di Forme Tridimensionali (3-SHIRT)
- 8 - D-ASAP: Architetture Software Adattabili e Affidabili per Sistemi Pervasivi
- 9 - Sintesi automatica di modelli astratti a partire da dati temporali o spaziali
- 10 - Metodi e strumenti per la migrazione di sistemi software verso architetture web e orientate ai servizi: valutazione sperimentale, usabilita' e trasferimento tecnologico
Classificazione scientifico-disciplinare
- Area scientifico disciplinare: Ingegneria industriale e dell'informazione
Classificazione brevettuale
- PHYSICS
- COMPUTING; CALCULATING; COUNTING (score computers for games A63; combinations of writing applicances with computing devices B43K29/08)
- ELECTRICAL DIGITAL DATA PROCESSING (computers in which a part of the computation is effected hydraulically or pneumatically G06D; optically G06E; self-contained input or output peripheral equipment G06K; impedance networks using digital techniques H03H) [C9603]
- COMPUTING; CALCULATING; COUNTING (score computers for games A63; combinations of writing applicances with computing devices B43K29/08)
Classificazione geografica
- Regione: Emilia Romagna
Bibliografia
(Adelberg, 1998) B. Adelberg. "NoDoSE a tool for semi-automatically extracting structured and semistructured data from text documents". SIGMOD’98.(Atzeni, 1997) Mecca, G. and P. Atzeni "Cut and Paste", Journal of Computing and System Sciences, Special issue on PODS'97.
(Atzeni, 2002) P. Atzeni, G. Mecca, P. Merialdo: Managing Web-Based Data: Database Models and Transformations. IEEE Internet Computing 6(4): 33-37 (2002).
(Benassi, 2004) R. Benassi, S. Bergamaschi, M. Vincini: Web Semantic Search with TUCUXI, SEBD’04.
(Beneventano, 2003) D Beneventano, S. Bergamaschi, F. Guerra, M. Vincini: Synthesizing an Integrated Ontology, IEEE Internet Computing Magazine, 2003.
(Bergamaschi, 2001) S. Bergamaschi, S. Castano, D. Beneventano, M.Vincini: Semantic Integration of Heterogeneous Information Sources, DKE, Vol. 36(1), 2001.
(Berners-Lee, 2001) T. Berners-Lee, J. Hendler, O. Lassila: The Semantic Web.
Scientific American 2001.
(Bertino, 2004) E. Bertino, G. Guerrini, M. Mesiti: A matching algorithm for measuring the structural similarity between an XML document and a DTD and its applications. Inf. Syst. 29(1), 2004.
(Bouquet, 2003a) Bouquet, L. Serafini & S. Zanobini: Semantic Coordination: a new approach and an application, 2nd International Semantic Web Conference (ISWC'2003), October 2003, Sanibel Island, Florida, (USA).
(Bruno, 2002) N. Bruno, S. Chaudhuri, L. Gravano: Top-k selection queries over relational databases: Mapping strategies and performance evaluation. ACM TODS 27(2): 153-187 (2002).
(Bruno, 2004) N. Bruno, L. Gravano, A. Marian: Evaluating Top-k Queries over Web-Accessible Databases. To appear in ACM TODS (2004).
(Carroll 2002) J. Carroll, Hewlett-Packard: Matching rdf graphs, ISWC’02.
(Chang, 2001) Chang, Lui "IEPAD: information extraction based on pattern discovery". WWW 2001: 681-688
(Ciaccia, 2000) P. Ciaccia, D. Montesi, W. Penzo, A. Trombetta: Imprecision and User Preferences in Multimedia Queries: A Generic Algebraic Approach. FoIKS 2000: 50-71.
(Crescenzi, 1998) Crescenzi, V. and Mecca, G. "Grammars have exceptions". Information Systems 23(8): 539-565 (1998).
(Crescenzi, 2001) Crescenzi, V., Mecca, G. and Merialdo, P. "RoadRunner: Towards Automatic Data Extraction from Large Web Sites" VLDB 2001: 109-118
(Do et al., 2002) H. Do, E. Rahm: COMA - A system for flexible combination of schema matching approaches. In VLDB 2002: 610-621.
(Doan, 2000) A. Doan, P. Domingos, A. Halevy. Learning Source Description for Data Integration, WebDB’00.
(Doan, 2002) A. Doan, J. Madhavan, P. Domingos, A. Halevy: "Learning to map between ontologies on the semantic web", WWW’02.
(Fagin, 2001) R. Fagin, A. Lotem, M. Naor: Optimal Aggregation Algorithms for Middleware. PODS 2001: 102-113.
(Fagin, 2003) R. Fagin, P. Kolaitis, R. Miller, L. Popa: Data exchange: Semantics and query answering, ICDT’03
(Flesca et al. 2002) Flesca, S., Manco, G., Masciari, E., Pontieri, L., Pugliese, A. "Detecting structural similarities between xml documents". In WebDB’02, pages 55-60.
(Galindo-Legaria, 1994) C. Galindo-Legaria. Outerjoins as disjunctions. In SIGMOD 1994: 348-358.
(Galley, 2003) M. Galley, K. McKeown: Improving Word Sense Disambiguation in Lexical Chaining. IJCAI’03.
(Ganesan, 2003) P. Ganesan, H. Garcia-Molina, J. Widom: Exploiting hierarchical domain structure to compute similarity. ACM TOIS 21(1): 64-93 (2003).
(Giunchiglia 2003) F. Giunchiglia, P. Shvaiko: Semantic Matching. ISWC’03.
(Gravano, 1999) L. Gravano, H. Garcia-Molina, A. Tomasic: GlOSS: Text-Source Discovery over the Internet. ACM TODS 24(2): 229-264 (1999).
(Gravano, 2003) L. Gravano, P.G. Ipeirotis, M. Sahami: QProber: A system for automatic classification of hidden-Web databases. ACM TOIS 21(1): 1-41 (2003).
(Gyssens, 1997) M. Gyssens, L.V .S. Lakshmanan: A Foundation for Multi-Dimensional Databases. VLDB 1997: 106-115.
(Halliday, 1976) M.A.K. Halliday, R. Hasan: Cohesion in English, Longman 1976.
(Honiden, 2003) S. Honiden, R. Ichisem e H. Takeda: Integrating multiple internet directories by instance—base learning, AI and Data Integration, 2003.
(Imielinski, 1996) T. Imielinski, H. Mannila: A Database Perspective on Knowledge Discovery, CACM 39(11):58-64 (1996).
(Ipeirotis, 2002) P.G. Ipeirotis, L. Gravano: Distributed Search over the Hidden Web: Hierarchical Database Sampling and Selection. VLDB 2002: 394-405.
(Klein, 2001) M. Klein, D. Fensel: Ontology Versioning on the Semantic Web, 1th Int’l Semantic Web Working Symp, 2001.
(Kushmerick, 1997) Kushmerick, N., Weld, D. S., and Doorenbos, R. (1997). "Wrapper induction for information extraction". IJCAI'97
(Lin, 1998) J. Lin, A. O. Mendelzon: Merging Databases Under Constraints. Int. J. Cooperative Inf. Syst. 7(1): 55-76 (1998)
(Liu, 2002) Z. Liu, F. Li, W.K. Ng: Wiccap Data Model: Mapping Physical Websites to Logical Views, ER’02.
(Madhavan, 2001) J. Madhavan, P.A. Bernstein, E. Rahm: Generic Schema Matching with Cupid. In VLDB 2001: 49-58.
(Melnik, 2002) H. Garcia-Molina, S. Melnik, E. Rahm: Similarity Flooding: A Versatile Graph Matching Algorithm and its Application to Schema Matching. In ICDE 2002: 117-128.
(Milo, 1998) T. Milo, S. Zohar: Using schema matching to simplify heterogeneous data translation, VLDB’98.
(Motik, 2002) B. Motik at al: User-driven Ontology Evolution Management, EKAW’02.
(Naumann 2002) F. Naumann, M. Haussler: Declarative Data Merging with Conflict Resolution. International Conference on Information Quality (IQ 2002): 212-224.
(Muslea, 1999) Muslea, I., Minton, S., and Knoblock, C. A. (1999). "A hierarchical approach to wrapper induction". Conference on Autonomous Agents, pages 190--197.
(Palopoli, 2003) L. Palopoli, G. Terracina, D. Ursino Experiences using DIKE, a system for supporting cooperative information system and data warehouse design, IEEE Transaction on Knowledge and Data Engineering 15(2), 2003.
(Pelillo 1998) M. Pelillo, K. Siddiqi, e S. W. Zucker. 'Matching hierarchical structures using association graphs', in LCNS 98.
(Rahm 2001) E. Rahm, P.A. Bernstein. 'A survey of approaches to automatic schema matching', in VLDB Journal, 10(4), 2001.
(Rizzi, 2003) S. Rizzi, E. Bertino, B. Catania, M. Golfarelli, M. Halkidi, M. Terrovitis, P. Vassiliadis, M. Vazirgiannis, E. Vrachnos: Towards a logical model for patterns. ER 2003: 77-90.
(Sahuguet, 1999) Sahuguet, A. and Azavant, F. "Web ecology: Recycling HTML pages as XML documents using W4F". WebDB'99
(Soderland, 1997) Soderland, S. "Learning to extract text-based information from the World Wide Web". In KDD'97, pages 251--254.
(Ullman, 1996) J. D. Ullman, A. Rajaraman: Integrating Information by Outerjoins and Full Disjunctions. PODS 1996: 238-248.
(Valtchev, 2003) P. Valtchev e J. Euzenat. 'An integrative proximity measure for ontology alignment', in Proceedings of the workshop on Semantic Integration’03.
(Wang, 2003) Wang, Lochowsky "Data extraction and label assignment for web databases." In WWW 2003: 187-196.
(Zhang, 1995) K. Zhang, J. T. L. Wang, e D. Shasha: On the editing distance between undirected acyclic graphs and related problems, 6th Annual Symp. On Combinatorial Pattern Matching, 1995.
(Wang, 1994) J. Wang, K. Zhang, K. Jeong, e D. Shasha. 'A system for approximate tree matching', in Knowledge and Data Engineering, 6(4), 1994.
Parole Chiave
ONTOLOGIA DI DOMINIO; SISTEMI INFORMATIVI SU WEB; SELEZIONE DI SORGENTI WEB; INTERROGAZIONE SU ARCHITETTURE DISTRIBUITE; MAPPING TRA ONTOLOGIEWISDOM: Ricerca Intelligente su Web basata su Ontologie di Dominio
Università degli Studi di Modena e Reggio EmiliaAbstract
L'enorme quantità di dati e la crescente disponibilità di servizi sul Web rendono sempre più importante lo sviluppo di infrastrutture e sistemi software che, fornendo strumenti per l'integrazione delle risorse informative, per la loro localizzazione e per la fruizione personalizzata delle stesse, permettano ai clienti collegati alla rete di "ricaricarsi" di dati di interesse per i propri bisogni informativi, evitando il problema di "information overloading" che si riscontra usando i comuni motori di ricerca.WISDOM si pone nell'ambito di ricerca del Semantic Web e ha come obiettivo principale lo sviluppo di tecniche e strumenti intelligenti, basati su ontologie di dominio, per la ricerca di informazione su Web. In particolare, si vuole reperire informazione in modo integrato ed efficiente sia da siti di tipo data-intensive che da siti e pagine Web con contenuto scarsamente strutturato. Il progetto si articolerà in tre temi tra loro sinergici e complementari e definira' un'architettura metodologica e funzionale di riferimento al fine di garantire coerenza tra le soluzioni che verranno messe a punto nei tre temi.
L'obiettivo del primo tema (Creazione ed Estensione di una Ontologia di Dominio) è lo studio di soluzioni per la rappresentazione semantica dei contenuti delle sorgenti informative in ambito Web, con particolare riferimento ai siti data-intensive e ai siti/pagine Web con contenuto scarsamente strutturato. La rappresentazione ed integrazione di tali sorgenti informative portera' alla creazione dinamica di ontologie di dominio per effetto della scoperta/integrazione di nuove sorgenti informative. L'obiettivo del secondo tema (Semantica Emergente: Scoperta di Mapping Semantici tra Ontologie di Dominio) è lo sviluppo di tecniche e strumenti di supporto alla identificazione, scoperta, validazione e memorizzazione di relazioni semantiche fra ontologie di dominio in ambito Web . Il tipo di relazioni semantiche che sarà investigato dovra` contenere gli elementi necessari per risolvere una interrogazione rispetto a piu` ontologie e permettere di sviluppare tecniche di mapping basate sulla semantica del linguaggio, le catene lessicali e la deduzione logica. L'obiettivo del terzo tema (Elaborazione di Interrogazioni) è lo sviluppo di tecniche di ricerca di informazione su web in grado di utilizzare l'infrastruttura semantica sviluppata dai temi 1 e 2. Considerando l'eterogeneita' dei dati/siti trattati e i vincoli imposti dall'ambiente distribuito, verranno studiati e sviluppati meccanismi efficaci ed efficienti di elaborazione delle interrogazioni che usano la caratterizzazione delle sorgenti per selezionare le sorgenti utili, risolvono problemi di riscrittura e integrazione dei risultati sulle diverse sorgenti. Le problematiche affrontate nel progetto sono di estrema attualità e rivestono grande importanza applicativa e industriale, in particolare per lo sviluppo di nuove applicazioni fortemente personalizzate che possano sfruttare a pieno le potenzialità offerte dal Web.
Al progetto partecipano 4 unita' universitarie, con 18 fra professori e ricercatori (per un totale di 137 mesi uomo), 7 dottorandi (72 mesi uomo) e personale a contratto per 86 mesi uomo. Il costo del progetto e' di 393.500 Euro, di cui 130.500 per personale a contratto. Le unita' vantano una lunga esperienza di collaborazione a progetti, sia nazionali che internazionali. Il coordinamento del progetto verra' assicurato attraverso l'individuazione di un coordinatore per ciascun tema, che interagira' con il responsabile nazionale, al fine di monitorare lo stato di avanzamento relativo. E' prevista una riunione collegiale dopo ognuna delle 3 fasi in cui si articola il progetto. I risultati previsti sono di natura scientifico-metodologica, descritti in rapporti tecnici e in pubblicazioni, e realizzativa (sviluppo di strumenti a livello prototipale). I metodi e gli strumenti proposti saranno validati attraverso attivita' sperimentale. <<<
Coordinatore Scientifico del Programma di Ricerca
Sonia BERGAMASCHI Università degli Studi di MODENA e REGGIO EMILIAObiettivo del Programma di Ricerca
L'enorme quantità di dati e la crescente disponibilità di servizi sul Web rendono sempre più importante lo sviluppo di infrastrutture e sistemi software che, fornendo strumenti per l'integrazione delle risorse informative, per la loro localizzazione e per la fruizione personalizzata delle stesse, permetta ai clienti (sia umani che artificiali) collegati alla rete di "ricaricarsi" delle informazioni di interesse, evitando i problemi di "information overloading" che si riscontrano usando i comuni motori di ricerca.Il progetto WISDOM ha come obiettivo principale lo sviluppo di tecniche, e strumenti, basati su ontologie di dominio, per la ricerca efficace ed efficiente di informazione su Web e si colloca quindi nell'ambito di ricerca del Semantic Web. Si articolerà in tre temi tra loro sinergici e complementari e definira' un'architettura metodologica e funzionale di riferimento al fine di garantire coerenza tra le soluzioni che verranno messe a punto nei tre temi.
TEMA 1: Creazione ed Estensione di una Ontologia di Dominio
TEMA 2: Semantica Emergente: Scoperta di Mapping Semantici tra Ontologie di Dominio
TEMA 3: Elaborazione di Interrogazioni
L'obiettivo del primo tema è lo studio e lo sviluppo di soluzioni per la rappresentazione semantica dei contenuti delle sorgenti informative in ambito Web, con particolare riferimento ai siti data-intensive e ai siti/pagine Web con contenuto scarsamente strutturato. La rappresentazione ed integrazione di tali sorgenti informative portera' alla creazione di ontologie di dominio e alla loro eventuale modifica per effetto della scoperta/integrazione di nuove sorgenti informative. L'obiettivo del secondo tema è lo sviluppo di soluzioni per realizzare il mapping semantico fra ontologie di dominio in ambito Web, con particolare riferimento allo sviluppo di tecniche e strumenti di supporto alla identificazione, scoperta, validazione e memorizzazione di relazioni semantiche. L'obiettivo del terzo tema è lo sviluppo di tecniche di ricerca di informazione su web in grado di utilizzare l'infrastruttura semantica sviluppata dai temi 1 e 2. Considerando l'eterogeneita' dei dati/siti trattati e i vincoli imposti dall'ambiente distribuito, verranno studiati e sviluppati di meccanismi efficaci ed efficienti di elaborazione delle interrogazioni che usano la caratterizzazione delle sorgenti per selezionare le sorgenti utili, che risolvono i problemi di riscrittura e di integrazione dei risultati sulle sorgenti.
In figura e` rappresentato uno scenario di riferimento per il progetto: due diverse ontologie riferite ad uno stesso dominio, che rappresentano anche conoscenza estensionale, messe in relazione con semplici mapping semantici. Le due interrogazioni, Query1 e Query2, sono poste ciacuna con riferimento ad una ontologia: le tecniche sviluppate nel progetto permetteranno di rispondere a ciascuna query interrogando, se rilevanti, tutti i siti che sono riferiti alle ontologie presenti nella rete.
Relativamene al TEMA 1, un primo obiettivo è la definizione di un linguaggio di ontologia per la descrizione strutturale e semantica dei contenuti delle sorgenti, in termini di metadati, compatibile con standard W3C (XML, RDF, RDFS, XML Schema, OWL). In particolare, per far fronte a query specifiche, tale linguaggio deve consentire una caratterizzazione sintetica del contenuto (istanze) delle sorgenti informative.
Una ontologia di dominio è rappresentata come una vista globale virtuale (GVV - Global Virtual View) di un insieme di sorgenti informative relative allo stesso dominio. Per i siti data-intensive, il primo problema da affrontare è l'estrazione dello schema tramite opportuni wrapper generati automaticamente. Un secondo problema è quello di dare una semantica ai dati estratti da wrapper generati automaticamente. Per tale problema si valuteranno estensioni alle tecniche per la annotazione dei dati estratti da wrapper con approcci basati sulla semantica dell'ontologia di dominio. Problemi di natura diversa riguardano i siti e le pagine Web con contenuto scarsamente strutturato. In questo caso l'approccio è sfruttare la tecnologia dei Web search engine (es. Google), opportunamente estesa/complementata con strumenti di natura semantica. Si proporranno tecniche mirate alla costruzione di schemi di classificazione - tipicamente gerarchici - dei documenti disponibili. Un ultimo obiettivo è lo sviluppo di tecniche per estendere una ontologia di dominio tramite l'aggiunta di una nuova sorgente informativa.
Relativamente al TEMA 2, un primo obiettivo è la definizione di un linguaggio per la rappresentazione di mapping complessi tra ontologie di dominio. Tale linguaggio dovrà permettere di rappresentare tutti quegli elementi del mapping che sono necessari per potere risolvere una query rispetto a differenti ontologie, cioè la riscrittura della query, e l'individuazione di sorgenti utili. Un altro obiettivo è l'analisi e lo sviluppo di tecniche di mapping semantico tra ontologie, compresa una valutazione del contributo che ognuna di queste tecniche può portare alla computazione delle differenti tipologie di mapping definite nel linguaggio. Tecniche innovative per scoprire mappings tra ontologie di dominio saranno definite. In particolare, verranno considerate tecniche basate sulla semantica del linguaggio e catene lessicali e le tecniche basate sulla deduzione logica. Inoltre, verranno considerate anche tecniche per inferire mapping in base alla similarità tra i dati contenuti nelle sorgenti in quanto la caratterizzazione sintetica del contenuto (istanze) è un aspetto rilevante del progetto.
L'ultimo obiettivo è la definizione di un'architettura generale per la scoperta e la gestione di mapping semantici tra ontologie, che includa i principali moduli concettuali necessari per la computazione di mapping semantici, come per esempio risorse lessicali (ad esempio, WordNet) e moduli di ragionamento automatico.
Relativamente al TEMA 3, un primo obiettivo è quello di sfruttare la caratterizzazione delle sorgenti per indirizzare l'esecuzione verso le sole sorgenti ritenute più rilevanti. A tale scopo un ruolo fondamentale viene giocato dai mapping semantici tra le ontologie di dominio e dalla definizione di una "distanza semantica" tra i concetti coinvolti nei mapping. Relativamente agli aspetti di esecuzione si intendono definire tecniche per la riscrittura automatica di interrogazioni che, sfruttando le informazioni sulla semantica dei singoli concetti descritti nelle ontologie di riferimento e il contesto in cui sono inseriti, riscrivano l'interrogazione verso le altre ontologie in una forma che sia il più possibile simile a quella originaria. La determinazione del risultato di un'interrogazione richiede di ricostruire ogni oggetto coinvolto a partire dalle informazioni relative che lo caratterizzano e che si trovano distribuite su più sorgenti ("object fusion"). In questo caso l'obiettivo è estendere i metodi noti di "full disjunction" al caso di match approssimati e di eterogeneità semantica (presenza di valori diversi per stessi attributi gestiti da più sorgenti). Ulteriore obiettivo è lo sviluppo di tecniche, corrette ed efficienti, anche al variare del criterio di combinazione (ad es., somma pesata) dei vari fattori che influenzano la rilevanza degli oggetti, per la determinazione dei "migliori" N oggetti per una data interrogazione.
Ultimo obiettivo è lo sviluppo di meccanismi che permettano una navigazione interattiva del risultato, rispettando i livelli di astrazione offerti dalle ontologie. A tal fine si studieranno opportuni operatori che consentano di fruire del risultato a diversi livelli, favorendo l'individuazione di pattern significativi nei dati da parte dell'utente. <<<
Risultati parziali attesi
I prodotti attesi in questa fase del progetto sono sia di tipo rapporto tecnico (sigla R) che di tipo prototipo software (sigla P). Il numero dopo il "D" rappresenta il numero del tema (0 significa che il rapporto è comune a tutti i temi). La lista tra parentesi denota le unità coinvolte nella realizzazione del prodotto (BO - Bologna, MO - Modena, RM - Roma, TN - Trento).D0.R1: Rapporto sull'architettura metodologica e funzionale di riferimento (BO, MO, RM, TN)
D1.R1: Analisi Critica dei linguaggi e standard emergenti per le ontologie (BO,MO,RM,TN)
D2.R1: Analisi Critica di linguaggi e tecniche di mapping (MO, TN)
D3.R1: Analisi critica di linguaggi di interrogazione e tecniche di riscrittura basati su ontologie (BO, MO, TN)
D3.R2: Analisi critica delle tecniche di esecuzione di interrogazioni in ambiente eterogeneo (BO)I prodotti attesi in questa fase del progetto sono sia di tipo rapporto tecnico (sigla R) che di tipo prototipo software (sigla P). Il numero dopo il "D" rappresenta il numero del tema (0 significa che il rapporto è comune a tutti i temi). La lista tra parentesi denota le unità coinvolte nella realizzazione del prodotto (BO - Bologna, MO - Modena, RM - Roma, TN - Trento).
D0.R2: Specifiche delle interfacce dei componenti del prototipo integrato (BO, MO, RM, TN)
D1.R2: Definizione del linguaggio per la specifica di una ontologia di dominio (BO, MO, TN)
D1.R3: Definizione di tecniche per la creazione di "content summaries" (BO)
D1.R4: Analisi critica delle tecniche esistenti per l'estrazione delle catene lessicali (MO)
D1.R5: Definizione di tecniche per inferire automaticamente lo schema di un sito data-intensive (RM)
D1.P1: Prototipo per l'aggiunta di una nuova sorgente informativa alla Ontologia di Dominio (MO)
D2.R2: Definizione del linguaggio per la specifica di mapping semantici (MO, TN)
D2.R3: Valutazione empirica di misure di similarità semantica (MO)
D3.R3: Definizione del linguaggio di interrogazione e delle tecniche di riscrittura basate su ontologie (BO, MO, TN)
D3.R4 Definizione di tecniche per l'esecuzione di interrogazioni in WISDOM (BO)I prodotti attesi in questa fase del progetto sono sia di tipo rapporto tecnico (sigla R) che di tipo prototipo software (sigla P). Il numero dopo il "D" rappresenta il numero del tema (0 significa che il rapporto è comune a tutti i temi). La lista tra parentesi denota le unità coinvolte nella realizzazione del prodotto (BO - Bologna, MO - Modena, RM - Roma, TN - Trento).
D0.P1: Prototipo integrato di sistema (BO, MO, RM, TN)
D1.R6: Definizione di tecniche per associare semantica allo schema di un sito data-intensive basate su catene lessicali (RM, MO)
D1.P2: Prototipo per la creazione di "content summaries" (BO)
D1.P3: Prototipo per l'estrazione di catene lessicali da siti web (MO)
D1.P4: Prototipo per inferire automaticamente lo schema di un sito data-intensive (RM)
D1.P5: Prototipo per il popolamento automatico di classificazioni (TN).
D2.P1: Prototipo della piattaforma per la generazione/gestione automatica di mapping tra ontologie di domino eterogenee (MO, TN)
D3.P1: Prototipo per la formulazione di interrogazioni (BO, MO)
D3.P2 Prototipo per l'esecuzione di interrogazioni distribuite in WISDOM (BO) <<<
Durata
24 mesiBase di partenza scientifica nazionale o internazionale
La crescente disponibilita' di informazioni pubblicate sul web e i limiti dei tradizionali motori di ricerca hanno portato allo sviluppo di una nuova area di ricerca, chiamata Semantic Web (Berners-Lee, 2001), il cui obiettivo e' quello di rendere i contenuti delle pagine Web riconoscibili attraverso l'introduzione di opportuni markup semantici (metadati). Attualmente, gli approcci al Semantic Web consentono l'annotazione semantica di risorse ipotizzando l'esistenza a-priori di ontologie in grado di descrivere il dominio di interesse. Maggiore è l'accuratezza dell'ontologia, maggiore è la precisione dell'annotazione.Una delle sfide chiave nello sviluppo di sistemi distribuiti aperti, come il Web, una intranet aziendale o il Semantic Web, è di rendere possibile lo scambio di informazione attraverso applicazioni che utilizzano schemi ed ontologie di dominio autonomamente sviluppate per organizzare localmente le informazioni.
L'interoperabilità tra queste applicazioni dipende essenzialmente dall'abilità di scoprire o utilizzare mapping tra tali schemi ed ontologie di dominio eterogenee. In particolare, nel contesto del Semantic Web dove il numero di ontologie cresce a dismisura, poter disporre di tecniche ed algoritmi che permettano mapping tra di esse diviene un fattore cruciale per una soluzione.
Una ulteriore sfida e` quella di fornire un risultato compiuto e sintetico ad una interrogazione su un sistema aperto e distribuito quale e` quello del Web.
Nel seguito verranno illustrate, per ciascuna delle tematiche citate, lo stato dell'arte internazionale e nazionale, assieme ad una visione sintetica delle competenze delle unita` di ricerca coinvolte.
TEMA1: CREAZIONE ED ESTENSIONE DI UNA ONTOLOGIA DI DOMINIO
In questa sezione descriviamo sinteticamente la base di partenza relativa alle problematiche di rappresentazione, creazione ed estensione di un'ontologia. Per una trattazione piu' completa dello stato dell'arte rimandiamo alla Base di partenza dei Modelli B delle unita' coinvolte.
Il sistema MOMIS (Mediator Environment for Multiple Information Sources) sviluppato dall'unità di Modena si pone l'obiettivo di generare una descrizione sintetica ed integrata delle informazioni provenienti da sorgenti eterogenee, in modo che l'utente abbia a disposizione una vista globale virtuale (GVV) sulle sorgenti coinvolte senza conoscerne l'effettivo grado di eterogeneità (Bergamaschi, 2001). La GVV rappresenta una concettualizzazione del dominio di interesse, cioè una Ontologia di Dominio, ottenuta a partire dalle sorgenti stesse.
Per quanto riguarda la creazione e la popolazione di una ontologia e' utile distinguere le tecniche proposte per i siti data-intensive da quelle per i siti con contenuto scarsamente strutturato.
Per i siti data-intensive l'estrazione di informazioni dalle pagine web viene realizzata attraverso opportuni programmi, detti wrapper. In letteratura esistono numerosi formalismi per la scrittura di wrapper (Atzeni, 1997; Crescenzi 1998; Sahuguet, 1999); successivamente a questi sono stati sviluppati sistemi, basati su tecniche di machine learning supervisionato, per la generazione semi-automatica di wrapper (Kushmerick, 1997; Muslea, 1999; Soderland, 1999; Adelberg, 1998; Embley,1999). Queste proposte richiedono un significativo intervento umano. Recentemente, nel progetto RoadRunner (Crescenzi, 2001), sviluppato dalla unita' di Roma Tre, e nelle proposte di (Arasu, 2003) e (Chang, 2001) sono state sviluppate tecniche che consentono di automatizzare la generazione di un wrapper. Queste tecniche inferiscono un wrapper per un insieme di pagine strutturalmente simili, analizzandone similitudini e differenze.
Per adottare queste tecniche al fine di costruire nuove ontologie e' necessario affrontare alcuni interessanti problemi. In primo luogo e' necessario inferire la struttura (o schema) di un sito web: in sostanza e' necessario individuare gli insiemi di pagine simili offerti dal sito. In letteratura il problema e' stato studiato solo con riferimento ad un particolare dominio (siti di notizie), e assumendo l'esistenza di due tipologie di pagine definite a priori (pagine indice e pagine di contenuto) (Liu, 2004; Kao, 2004). Un ulteriore problema e' quello di dare una semantica ai dati estratti da wrapper generati automaticamente. Tecniche per la annotazione dei dati estratti da wrapper sono state proposte in (Arlotta, 2003) e in (Wang, 2003). Nel progetto si intende estendere queste tecniche con approcci basati su analisi linguistica. Ad esempio, TUCUXI (Benassi, 2004) è un sistema che sfrutta la teorizzazione linguistica delle proprietà di coesione e coerenza (Halliday, 1976) per costruire gruppi di parole (catene lessicali) fra loro semanticamente correlate. Le catene lessicali possono essere costruite con l'ausilio di una ontologia di lessico, ad esempio WordNet (Miller, 1995) (Galley, 2003).
Per quanto riguarda i siti con contenuti scarsamente strutturati, per esempio collezioni di documenti su un dominio comune, esistono vari metodi per clusterizzarli. Questi metodi possono essere raggruppati in due principali categorie: metodi bottom-up e metodi top-down. I primi, data una collezione di documenti, utilizzano tecniche ˆ tipicamente di text mining ˆ per analizzare i contenuti dei documenti e raggrupparli in categorie; tali categorie sono poi organizzate gerarchicamente in modo semi-automatico o manuale, a seconda della precisione richiesta e della complessità del dominio. I metodi top down, dato uno schema di classificazione gerarchico (magari già esistente, per esempio quello di web directory definito dal progetto dmoz.org), utilizzano tecniche per popolare lo schema con i documenti appartenenti a una certa collezione.
Per il progetto, entrambi i tipi di tecniche verranno prese in esame, con una preferenza per le tecniche top-down, le quali privilegiamo la ricchezza e la precisione dello schema. Questo perché avere uno schema ricco e ben definito facilita la sua successiva integrazione in una ontologia di dominio (GVV).
Per la gestione dell‚estensione e della modifica di una ontologia, in letteratura sono stati proposti due approcci. Il primo e' basato sull'evoluzione (Motik, 2002) e mira ad adattare i concetti di una ontologia alle variazioni del dominio modellato. Il secondo e' basato sul versioning (Klein, 2001): i cambiamenti vengono gestiti creando differenti versioni della stessa ontologia. In WISDOM il problema dell'estensione di una ontologia verra` affrontato seguendo l'approccio basato sull'evoluzione applicato ad una GVV sviluppata con MOMIS.
TEMA 2: SEMANTICA EMERGENTE: SCOPERTA DI MAPPING SEMANTICI TRA ONTOLOGIE DI DOMINIO
Allo stato attuale, i mapping tra ontologie vengono definiti per lo più a mano, con un processo molto dispendioso (in termini di risorse e tempo) e suscettibile di frequenti errori; queste considerazioni hanno motivato numerose attività di ricerca sui metodi per descrivere mapping, manipolarli e generarli (semi)automaticamente.
Gli approcci proposti in letteratura per la definizione e la generazione dei mapping possono essere analizzati secondo due dimensioni principali: l'architettura generale e le tecniche di generazione dei mapping.
Per quanto concerne l'architettura generale, sono due essenzialmente gli approcci proposti: "Global Schema" e "Peer-to-Peer" (P2P). Dati due schemi (locali) da mappare, il primo approccio ha lo scopo principale di crearne un terzo (possibilmente virtuale), detto schema globale, atto ad integrare i primi due. I metodi per creare lo schema globale sono principalmente due (Fagin, 2003): GAV (Global as View) e LAV (Local as View). Essi differiscono nel modo in cui i mapping sono definiti: nel GAV, ogni elemento dello schema globale è definito tramite una query sugli schemi locali. Nel LAV, ogni elemento di uno schema locale è definito con una query sullo schema globale. Recentemente, un nuovo metodo, denominato GLAV (Global Local As View) è stato proposto in (Fagin, 2003), dove i mapping mettono in relazione una query sugli schemi locali con una query sullo schema globale.
L'approccio "Peer-to-Peer" non presuppone l'esistenza di alcuno schema globale e si basa sulla generazione di mapping "diretti" tra elementi di schemi differenti (Madhavan, 2001; Bouquet, 2003a; Giunchiglia, 2003). Tale approccio appare particolarmente vantaggioso quando i mapping tra ontologie/strutture devono essere computati a run-time, ovvero non esiste modo di integrare a priori gli schemi da mappare in uno schema globale unico.
Le tecniche di generazione dei mapping possono essere suddivise essenzialmente in quattro classi (Rahm, 2001; Giunchiglia, 2003): graph matching, schema matching, semantic matching e instance-based matching.
- Graph matching: in queste tecniche, uno schema è visto come un insieme di nodi uniti da un insieme di archi (un grafo) ed i mapping vengono generati considerano solo conoscenza strutturale, ignorano completamente altre fonti di informazione (Zhang 1995; Wang, 1994, Pelillo, 1998; Milo, 1998; Carroll, 2002; Valtchev, 2003].
- Schema matching: queste tecniche hanno come scopo principale la determinazione della similarità tra nodi appartenenti a schemi eterogenei per mezzo di tecniche di graph matching, con in aggiunta alcune informazioni di tipo "linguistico". In particolare, in tali tecniche viene largamente utilizzato un Lessico (o Thesaurus) per interpretare le etichette dei nodi del grafo al fine di riuscire a gestire casi di sinonimia ed ipernimia (Madhavan, 2001; Bergamaschi, 2001).
- Semantic matching: un mapping è detto "semantico" se possiede una chiara interpretazione "model-theoretic", come p.e. relazioni del tipo "equivalenza logica" oppure "implicazione logica". Questi mapping sono dedotti per mezzo di tecniche di ragionamento automatico su formule che rappresentano il significato dei singoli nodi di uno schema. Una tale formula è costruita utilizzando informazione proveniente da un Lessico (p.e. WordNet) e da una ontologia di dominio (Bouquet, 2003a; Giunchiglia, 2003).
- Instance based matching: diversamente dalle precedenti tecniche, i mapping vengono inferiti in base alla similarità tra i dati contenuti negli schemi stessi (Doan, 2002; Honiden, 2003).
Tra i sistemi più interessanti per che usano tecniche di generazione dei mapping citiamo COMA (Do, 2002), che supporta la combinazione di diverse tecniche di matching, Cupid (Madhavan, 2001), che combina algoritmi di matching per nomi e strutture, Similarity Flooding (Melnik, 2002), che fornisce un algoritmo di grande versatilità per il graph-matching, GLUE (Doan, 2002), che sfrutta tecniche di machine learning per creare i mapping tra gli schemi utilizzando in modo particolare il concetto di distribuzione della probabilità di unione, DIKE (Palopoli, 2003), che implementa un algoritmo che inferisce automaticamente i mapping attraverso l'analisi strutturale delle sorgenti, LSD (Doan, 2000), che usa tecniche di machine learning per inferire da esempi forniti dall'utente delle regole di matching generali e MOMIS (Beneventano, 2003), che utilizza per la generazione dei mapping delle relazioni derivate dall'analisi degli schemi, dal lessico e inferite tramite l'uso di logica descrittiva.
TEMA 3: ELABORAZIONE DI INTERROGAZIONI
Nell'ambito del progetto, le problematiche di interesse per il Tema 3 sono la riscrittura delle interrogazioni in base ai mapping semantici, la selezione delle sorgenti rilevanti per una data interrogazione, il recupero efficiente dei risultati, il problema della object fusion e la navigazione dei risultati.
I mapping semantici tra le ontologie, trattati nel tema precedente, hanno un ruolo fondamentale nella fase di pre-processing delle interrogazioni in quanto permettono la riscrittura delle stesse utilizzando le ontologie specifiche per ciascun dominio.
Al fine di selezionare le sorgenti più rilevanti per una data interrogazione è necessario caratterizzare strutturalmente, semanticamente e statisticamente ciascuna sorgente. Mentre per i primi due aspetti si può fare affidamento sulle descrizioni fornite da wrapper e ontologie di dominio, la descrizione statistica necessita di informazioni in grado di riassumere il contenuto della sorgente in termini di dati (istanze) gestiti. Le soluzioni attualmente esistenti in letteratura (Gravano, 1999; Ipeirotis, 2002; Gravano 2003) si basano essenzialmente sull'estrazione di un insieme di parole chiave con associate frequenze di occorrenza, e non sono quindi in grado di tenere conto delle relazioni semantiche esistenti tra i termini (concetti e valori) presenti nell'interrogazione e quelli propri della sorgente (Ganesan, 2003).
Riguardo al recupero dei risultati, il collezionare tutti i dati minimamente rilevanti dalle sorgenti selezionate per effettuarne il vaglio in base a criteri di importanza in un secondo momento non rappresenta evidentemente una soluzione efficiente. Si rendono quindi necessari meccanismi di esecuzione che limitino al minimo le risorse necessarie garantendo, nel contempo, la correttezza del risultato. Tali meccanismi devono inoltre tenere in considerazione sia la rilevanza delle sorgenti rispetto all'interrogazione, basandosi sui mapping, che le modalità di accesso alle sorgenti stesse (Fagin, 2001). In generale, occorre "pesare" opportunamente diversi aspetti che incidono sulla rilevanza dei risultati (rilevanza di sorgenti e/o istanze, completezza rispetto alla richiesta, ecc.) e sull'efficienza della risoluzione dell'interrogazione (es., tempi di risposta delle sorgenti). In letteratura il problema è stato affrontato unicamente per i casi di una singola sorgente strutturata (Ciaccia, 2000; Bruno, 2002) o di più sorgenti strutturate, accessibili via Web (Bruno, 2004).
Il problema della object fusion riguarda il raggruppamento di informazioni relative allo stesso oggetto del mondo reale memorizzate nelle differenti sorgenti. Requisito base perché tale fusione sia fattibile è che le differenti rappresentazioni dello stesso oggetto siano identificabili (Naumann 2002). Una volta individuato l'oggetto, occorre quindi affrontare problemi di eventuali inconsistenze tra le sorgenti (Bertossi, 2003; Greco, 2003; Naumann 2002; Lin, 1998). Infine, allo scopo di sintetizzare in un unico risultato tutte le informazioni relative allo stesso oggetto provenienti dalle differenti sorgenti, un operatore particolarmente promettente proposto in letteratura è quello di full-disjunction (Galindo-Legaria, 1994; Ullman 1996).
Infine, per restituire all'utente un risultato significativo e facilmente fruibile, assume notevole importanza la possibilità di navigare e sintetizzare efficacemente i dati ottenuti dall'interrogazione. A tal proposito, nell'ambito della business intelligence e dei database multi-dimensionali sono state studiate tecniche per la fruizione del contenuto informativo a differenti livelli di aggregazione attraverso l'applicazione di operatori OLAP (Gyssens, 1997). Nel settore del data mining e della knowledge extraction sono state studiate tecniche per la rappresentazione di pattern tipici del data mining, quali regole associative e cluster (Imielinski, 1996) e per la creazione di modelli general-purpose, estensibili e riusabili, per la rappresentazione di pattern (Rizzi, 2003). In entrambi i casi, comunque, la sintesi dell'informazione non è guidata da ontologie, quindi tali modelli non sono direttamente applicabili al nostro caso. <<<




