Vai al contenuto| Home page|

   Ti trovi in: HOME »Programmi, progetti e risultati »I progetti »PRIN - Programmi di ricerca di Rilevante Interesse Nazionale»Programma di ricerca
INIZIO_TESTO_DA_INDICIZZARE

PROGRAMMA DI RICERCA

italiano - english
Programmi di ricerca simili:
Classificazione scientifico-disciplinare
Classificazione brevettuale
Classificazione geografica
Bibliografia
[1] R. Collins, A. Lipton, T. Kanade, H. Fujiyoshi, D. Duggins, Y. Tsin, D. Tolliver, N. Enomoto, O. Hasegawa. “A system for video surveillance and monitoring”, technical report CMU-RI-TR-00-12, Robotics Institute, Carnegie Mellon University, 2000

[2] I. Haritaoglu, D. Harwood and L.S. Davis, “W4: Real-Time surveillance of people and their activities”, Pattern Analysis and Machine Intelligence, vol. 22(8), pp. 809-830, 2000.

[3] C. Piciarelli, G.L. Foresti, “On-Line trajectory clustering for anomalous events detection”, Pattern Recognition Letters, to be published

[4] C. Stauffer, E. Gimson, “learning patterns of activity using real-time tracking”, Pattern Analysis and Machine Intelligence, vol. 22(8), pp. 747-757, 2000

[5] D. Makris,T. Ellis, “Learning semantic scene models from observing activity in visual surveillance”. Systems, Man, and Cybernetics — Part B: Cybernetics, vol. 35 (3), pp. 397–408, 2005

[6] J.G. Lou, Q.F. Liu, W.M. Hu, T.N. Tan, “Semantic interpretation of object activities in a surveillance system”, International Conference on Pattern Recognition, pp. 777-780, 2002

[7] Y. A. Ivanov, A.F. Bobick, “Recognition of Visual Activities and Interactions by Stochastic Parsing”, Pattern Analysis and Machine Intelligence, vol. 22(8), pp. 852-872, 2000

[8] D. Minnen, I. Essa, T. Starner, “Expectation Grammars: Leveraging High-Level Expectations for Activity Recognition”, Computer Vision and Pattern Recognition, Madison, WI, pp. II-626-II-632, 2003

[9] D. Thirde, M. Borg, J. Ferryman, F. Fusier, V. Valentin, F. Brémond and M. Thonnat, "Video Event Recognition for Aircraft Activity Monitoring". Advanced Video and Signal-Based Surveillance (AVSS 2005), Como, Italy, September 15-16, 2005.

[10] D. Ayers, M. Shah “Monitoring human behavior from video taken in an office environment”, Image and Vision Computing, vol 19(2), pp. 833-846, 2001

[11] A. Galata, N. Johnson, and D. Hogg, “Learning variable length Markov models of behaviour”, Computer Vision and Image Understanding, vol. 81(3), pp. 398-413, 2001.

[12] S. Hongeng, R. Nevatia and F. Bremond, “Video based event recognition: activity representation and probabilistic methods”, Computer Vision and Image Understanding, vol. 96, pp. 129-162, 2004

[13] N.M. Oliver, B. Rosario and A.P. Pentland, “A Bayesian Computer Vision System for Modeling Human Interactions”, Pattern Analysis and Machine Intelligence, vol 22(8), pp. 831-843, 2000

[14] M.Stampfle, D. Holz, J.C. Becker, “Performance evaluation of automotive sensor data fusion”, IEEE Conferece on Intelligent Transportation Systems, pp.50-55, 2005.

[15] J. Black, T.J. Ellis, P Rosin, "A Novel Method for Video Tracking Performance Evaluation", The Joint IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance, October, Nice, France, pp. 125-132. (2003)

[16] D. W. Casbeer, D. B. Kingston, R. W. Beard, T. W. McLain, Sai-Ming Li, R. Mehra, "Cooperative Forest Fire Surveillance Using a Team of Small Unmanned Air Vehicles," International Journal of Systems Science, In press.

[17] K. O. Stanley and R. Miikkulainen, “Evolving neural networks through augmenting topologies”, Evolutionary Computation, Vol.10 , No. 2, pp99-127.

[18] D. FLorean and J. Urzelai, “Evolutionary robots with on-line self-organization and behavioural fitness”, Neural Networks, Vol. 13, pp. 431-443, 2000.

[19] Z. Tao, R. Nevatia. “Tracking multiple humans in complex situations”, Pattern Analysis and Machine Intelligence, Vol. 26, No 9, pp. 1208-1221, 2004

[20] R. Cutler, L.S. Davis, Robust real-time periodic motion detection, analysis, and applications, Pattern Analysis and Machine Intelligence, 22 (8) (2000) 781-796.

[21] Bala, E.; Cetin, A.E.; Computationally Efficient Wavelet Affine Invariant Functions for Shape Recognition. Pattern Analysis and Machine Intelligence,Volume: 26 , Issue: 8 , Pages:1095 - 1099Aug. 2004.

[22] S.A. Niyogi, E.H. Adelson, Analyzing and recognizing walking figures in XYT. Computer Vision and Pattern Recognition. 1994, pp. 469-474.

[23] H. Fujiyoshi, A.J. Lipton, Real-time human motion analysis by image skeletonization. IEEE Workshop on Applications of Computer Vision. 1998, pp. 15-21.

[24] I-C. Chang, C-L. Huang, Ribbon-based motion analysis of human body movements. Intl. Conf. on Pattern Recognition. Vienna, 1996, pp. 436-440.

[25] A. Geurtz. Model-based Shape Estimation. PhD thesis, Department of Electrical Engineering, Polytechnic Institute of Lausanne, 1993.

[26] Y. Guo, G. Xu, S. Tsuji, Tracking human body motion based on a stick figure model, Visual communication and Image Representation, 1994, 5: 1-9.

[27] C. Vogler, D. Metaxas, ASL recognition based on a coupling between HMMs and 3D motion analysis. International Conference on Computer Vision. 1998, pp. 363-369.

[28] M. Kass, A. Witkin, D. Terzopoulos, Snakes: Active contour models, International Journal of Computer Vision, Vol. 2, No. 3, pp. 321-331, 1988.

[29] A. Baumberg, D. Hogg, An efficient method for contour tracking using active shape models. IEEE Workshop on Motion of Non-Rigid and Articulated Objects. Austin, 1994, pp. 194-199.

[30] I.A. Kakadiaris, D. Metaxas, Model-based estimation of 3-D human motion with occlusion based on active multiviewpoint selection. Computer Vision and Pattern Recognition. San Francisco, 1996, pp. 81-87.

[31] K. K. Sung and T. Poggio. Example-based learning for view-based human face detection. Technical Report A.I. Memo 1521, CBLC Paper 112, MIT, Dec. 1994.

[32] Special Issue on Video Communication, Processing and Understanding for Third Generation Surveillance Systems, Proceeding of the IEEE, edited by C. Regazzoni, V. Ramesh, G. L. Foresti, Vol. 89, No. 10, 2001.

[33] Y. Bar-Shalom, T. E. Fortmann, Tracking and data association, Academic Press, 1988

[34] G. Gennari, A. Chiuso, F. Cuzzolin, R. Frezza , Integration of shape constraints in data association filters, 43rd IEEE Conf. on Decision and Control, 2004.

[35] B. Sinopoli, C. Sharp, L. Schenato, S. Shaffert, S. S. Sastry. Distributed Control Applications within Sensor Networks, Proceedings of the IEEE, Vol.91, n.8, pp.1235-1246, 2003.

[36] A Hampapur, L Brown, J Connell, A Ekin, N Haas, M , et al., Smart video surveillance, IEEE Signal Processing Magazine, Vol.22, n.2, pp.38-51, 2005.

[37] P. Bottoni, A. Grau, “A Suite of Metamodels as a Basis for a Classification of Visual Languages”, Proc. VL/HCC 2004, P. Bottoni, C. Hundhausen, S. Levialdi, G. Tortora eds., pp.83-90, IEEE CS Press, 2004.

[38] P. Bottoni, M. De Marsico, P. Di Tommaso, S. Levialdi, D. Ventriglia, “Definition of visual processes in a language for expressing transitions”, Journal of Visual Languages and Computing, vol.15, n.3, pp.211-242, 2004.

[39] N. Bianchi-Berthouze, P. Bottoni, “Articulating actions in multimodal interaction”, 3D Forum, vol.16, n. 4, pp.220-225, 2002.

[40] P. Bottoni, A. Labella, S.. Faralli, A. Malizia, C. Scozzafava "CHAMBRE: integrating Multimedia and Virtual Tools", accettato per AVI 2006.

[41] M. De Marsico, S. Levialdi. "Evaluating web sites: exploiting user's expectations", .International Journal of Human-Computer Studies. V.60, n.3 , March 2004, pp. 381-416

[42] C. Ardito, M.F. Costabile, M. De Marsico, R. Lanzilotti, S. Levialdi, T. Roselli, V. Rossano: “An approach to Usability Evaluation of E-Learning Applications”. UAIS (Universal Access in Information Society) vol. 4/3 2005.

[43] P.Bottoni, M.F.Costabile, S.Levialdi, P.Mussio, "On Orders in Visual Interaction", Journal of Visual Languages and Computing, vol.10, n.4, pp.343-380, 1999.

[44] P.Bottoni, M.F.Costabile, S.Levialdi, “Analyzing, modelling, and specifying visual interaction”, Journal of Soft Computing, vol.7, n.1, pp.9-19, 2002.

[45] P. Bottoni, M. F. Costabile, S. Levialdi, A. Piccinno, “Towards Formal Measures of Usability for Visual Interactive Systems”, Proc. HCC2002, pp.188-197, 2002.
Parole Chiave
AMBIENTI INTELLIGENTI, RICONFIGURAZIONE DI SENSORI, ANALISI DI EVENTI

Ambienti intelligenti: interpretazione di eventi, riconfigurabilità sensoriale e interfacce multimodali.

Università degli Studi di Udine
Abstract
Nelle moderne aree cittadine si è ultimamente assistito ad un continuo dotarsi di sensori per il controllo del territorio, dalle stazioni per il controllo del tasso di inquinamento alle telecamere a circuito chiuso per il controllo del traffico fino alle telecamere per la sicurezza all’interno di stazioni, aeroporti e banche. Tale esigenza è dettata dalla necessità di aumentare la sicurezza e la qualità di vita del cittadino, tuttavia tali obiettivi sono generalmente disattesi a causa dell’arretrata tecnologia. Le installazioni attuali si affidano esclusivamente all’interpretazione umana dei dati, che tuttavia non può far fronte all’enorme quantità di informazione che viene generata dalla rete di sensori.

Il presente progetto si propone di studiare e sviluppare opportuni strumenti informatici per la gestione di una rete di sensori eterogenei per il monitoraggio di ambienti pubblici. Un approccio informatizzato permetterebbe infatti di ottimizzare le procedure di integrazione di dati eterogenei in modo da ottenere una visuale d'insieme dello scenario monitorato; tali informazioni potrebbero provenire sia da sensori fissi (ad es. telecamere di sorveglianza) che da sentinelle mobili (ad es. agenti di polizia). I dati cosi' raccolti possono essere successivamente elaborati al fine di inferire interpretazioni ad alto livello delle attivita' in corso all'interno dell'ambiente osservato (ad es. riconoscere i comportamenti sospetti per il posizionamento ottimale di un'autobomba nei pressi di un obiettivo sensibile). Si vogliono inoltre sviluppare opportuni algoritmi per la riconfigurazione automatica della rete di sensori in modo da garantire costantemente che la rete si trovi nella configurazione ottimale per l'acquisizione dei dati di interesse. Il coinvolgimento di diversi tipi di sensori richiede inoltre uno studio di opportune tecniche di trasmissione dati che tengano conto delle limitazioni imposte da canali trasmissivi eterogenei. Infine si rende necessario lo studio di opportune tecniche di rappresentazione dei dati acquisiti in grado di offrire un'adeguata interfaccia multimodale all'operatore umano. <<<

Coordinatore Scientifico del Programma di Ricerca
Gian Luca Foresti Università degli Studi di UDINE
Obiettivo del Programma di Ricerca
La presente proposta vuole incentivare la ricerca e lo sviluppo di tecniche informatiche per l’integrazione di sensori eterogenei allo scopo di incrementare la capacità di comprensione delle attività all’interno di aree pubbliche. A tal fine, si vuole proporre lo studio di tecniche innovative per l’integrazione dei dati provenienti da una rete di sensori al fine di inferire modelli comportamentali di alto livello. Tali modelli hanno il duplice scopo di permettere la riconfigurazione automatica della rete di sensori e di supportare l’attività decisionale degli operatori umani mediante opportune tecniche di rappresentazione multimodale. Risulta inoltre necessario lo sviluppo di un adeguato layer di comunicazione per garantire la trasmissione efficiente dei dati tra le diverse entità coinvolte.

L’intervento proposto si basa quindi sullo studio di tecniche inerenti ai seguenti aspetti:

• metodi automatici per l’analisi e il riconoscimento delle attività;
• algoritmi per la riconfigurazione automatica della rete di sensori;
• tecniche di trasmissione dati tra diverse entità;
• interfacce multimodali.

L’architettura generale rappresentata in Figura 1 prevede da un lato la ricezione da parte del sistema delle informazioni provenienti dai sensori e degli allarmi relativi a situazioni di interesse, dall’altro la possibilità di allertare gli operatori richiedendo la raccolta sul campo di dati ulteriori tramite i dispositivi mobili (“sentinelle”). Ad esempio l’identificazione automatica del comportamento anomalo di una persona potrebbe attivare la riconfigurazione della rete di sensori o richiedere l’intervento di una sentinella per ottenere l’acquisizione ottimale di un’immagine del volto della persona.

Specifiche modalità di trattamento, presentazione e visualizzazione dei dati e delle informazioni dinamiche raccolte vengono prese in considerazione per sviluppare modalità multimodali di interazione dell’utente con il sistema.


Figura 1 Architettura generale per il sistema di allerta proposto.

Uno degli aspetti più innovativi del sistema proposto è quello riguardante l’analisi automatica dei comportamenti (behavior analysis), dove con tale termine si intende qualsiasi azione compiuta da un oggetto di interesse. Si vuole infatti proporre un metodo per l’apprendimento e l’analisi statistica dei comportamenti ricorrenti, in modo da modellare automaticamente situazioni normali e situazioni anomale (e quindi potenzialmente a rischio). Non è richiesta una definizione a priori di tali categorie, dal momento che vengono automaticamente e dinamicamente apprese dal sistema stesso mentre nuovi dati sono acquisiti. Solo in questo modo è infatti possibile garantire la flessibilità necessaria per un sistema in grado di adattarsi autonomamente ai diversi contesti ambientali in cui è applicato.

Alla parte di analisi dei comportamenti si affianca quella del riconoscimento, il cui compito è quello di identificare quei comportamenti che si discostano dal modello costruito in fase di behavior analysis. Si tratta quindi di rilevare situazioni anomale che richiedono un’analisi più approfondita, anche mediante l’attivazione di tecniche per il riconoscimento delle singole entità (ad es. riconoscimento volti, lettura targhe ecc.).

La rete dei sensori installati nell’ambiente può essere riconfigurata in modo automatico dal sistema sulla base dell’analisi degli eventi rilevati nella scena (behavior analysis) in modo da ottimizzare l’acquisizione dei dati. La configurazione dei sensori è determinata anche dal modulo di riconoscimento, con lo scopo di focalizzare l’attenzione del sistema e dell’operatore umano sulle situazioni “anomale” identificate. L’obiettivo dello studio degli algoritmi di riconfigurazione automatica della rete di sensori è quindi quello di modificare sia la topologia della rete di sensori che la sua configurazione in base alle capacità cognitive del sistema per aumentarne le prestazioni. Ad esempio l’identificazione di un comportamento anomalo potrebbe richiedere una riconfigurazione topologica della rete di sensori, in modo che essi siano disposti per acquisire al meglio informazioni riguardo all’oggetto di interesse.

La necessità di gestire flussi di dati tra sensori, unità di computazione ed utenti finali richiede un accurato studio di tecniche di trasmissione di dati multimediali (flussi video, audio ecc.) che garantiscano la comunicazione real-time tra le diverse entità del sistema. In particolare si vogliono studiare tecniche per il controllo dinamico della qualità delle informazioni trasmesse, dipendemente dalle capacità e dalle caratteristiche trasmissive dei canali utilizzati. Si affronterà inoltre il problema di strutturare al meglio la rete per ottimizzare la trasmissione di dati: la rete avrà infatti una natura gerarchica, permettendo l'elaborazione dei dati sensoriali al livello dei singoli sensori e trasmettendo ai nodi gerarchicamente più alti solo i meta-dati necessari per un'analisi globale degli eventi di interesse (vedi figura 2).



Figura 2: Organizzazione gerarchica della rete.


Infine, l’enorme quantità di informazione processata dai moduli sopra descritti necessita di opportune modalità di gestione e presentazione. Lo scopo è quello di fornire in maniera appropriata ad ogni tipologia di utente solo le informazioni utili allo svolgimento delle proprie funzioni. L’utente deve inoltre sia poter accedere facilmente ai dati richiesti che ricevere direttive dal sistema tramite un linguaggio visuale che non richieda specifiche competenze tecniche. <<<
Durata
24 mesi
Base di partenza scientifica nazionale o internazionale
Recentemente sono stati proposti in letteratura alcuni sistemi completi per il monitoraggio attivo di ambienti tramite sensori eterogenei; si consideri ad esempio il progetto VSAM (Visual and Acoustic Surveillance System) [1] per la localizzazione e l’inseguimento automatico di veicoli e persone in tempo reale in un ambiente molto vasto e coperto da una rete eterogenea di sensori, oppure il progetto W4 [2], incentrato sull’analisi delle attività di figure umane. Va tuttavia notato come la maggior parte dei lavori proposti finora non coprano adeguatamente tutte le tematiche relative al monitoraggio multisensoriale. Tali sistemi sono infatti intrinsecamente molto complessi in quanto spaziano dall’elaborazione a basso livello dei dati in ingresso fino all’interpretazione semantica, ad alto livello, della scena osservata, in modo da identificare e classificare potenziali eventi di interesse. Gli aspetti principali che vanno affrontati nello studio di un sistema di monitoraggio multisensoriale possono essere classificati come segue:

• Elaborazioni di basso livello (ad es. identificazione di zone di movimento)
• Classificazione ed strutturazione dei dati di basso livello (ad es. classificazione e tracking degli oggetti)
• Elaborazione ad alto livello (ad es. identificazione semantica della scena)
• Trasmissione dei dati
• Visualizzazione ed interazione con l’utente

Il presente progetto vuole analizzare ed implementare le funzionalità di un sistema completo di monitoraggio multisensoriale di ambienti tramite integrazione di sensori eterogenei, con particolare riferimento alla fase di alto livello di analisi ed interpretazione degli eventi. Contributi innovativi verranno dati anche nei campi della riconfigurazione automatica dei sensori, della trasmissione dei dati di natura eterogenea e dell’interfacciamento uomo-macchina.


<strong>Analisi degli Eventi

I lavori finora proposti nel settore dell’analisi degli eventi si suddividono essenzialmente in due approcci principali: quelli statistici e quelli basati su modelli espliciti degli eventi. Negli approcci statistici viene creato un modello delle attività identificate dal sistema su un intervallo temporale sufficientemente ampio, senza effettuare alcun tipo di classificazione. Successivamente le attività riconosciute dal sistema vengono confrontate con il modello statistico delle attività precedenti, per valutare se siano conformi a quanto già accaduto in passato o se rappresentino un evento raro o mai accaduto. In questo senso i sistemi statistici non identificano direttamente gli eventi “pericolosi” ai fini della sorveglianza, ma si limitano a rilevare la presenza di eventi anomali, ovvero diversi da quelli riscontrati in precedenza. Questi sono di particolare interesse perché, se è vero che non tutti gli eventi anomali sono eventi di interesse, molto probabilmente tutti gli eventi di interesse sono eventi anomali, per cui l’identificazione di eventi anomali rappresenta un ottimo filtro per selezionare solo quelle scene che richiedono l’attenzione di un operatore umano per una successiva valutazione. Solitamente il tipo di attività analizzate in questo genere di sistemi consiste nella categorizzazione degli oggetti di interesse e nell’analisi delle loro traiettorie (si veda un esempio in figura 3). Esempi di lavori di questo tipo si possono trovare nei lavori di Foresti e Piciarelli [3] o di Makris e Ellis [5], basati sulla clusterizzazione delle traiettorie. Lavori simili sull’analisi delle traiettorie ai fini del riconoscimento di eventi sono stati proposti anche da Stauffer e Grimson [4] e da Lou et. al [6].


Figura 3: Rilevamento di eventi anomali con analisi probabilistica delle traiettorie più comuni.


Nel caso di modelli costruiti manualmente i lavori più significativi sono di Ivanov e Bobick [7] e quelli di Minnen, Essa et al. [8] basati sulla definizione di grammatiche stocastiche per il matching probabilistico di sequenze predefinite di eventi semplici.
Altri lavori in cui vengono utilizzati modelli espliciti degli eventi da riconoscere sono quelli di Bremond e Thonnat [9] basati sulla definizione di un linguaggio per la descrizione di eventi, oppure lavori che fanno uso di automi a stati finiti o loro varianti, come quelli di Ayers e Shah [10].
Per quanto riguarda la modellazione degli eventi appresa dal sistema sulla base di pattern di addestramento, vengono generalmente utilizzate le reti bayesiane o i modelli markoviani nascosti, come nei lavori di Galata, Johnson e Hogg [11], Hongeng, Nevatia e Bremond [12] e Oliver, Rosario e Pentland [13]. In questi casi vengono sfruttate le capacità di apprendimento e di matching stocastico di opportuni modelli statistici (come i modelli markoviani nascosti) per le fasi di apprendimento e di riconosicmento di eventi complessi sulla base dell’identificazione di sequenze di eventi più semplici.



Figura 4: Eventi complessi modellati esplicitamente come relazioni spazio-temporali tra eventi atomici.


Riconfigurazione sensoriale

Uno degli obiettivi del presente progetto è quello di utilizzare sensori mobili e riconfigurabili all'interno di un sistema di monitoraggio per risolvere i precedenti problemi e fornire una percezione più completa dell'ambiente.
La riconfigurazione della rete di sensori dovrebbe quindi basarsi sulle capacità sensoriali della rete stessa per determinare un nuovo set di parametri che consentano di aumentare tali capacità. Quindi dovranno essere prese in considerazione sia tecniche per la configurazione dei parametri intrinseci in base alla qualità di detezione degli oggetti [19] che di riconfigurazione dei parametri estrinseci. In tale ambito sarà di primaria importanza lo studio di metriche per la misurazione della capacità di riconoscimento del sistema. Si dovranno infatti utilizzare le metriche di misura delle performance sia dei sensori [14] che degli algoritmi di analisi [15,16] per poter definire una funzione globale di qualità che consenta di riconfigurare la rete. Infatti si potrebbe pensare la rete di sensori come ad un grafo ed utilizzare delle tecniche di programmazione evolutive per far evolvere sia la topologia del grafo che la sua configurazione (vedi figura 5). In effetti si potrebbe mutuare il lavoro fatto nell’ambito delle reti neurali evolutive [17] in cui non solo i pesi vengono modificati durante l’addestramento ma anche la topologia. In tal caso i nodi sarebbero i sensori della rete mentre i pesi corrisponderebbero al posizionamento relativo degli stessi e la funzione di fitness sarebbe data dalla funzione globale di qualità di riconoscimento della rete. A tale sviluppo risulta interessante l’integrazione di tecniche di auto-organizzazione dei singoli nodi per compiere ben determinati task. Anche in questo caso l’ulteriore sviluppo di algoritmi usati nel campo della robotica per l’evoluzione comportamentale di agenti mobili [18] potrebbe fornire un interessante avanzamento della ricerca nella riconfigurazione automatica di una rete di sensori.


(a)

(b)
Figura 5: rete di sensori nella configurazione iniziale (a) e nella configurazione ottimale calcolata in seguito all'analisi delle attività nella scena monitorata (b).



Riconoscimento

Esistono in letteratura diversi algoritmi per il rilevamento di zone di movimento (blob) associabili a oggetti presenti nella scena monitorata da sensori video. Il passo successivo è quello dell’identificazione di ciò che i blob effettivamente contengono. Tale problema è di solito considerato un problema di classificazione [1,20]. Gli oggetti in movimento sono distinti in base alla forma, al colore e al movimento. La forma delle regioni in movimento può essere caratterizzata in molti modi, ad esempio attraverso contorni bidimensionali [21], silhouette [22] e rappresentazioni “scheletriche” [23]. La classificazione è condotta utilizzando un insieme di feature costituite da un mix di parametri relativi alla scena complessiva e ai singoli frame, quali ad esempio la dispersione dei blob in movimento, l’area occupata dai blob, i rapporti tra le dimensioni dei bounding box, informazioni sullo zoom, ecc. Gli oggetti in movimento possono poi essere rappresentati ad esempio come figure stilizzate [24], ellissoidi [25], ecc.
Il riconoscimento di aree corrispondenti al colore della pelle nei blob irrobustisce il processo decisionale. La rilevazione può essere effettuata in diversi spazi di colore, dall’RGB all’YUV o l’HSV.
In alcuni casi, può anche essere utile sfruttare informazioni note a priori relative alla scena: ad esempio, in un ambiente stradale un pedone si muoverà più lentamente delle automobili.
Naturalmente, la classificazione può trarre notevole vantaggio dall’utilizzo di tecniche di “data fusion” che combinano informazioni sulla forma, sul colore e sul movimento.
Per la semplice classificazione di un oggetto in movimento come persona o non-persona sono spesso preferite le reti neurali ad altri approcci.

La rappresentazione stilizzata del corpo umano è sostanzialmente costituita da una combinazione di segmenti collegati tra loro [26]. Molti movimenti riconducibili a una sequenza di movimenti dei segmenti sono efficacemente modellizzati per mezzo dei “Modelli di Markov Nascosti” (HMM) [27]. Ogni modello corrispondente a un tipico movimento del corpo si dovrà “addestrare” preventivamente tramite opportune sequenze video.
Gli approcci basati su contorni bidimensionali comprendono tra gli altri i modelli “snake” [28] e i modelli “a contorni attivi” [29].
Per la descrizione più sofisticata della persona si possono usare anche modelli tridimensionali volumetrici [30], che però sono per loro natura più esigenti dal punto di vista computazionale.
Per quanto riguarda il riconoscimento della faccia e delle mani, quasi tutte le tecniche partono con l’estrazione delle potenziali zone “pelle”, metodo questo che, pur essendo molto dipendente dalle variazioni di luminosità, riesce comunque a dare buoni risultati con una buona calibrazione. Una soluzione al problema delle variazioni di scala nei riconoscimenti basati su modelli è poi quella che utilizza strategie multirisoluzione [31].


Trasmissione dati

La comunità scientifica ha recentemente dedicato una particolare attenzione ad applicazioni legate a sistemi intelligenti distribuiti su reti come sistemi ad agenti multipli cooperanti o reti di sensori wireless [35,36].
Molti problemi nei settori della visione e delle reti di sensori sono analoghi, a partire dall’inseguimento di feature, all’associazione dati, al moto ed alla ricostruzione della traiettoria, tramite l’incrocio della ricerca in questi due campi affini l’obiettivo dell’attività di ricerca è di arrivare allo sviluppo di un sistema di sorveglianza integrato ed automatizzato su una rete di sensori a vasta scala.

L’obiettivo è di superare lo stato dell’arte affrontando temi legati alla comunicazione e all’elaborazione integrata dei dati di grandi sistemi di sorveglianza costituiti da centinaia o migliaia di telecamere e sensori [32]. Partendo da tecnologie standard di codifica e compressione video, l’informazione dei sensori verrà condivisa con i vicini per l’associazione dati e per corroborare la rilevazione di eventi anomali [33,34], e trasmessa tramite la rete per permettere la comprensione della scena ed il monitoraggio nel tempo degli eventi.
Si propone, inoltre, di distribuire l’intelligenze sui nodi della rete di sensori. Ogni nodo è rappresentato da un server video in grado di elaborare algoritmi di visione complessi per la compressione, il rilevamento, il riconoscimento e l’inseguimento.
La comunicazione sulla rete utilizzerà un linguaggio di alto livello che descrive lo stato complessivo del sistema. La rete di sensori per la sorveglianza sarà studiata come se fosse una griglia computazionale ed algoritmi di controllo ottimo verranno applicati per la gestione del trasferimento dei dati in modo che possano raggiungere i nodi di elaborazione e di visualizzazione in tempo reale.


Interfacce multimodali e usabilità

Nel settore dei sistemi interattivi sono stati proposti diversi approcci che sfruttano modelli astratti che permettono di definire le entità di supporto all’interazione, le sintassi che presiedono alla costruzione di relazioni fra di esse, e le semantiche associabili alle diverse configurazioni. Sono state definite famiglie di metamodelli per sintassi e semantica dell’interazione visiva [37,38] e un modello di riferimento per interazione multimodale [39,40] (figura 6). Esso prevede un livello fisico di sensori, in grado di integrare stimoli fisici modellabili come perturbazioni delle proprietà rilevate. Un sensore logico (interprete) traduce gli stimoli catturati dal sensore fisico in una descrizione. Un evento è definito da una configurazione di stimoli in un certo insieme strutturato di sensori, riconosciuta da un gestore di configurazioni di ingresso, che può quindi emettere una richiesta di attività verso un sistema computazionale. In maniera speculare, quando una computazione raggiunge uno stato che deve essere manifestato verso l’ambiente esterno, un gestore del coordinamento delle uscite stimola un insieme di reattori, che governa un insieme corrispondente di effettori, che governano l’alterazione di quantità fisiche in determinate regioni dello spazio. Il modello è stato esteso per incorporare aspetti di realtà virtuale o aumentata, in modo da permettere interazioni in cui sono coinvolte anche rappresentazioni di agenti software o di altri utenti. In figura 7 è mostrato un esempio di interfaccia di configurazione di un'applicazioni multimodale.


Figura 6: Architettura di riferimento per interazioni multimodali.
:
Figura 7: Esempio di interfaccia multimodale.


Per quanto riguarda la valutazione di usabilità, è stato proposto un approccio centrato sull’utente, collaborativo e basato sugli scopi per la formulazione di questionari di usabilità specifici per particolari contesti operativi [41]. Nella metodologia COFUE (COoperative Form between Users and Engineers) un campione degli utenti è attivamente coinvolto nell’analisi comparativa, basata su scenari d’uso individuati dagli utenti stessi, di applicazioni appartenenti ad una data categoria. I risultati ottenuti dagli utenti e le loro osservazioni sono utilizzati per individuare dimensioni specifiche di valutazione per il tipo di applicazioni in esame e per individuare le caratteristiche da considerare nel corso della valutazione stessa, che vanno ad integrare un questionario di usabilità di tipo generico. Le euristiche potranno essere poi utilizzate per una valutazione condotta da esperti, meno costosa degli studi su utenti. La metodologia COFUE è stata applicata alla valutazione di siti web, ma un approccio analogo è stato proposto per la valutazione di applicazioni di e-learning [42]. A questo si affianca uno studio sull'usabilità cognitiva dei sistemi visivi, basato sulla relazione fra i significati associati dall'utente e dal sistema computazionale all'insieme di immagini presentati nel corso dell'interazione [43,44,45]. <<<