Vai al contenuto| Home page|

   Ti trovi in: HOME »Programmi, progetti e risultati »I progetti »PRIN - Programmi di ricerca di Rilevante Interesse Nazionale»Programma di ricerca
INIZIO_TESTO_DA_INDICIZZARE

PROGRAMMA DI RICERCA

italiano - english
Programmi di ricerca simili:
Classificazione scientifico-disciplinare
Classificazione brevettuale
  • PHYSICS
    • SIGNALLING (indicating or display devices per se G09F; transmission of pictures H04N) [C9504]
      • SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS (signalling arrangements on vehicles B60Q, B62D41/00; railway signalling systems or devices B61L; on cycles B62J3/00, B62J6/00; safes or strong-rooms with alarm devices E05G; signalling or alarm devices in mines E21F17/18; lamps or shutters therefor F21; sensitive measuring elements, see the appropriate subclasses of G01; traffic control systems G08G; visual indicating means G09; sound-producing devices G10; radio or near-field calling systems H04B5/00, H04B7/00; selecting arrangements H04Q7/00, H04Q9/00; loudspeakers, microphones, gramophone pick-ups or like acoustic electromechanical transducers H04R) [C9504]
Classificazione geografica
Bibliografia
[1]O. Lanz, “Approximate Bayesian Multibody Tracking”, IEEE Trans on PAMI (in Press).
[2]S. Khan, M. Shah. Consistent labeling of tracked objects in multiple cameras with overlapping fields of view. IEEE Trans. on PAMI, 25(10):1355-1360, 2003.
[3]S. Calderara, R. Vezzani, A. Prati, R. Cucchiara. Entry edge of field of view for multi-camera tracking in distributed video surveillance. Proc. of IEEE Int. Conf. on AVSS, 93-98, 2005.
[4]R. Cucchiara, C. Grana, M. Piccardi, A. Prati, "Detecting Moving Objects, Ghosts and Shadows in Video Streams", IEEE Trans. on PAMI, 25(10): 1337-1342, 2003.
[5]J. Krumm, S. Harris, B. Meyers, B. Brumitt, M. Hale, S. Shafer, “Multi-camera multi-person tracking for easyliving” Proc.of IEEE Intl Workshop on Visual Surveillance, 3-10, 2000.
[6]M. Piccardi, E.D. Cheng, "Track matching over disjoint camera views based on an incremental major color spectrum histogram," Proc. of the IEEE Conference on AVSS, 147- 152, 2005.
[7]J. Kang, I. Cohen, G. Medioni, "Continuous tracking within and across camera streams". Proc. of IEEE Int'l Conf. on CVPR, Vol 1, 267-272, 2003.
[8]S.L. Dockstader , A.M. Tekalp. “Multiple camera tracking of interacting and occluded human motion”, Proc. of the IEEE, 89(10):1441-1455, 2001.
[9]A. Prati, F. Seghedoni, R. Cucchiara, "Fast Dynamic Mosaicing and Person Following", Proc. of ICPR 2006, (in Press).
[10]K. Lee, S. Ryu, S. Lee, K. Park. "Motion based object tracking with mobile camera." Electronics Letters, 34(3):256-258, 1998.
[11]J. P. Barreto, J. Batista, H. Araujo, "Model Predictive Control to Improve Visual Control of Motion: Applications in Active Tracking of Moving Targets," Proc. of 15th ICPR, 2000.
[12]I. Reid, D. Murray, "Active tracking of foveated feature clusters using affine structure." IJCV, Vol 18, 1996.
[13]B. Tordoff, D. Murray. "Reactive control of zoom while fixating using perspective and affine cameras." IEEE Trans on PAMI, Vol 26, No 1, 2004.
[14]L. de Agapito, R. Hartley, E. Hayman. "Linear calibration of a rotating and zooming camera." Proc. of CVPR, 1999.
[15]S. Sinha, M. Pollefeys. "Towards Calibrating a Pan-Tilt-Zoom Cameras Network." Proc. of OMNIVIS 2004.
[16]C.R. Wren, M. Erdem, A.J. Azarbayejani, "Automatic Pan-Tilt-Zoom Calibration in the Presence of Hybrid Sensor Networks", ACM International Workshop on VSSN,113-120, 2005.
[17]C. J. Costello, C. P. Diehl, A. Banerjee, H. Fisher, "Scheduling an active camera to observe people.", Proc. of VSSN 2004, 2004.
[18]A. Del Bimbo, F. Pernici, "Distant Targets Identification as an On-Line Dynamic Vehicle Routing Problem using an Active-Zooming Camera", Proc. of Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance, 2005.
[19]M. Ortolani, L. Gatani, G. Lo Re, A. Urso, S. Gaglio. “An efficient retransmission strategy for data gathering in wireless sensor networks”, Proc. of IEEE ETFA05, 2005.
[20]J. Aldrige, C. Gilbert. “Testing on CCTV perimeter surveillance systems. PSDB Publication, (14), 1995.
[21]M. Langheinrich, "A Privacy Awareness System for Ubiquitous Computing Environments." In: Gaetano Borriello, Lars Erik Holmquist (Eds.): 4th International Conference on Ubiquitous Computing (Ubicomp 2002), LNCS No. 2498, Springer-Verlag,.237-245, 2002.
[22]J. W. Patton, "Protecting Privacy in Public: Surveillance Technologies and the Value of Public Places." Ethics and Information Technology 2:181-187, 2000.
[23]A.W. Senior, S. Pankanti, A. Hampapur, L. Brown, Y-L Tian, A. Ekin. "Blinkering Surveillance: Enabling Video Privacy through Computer Vision." IBM Technical Report RC22886, 2003.
[24]R. Cucchiara , A. Prati, R. Vezzani , “A System for Automatic Face Obscuration for Privacy Purposes.” Pattern Recognition Letters. (in Press)
[25]P. Viola, M. Jones, "Rapid object detection using a boosted cascade of simple features." Proc of CVPR, 2001.
[26]M. Yang, D. Kriegman, N. Ahuja, "Detecting faces in images: A survey". IEEE Trans on PAMI, 24(1):34-58, 2002.
[27]E. Hjelm, B. Low, "Face detection: A survey", CVIU, 83(3):236-274, 2001.
[28]D. DeCarlo, D. Metaxas, "Optical Flow Constraints on Deformable Models with Applications to Face Tracking.", IJCV, 38(2), 99-127, 2000.
[29]R. Cucchiara, A. Prati, R. Vezzani, "Advanced Video Surveillance with Pan Tilt Zoom Cameras”. Proc. of Workshop on Visual Surveillance (VS) at ECCV 2006, 2006.
[30]X. Wu, Y. Ou, H. Qian, Y. Xu, "A detection system for human abnormal behavior," in IEEE/RSJ International Conference on Intelligent Robots and Systems, 2005. (IROS 2005), pp. 1204- 1208, 2005.
[31]R. Cucchiara, C. Grana, A. Prati, R. Vezzani, "Probabilistic Posture Classification for Human Behaviour Analysis" IEEE Trans on Systems, Man, and Cybernetics, Part A: Systems and Humans, vol 35, n. 1, 42-54, 2005.
[32]F. Cupillard, F. Bremond, M. Thonnat, "Behaviour recognition for individuals, groups of people and crowd," Intelligence Distributed Surveillance Systems, IEE Symposium on (Ref. No. 2003/10062) , 7/1- 7/5, 2003.
[33]S. Park, J. K. Aggarwal, "Semantic-level Understanding of Human Actions and Interactions using Event Hierarchy,"CVPRW 2004, Vol 1, 12, 2004
[34]M. Bertozzi, A. Broggi, A. Fascioli, A. Tibaldi, R. Chapuis, F. Chausse, "Pedestrian localization and tracking system with Kalman filtering," IEEE Intelligent Vehicles Symposium, 584- 589, 2004.
[35]F. Cupillard, F. Bremond, M. Thonnat, "Group behavior recognition with multiple cameras", Proc. of IEEE WACV, pp 177-183, 2002.
[36]D. Haussler, “Convolution Kernels on Discrete Structures”, University of California Santa Cruz, Technical Report UCSC-CRL-99-10, 1999.
[37]Z. Zhang, "Mining Surveillance Video for Independent Motion Detection," Second IEEE International Conference on Data Mining, 741, 2002.
[38]Alberto Del Bimbo, "Visual information retrieval”, Morgan Kaufmann Publishers Inc. 1-55860-624-6. 1999.
[39]C. Stauffer, E. Grimson, "Learning Patterns of Activity Using Real-Time Tracking", IEEE Trans on PAMI, 22(8):747-757, 2000.
[40]D. Buzan, S. Sclaroff, George Kollios, "Extraction and Clustering of Motion Trajectories in Video." Proc. of ICPR, Vol 2, 521-524, 2004.
[41]G. Doretto, E. Jones, S. Soatto. "Spatially homogeneous dynamic textures." Proc. ECCV, 2004.
[42]I. Haritaoglu, D. Harwood, L.S. Davis. “W4: real-time surveillance of people and their activities” IEEE Trans on PAMI, 22(8):809–830, 2000.
[43]N.M. Oliver, B. Rosario, A.P. Pentland, “Bayesian computer vision system for modeling human interactions” IEEE Trans on PAMI, 22(8):831–843, 2000.
[44]R. Cucchiara, A. Prati, R. Vezzani, L. Benini, E. Farella, P. Zappi, "An Integrated Multi-Modal Sensor Network for Video Surveillance”, Journal of Ubiquitous Computing and Intelligence, 2006 (in Press).
[45]E. Ardizzone, M. La Cascia, G. Lo Re, M. Ortolani, “An Integrated Architecture for Surveillance and Monitoring in an Archaeological Site”, 3rd ACM International Workshop on VSSN, 79-86, 2005.
[46]R. Cucchiara, A. Prati, L. Benini, E. Farella, "T_PARK: Ambient Intelligence for Security in Public Parks" Proc. of IEE International Workshop on IE, 243-251, 2005.
[47]P. Zappi, E. Farella, L. Benini "A PIR based wireless sensor node prototype for surveillance applications" Proc. of European Workshop on Wireless Sensor Networks, 2006.
[48]Y. Wang, E.Y. Chang, K.P. Cheng, “A video analysis framework for soft biometry security surveillance.” Proc. of ACM VSSN 2005.
[49]R. Cucchiara, "Multimedia Surveillance Systems" Proc. of ACM VSSN, 3-10, 2005.
[50]M. La Cascia, S. Sclaroff, V. Athitsos, "Fast, Reliable Head Tracking under Varying Illumination: An Approach Based on Registration of Texture-Mapped 3D Models," IEEE Trans. on PAMI, 22(4), 322-336, 2000.
[51]A. Prati, I. Mikic, M.M. Trivedi, R. Cucchiara, "Detecting Moving Shadows: Algorithms and Evaluation" IEEE Trans. on PAMI, 25(7), 918-923, 2003.
[52]W. Nunziati, J. Alon, S. Sclaroff, A. del Bimbo, “View registration using interesting segments of planar trajectories”, Proc. IEEE Conf. on AVSS 2005, 75–80, 2005.
Parole Chiave
VISIONE ARTIFICIALE, VIDEO SORVEGLIANZA, RICONOSCIMENTO DI FORME, INSEGUIMENTO DI PERSONE, RILEVAMENTO E RICONOSCIMENTO DI PERSONE, RICONOSCIMENTO DI EVENTI, TELECAMERE ATTIVE, RETI DI SENSORI WIRELESS, RAGIONAMENTO LOGICO

FREE SURF: FREE SUrveillance in a pRivacy-respectFul way

Università degli Studi di Modena e Reggio Emilia
Abstract
Free Surf si propone come un paradigma per sistemi di video sorveglianza di nuova generazione, svincolati dal controllo di operatori umani, e completamente rispettosi della privacy. Il supporto tecnologico sarà dato da soluzioni emergenti di ingegneria informatica sia nelle architetture di sistemi di elaborazione di video in tempo reale sia in tecniche innovative di Visione Artificiale e di Pattern Recognition. La maggior parte dei sistemi in commercio si preoccupano solo dell’acquisizione di video e loro visualizzazione in centri di controllo. I sistemi più innovativi già sfruttano alcune tecniche semplici di visione artificiale, per individuare la presenza di moto, ma con molti vincoli strutturali e tecnologici, come l’installazione solo di telecamere fisse, con calibrazione manuale, la modellazione estremamente semplificata di target, e soprattutto l’assenza di capacità inferenziale e di interpretazione della scena che rendono necessaria la costante presenza di operatori umani. I sistemi di “free surveillance” si propongono di superare questi vincoli tecnologici, creando nuovi sistemi automatici che siano anche socialmente accettabili, essendo perfettamente coerenti con le norme vigenti sulla privacy.

Questo progetto si propone di realizzare soluzioni innovative per individuare la presenza umana in modo automatico elaborando video acquisiti in tempo reale. Tecniche originali e robuste verranno applicate in installazioni libere da vincoli strutturali, ed in particolare in sistemi con più telecamere distribuite (fisse, PTZ e mobili) e coordinate con reti di sensori. I dati visuali sulle persone serviranno per riconoscere alcune situazioni modellabili con tecniche statistiche e di apprendimento automatico al fine di generare allarmi in situazioni pericolose. Tecniche di “information retrieval” basate sul contenuto visuale saranno impiegate per riconoscere occorrenze delle stesse persone o di situazioni simili in video acquisiti in tempi diversi e da telecamere differenti, fornendo così strumenti efficaci per il supporto ad indagini o all’analisi a posteriori. Tecniche di individuazione del volto saranno impiegate per estrarre ed eliminare dati biometrici dai video in tempo reale. In questo modo, tali sistemi potranno anche essere utilizzati per trasmettere su web informazioni sull’ambiente che ci circonda senza trasmettere dati sensibili per la privacy. Potranno perciò essere installati in luoghi pubblici in modo socialmente ben tollerabile, senza cadere nella sindrome da “grande fratello”.

Queste proposte estremamente innovative non rappresentano solo attività di ricerca teorica, ma saranno concretamente realizzate in prototipi funzionanti nei due anni del progetto. Lo garantisce innanzitutto la composizione del gruppo di proponenti: le tre UR da anni svolgono attività nell’ambito della visione artificiale e della pattern recognition, estremamente riconosciuta sia in Italia sia all’estero, in stretta collaborazione con i più importanti centri di ricerca internazionali. Il progetto ha una forte rilevanza nazionale perchè permetterà di sviluppare anche in Italia, in modo coordinato e sinergico, ricerca sulla visione artificiale, ricerca che deve essere condotta da una certa massa critica per mantenere eccellenza internazionale. Inoltre il consorzio formatosi ha unito anche centri extra-universitari che lavorano nel settore, come l’ICT–iRST di Trento, che pur non essendo finanziabili, sono interessati a collaborare al progetto, e, cosa estremamente importante, ha trovato il supporto e l’interessamento di aziende ed enti pubblici che vogliono poter sfruttare direttamente i risultati dell’attività. Il progetto ha forti implicazioni di innovazione e di impatto sociale e può fornire un immediato trasferimento tecnologico alle aziende che già collaborano con le UR del progetto o che hanno fornito manifestazioni di interesse per le nuove soluzioni di video sorveglianza automatica. <<<

Coordinatore Scientifico del Programma di Ricerca
Rita Cucchiara Università degli Studi di MODENA e REGGIO EMILIA
Obiettivo del Programma di Ricerca
Il progetto FREE SURF ha lo scopo di proporre nuove tecnologie per le future generazioni di sistemi di video sorveglianza orientati al controllo automatico e in tempo reale della presenza e delle azioni dell’uomo nell’ambiente, senza il diretto controllo dell’operatore umano. Il progetto FREE SURF è nato con un duplice obiettivo: di ricerca scientifica innovativa nel campo della Visione Artificiale e della Pattern Recognition e di ricerca applicata, propria dell’Ingegneria Informatica, per la realizzazione di nuove generazioni di sistemi di video sorveglianza efficaci, ma nello stesso tempo accettabili socialmente per i problemi di privacy.

Il primo obiettivo è un’attività di ricerca scientifica per il controllo in tempo reale delle persone in sistemi “structural constraint FREE” cioè liberi da vincoli strutturali e ambientali.
Il controllo visivo automatico della presenza e delle azioni umane in un ambiente è infatti uno dei problemi più studiati nell’ultimo decennio. Esiste attualmente una vastissima letteratura che presenta algoritmi ed implementazioni robuste per il riconoscimento di singole persone in video acquisiti in ambienti strutturalmente vincolati: ambienti chiusi con illuminazione controllata, aperti con larghi campi di vista (per considerare le persone come piccoli corpi rigidi in movimento), con poche persone e solo parzialmente occluse e controllate da telecamere fisse (per segmentare gli oggetti come differenza dallo sfondo) e installate con una precisa calibrazione manuale (per un’esatta ricostruzione 3D).

Lo scopo principale del progetto è di studiare metodologie e tecniche innovative per andare oltre: si vuole lavorare in ambienti liberi da vincoli strutturali, in ambienti con più persone che vivono e interagiscono tra loro, come nei parchi o in zone turistiche.

Le attività previste si rivolgono a forme di cattura ed elaborazione di dati visuali da sistemi distribuiti di telecamere, da sistemi ibridi con telecamere attive capaci di orientarsi automaticamente sul target, da telecamere mobili e coordinate a reti di sensori. Saranno studiati nuovi algoritmi ed implementati prototipi per la segmentazione ed il tracking nel tempo di persone riprese da più telecamere autocalibrate, impiegando informazioni geometriche e di apparenza (colore e texture). Saranno sviluppate metodologie per il controllo di telecamere attive e di mosaicatura dell’ambiente da telecamere in movimento. Saranno sperimentate tecniche di comunicazione tra agenti mobili per il coordinamento di telecamere e reti di sensori in ambienti molto estesi come ad esempio i siti archeologici. Queste tecniche saranno implementate in moduli separati dalle diverse UR, ma coordinate in un’unica architettura per fornire un’interfaccia comune per i moduli di ragionamento (Figura 1).


Figura 1.

Tutti i moduli precedenti hanno il comune scopo di estrarre dati visuali sulle persone nella scena. In particolare, ci si rivolgerà al calcolo delle traiettorie con invarianti indipendenti dal punto di vista, all’analisi della postura delle persone e a dati di “soft biometry”. A differenza di progetti che riguardano l’analisi biometrica, il progetto FREE SURF si orienta ad un’analisi visuale automatica della presenza e del comportamento delle persone indipendentemente dalla loro identità, identità che certo non è sempre definibile in video rumorosi, a bassa risoluzione e con vasti campi visivi come quelli dei sistemi distribuiti di video sorveglianza. A ulteriore supporto, però, sistemi ibridi con telecamere PTZ (Pan, Tilt, Zoom) e in movimento possono fornire, se necessario, informazioni più dettagliate che potranno essere impiegate in “posterity logging” dagli addetti al controllo.
I dati visuali saranno forniti a moduli per attività complementari: per monitorare situazioni pericolose in tempo reale e per annotare situazioni di interesse per future interrogazioni off-line. Il primo tipo è di interesse strategico per coadiuvare l’operatore umano nella prevenzione e nell’alta reattività a fatti che riguardano la sicurezza, il secondo vuole offrire un valido supporto alle indagini successive ad eventi criminosi. Queste soluzioni potranno rendere efficaci in modo preventivo i tanti sistemi di sorveglianza ora installati.
Il secondo obiettivo del progetto è di definire nuove soluzioni per rispondere adeguatamente alle esigenze sociali di salvaguardia della sicurezza pubblica e personale con soluzioni che nascono da criteri rispettosi della privacy. L’Italia, come il mondo intero, si sta ricoprendo di telecamere, installate ovunque. Ciò non costituirebbe un problema sociale se queste fossero solo sensori intelligenti, come ad es. i sensori antincendio, capaci esclusivamente di elaborare video e di generare allarmi. Il disagio sociale nasce dal fatto che dietro ad ogni telecamera c’è potenzialmente un operatore umano che controlla, ledendo la privacy dell’individuo. Mentre è accettabile l’uso di telecamere da parte delle forze dell’ordine per la sicurezza in luoghi pubblici, meno tollerabile è la diffusione di sistemi a circuito chiuso da parte di privati, centri commerciali, o addirittura la diffusione attraverso webcam della vita in luoghi pubblici di interesse turistico. Le vigenti leggi della privacy sono giustamente molto restrittive, ma attualmente non c’è mezzo tecnologico per garantire che tali leggi vengano rispettate: molti dei sistemi ora installati, che non forniscono alcuna elaborazione del video, o non soddisfano le leggi vigenti o sono di fatto inutilizzabili ed usati solo come deterrente alla criminalità dato che dichiarano di avere una risoluzione così bassa e un campo di vista così ampio da impedire l’individuazione dell’identità.
Lo scopo del progetto è invece quello di fornire strumenti automatici per l’estrazione delle informazioni visuali sulle persone che possano da una parte essere impiegate in sistemi autorizzati per il monitoraggio automatico ma che dall’altro possano essere impiegati per garantire l’eliminazione di dati biometrici e quindi la compatibilità con le leggi sulla privacy. In particolare, algoritmi robusti di tracciamento delle persone e di riconoscimento della testa o del volto potranno servire per oscurare i dati biometrici in tempo reale.

Gli obiettivi indicati nel progetto sono certo ambiziosi ma attuabili nella durata del progetto. Malgrado la richiesta contenuta di finanziamento al MIUR, le UR hanno messo a disposizione molti mesi uomo di persone che già lavorano nel settore e possono avvalersi di risorse già esistenti nei laboratori dell’Università, sia dal punto di vista hardware che software. Il consorzio dei proponenti è composto da 3 UR molto attive a livello nazionale, soprattutto nell’ambito del GIRPR (www.girpr.it): tutte e tre le UR hanno organizzato sia la Conferenza Internazionale del GIRPR (ICIAP), sia la scuola per dottorandi (VISMAC) che si sono tenute/si terranno a Firenze, Palermo e Modena, negli anni 1999, 2001 e 2007 (ICIAP) e 1992, 2006 e 2000 (VISMAC). Sono molto attive a livello internazionale, con frequenti scambi di dottorandi e ricercatori con centri di ricerca americani e non (come l'University of Technology, Sydney, Australia), e hanno diversi progetti in corso nel settore.

Un aspetto estremamente peculiare del progetto è che esso ha già contribuito alla nascita di una rete di espressioni di interesse e di collaborazione. In particolare l’ICT-iRST di Trento, uno dei centri non universitari di punta nella video sorveglianza, partecipa esternamente, mentre aziende di rilevanza nazionale come SIRTI ed ALCATEL hanno indicato la loro espressione di interesse (si vedano allegati 1 e 2). Enti pubblici come la Regione Emilia Romagna (allegato 3) e il Parco Valle dei Templi di Agrigento (allegato 4) hanno dichiarato l’interesse al progetto come utilizzatori finali.


All. 1


All. 2


All. 3


All. 4 <<<
Durata
24 mesi
Base di partenza scientifica nazionale o internazionale
L’analisi di video in tempo reale e l’estrazione automatica di informazioni sulla presenza, la localizzazione e l’inseguimento (“tracking”) delle persone nella scena e’ un campo di ricerca intrinsecamente complesso, con molti problemi aperti ancora non risolti a livello mondiale. La video sorveglianza delle persone ed delle loro azioni ( “human action control”) e’ infatti uno degli argomenti più dibattuti nell’ambito della ricerca della Visione artificiale, della Pattern recognition e del Multimedia. Il primo numero speciale di rilevo sull’argomento risale al 2000 sulla rivista più prestigiosa del settore, l’IEEE Transaction on PAMI, dove vennero presentati i primi sistemi di video sorveglianza, proposti dall’MIT, con il metodo di eliminazione del background [39] ancor oggi di riferimento del settore, dal Maryland (W4)[42], da Pentland [43].
L’interesse attuale è testimoniato dalle numerosissime conferenze del settore che ospitano lavori dell’area (CVPR, ICCV, ECCV, ICPR) o che sono dedicate alla video sorveglianza: in particolare si ricordano l’IEEE Int. Conf. on Advanced Video Surv. Systems, l’IEEE Workshop. on Video Surveillance e l’ACM Workshop on Video Surveillance and Sensor Networks.

Le difficoltà intrinseche della video-sorveglianza di persone nascono da diversi fattori quali la forma percettivamente variabile del corpo umano, il suo moto non rigido, la postura e l’andatura variabile, la presenza di più persone in un ambiente che si occludono e interagiscono tra loro, la presenza nell’ambiente di sovrastrutture fisse e mobili (come porte e mobili all’interno o veicoli, alberi e arredo urbano all’esterno), problemi di illuminazione ed ombre [51]. Per questo, soluzioni di ricerca già consolidate e disponibili anche sul mercato, come quelle di sorveglianza di veicoli su strada, non sono sempre applicabili con successo. A livello di ricerca, in passato sono già state proposte alcune soluzioni efficaci nel caso della sorveglianza di singole persone da singole telecamere fisse [4], e possibilmente calibrate, ossia in situazioni estremamente vincolate, ma solo negli ultimi due anni sono stati presentate proposte per sistemi svincolati, con più telecamere e in movimento.

Il progetto FREE SURF vuole effettivamente studiare soluzioni innovative in sistemi liberi da vincoli strutturali, con telecamere distribuite, non calibrate, ibride e mobili e coordinate a reti di sensori. I dati visuali estratti da tali sistemi multi-modali, verranno impiegati in tre diverse applicazioni, per l’oscuramento in tempo reale di dati biometrici, per il monitoraggio in tempo reale di eventi di interesse legati alla sicurezza e per l’analisi e il recupero di informazioni a posteriori.

Su questi argomenti, che corrispondono ai moduli del progetto come indicato nella Fig.1 viene ora descritta la base di partenza scientifica.

1) Estrazione di dati di sorveglianza di persone da telecamere fisse distribuite, mobili, sistemi ibridi di telecamere fisse e mobili , sistemi coordinati con reti di sensori.
Sensori visuali come le telecamere permettono di estrarre una quantità di informazioni sulla sorveglianza superiore ad ogni altro tipo di sensore, ma tecniche di elaborazione del video in modo automatico e robusto in ogni condizione e in ambienti non strutturati, sono ben lungi dall’essere disponibili. In particolare le difficoltà sono legati alle estrazioni di informazioni visuali sulle persone presenti sulla scena. Tra i vari problemi, questo progetto si concentrerà su 3 importanti argomenti: mantenere consistenza tra viste diverse ottenute da telecamera diverse, cioè rilevare che la stessa persona si sta spostando da una telecamera ad un’altra; riuscire a segmentare ed inseguire una persona con una singola telecamera in movimento, sia essa parzialmente vincolata (PTZ - pan-tilt-zoom) o completamente mobile; ottenere queste informazioni in un sistema ibrido in cui siano coordinate le telecamere mobili con quelle fisse.
Nel primo caso, si parla di “consistent labeling” e lo scopo è di mantenimento delle corrispondenze tra le diverse viste di uno stesso soggetto e la loro correlazione. Gli approcci presenti in letteratura possono dividersi in tre classi: metodi di tipo geometrico senza sfruttare la calibrazione come nel lavoro di Lanz [1], che però risulta poco robusto alle occlusioni, o sfruttando calibrazioni automatiche tramite fase di learning come nel lavoro di Khan e Shah [2] e di Calderara et al. [3]); metodi basati sull’apparenza (utilizzando informazioni sul colore, codificato mediante istogrammi, come da Krumm et al. in [5], o tramite componenti spettrali principali, come proposto da Piccardi e Cheng in [6]); approcci di tipo misto combinando informazioni di tipo visuale a vincoli geometrici (Kang et al. [7], Dockstader e Tekalp [8]). Nel progetto verranno proposte soluzioni miste, collegando lavori come [1] e [3], per telecamere parzialmente sovrapposte e per telecamere disgiunte.
A differenza del caso precedente dove la complessità è più legata al tracking che alla segmentazione quando il video è acquisito mediante una telecamera in movimento libero la segmentazione degli oggetti in movimento diventa un problema estremamente critico. I metodi presenti in letteratura si possono dividere in due grandi classi: stima dell'ego-motion (come nell’approccio di Kang et al. [7] che utilizza un modello affine per la compensazione, o l’approccio di Prati et al. [9] adattato a sistemi con telecamere PTZ) o mediante metodi di clustering sui vettori di moto (come in Lee et al. [10]).
Per quanto riguarda sistemi ibridi, è possibile individuare diversi aspetti su cui la ricerca si concentra attualmente, i più importanti dei quali sono: inseguimento “attivo” di oggetti o persone; la calibrazione di telecamere PTZ; pianificazione ottima dei movimenti della telecamera PTZ. Il primo aspetto riguarda il problema di comandare i motori della telecamera per mantenere un soggetto in movimento al centro dell'immagine (Barreto et al. [11], Reid e Murray [12], Tordoff e Murray [13]). Tipicamente, il problema è risolto utilizzando un controllo guidato dal contenuto immagine (rappresentata attraverso la stima del flusso ottico) e dalla conoscenza ottica e meccanico/elettrica dell'attuatore del dispositivo PTZ. Per quanto riguarda la calibrazione geometrica delle telecamere PTZ, il problema è il cambiamento della lunghezza focale (che cambia i parametri intrinseci) ed eventualmente lo spostamento del centro ottico (che modifica i parametri estrinseci). I metodi proposti in letteratura si sono concentrati finora sull’estrazione dei parametri intrinseci (de Agapito et al. [14], Sinha e Pollefeys [15], Wren et al. [16]). Infine, per pianificazione ottima si intende il problema della determinazione di quale telecamera può intercettare prima un dato soggetto e quindi pianificare i movimenti di una telecamera attiva in situazioni in cui siano presenti numerosi soggetti da osservare (inizialmente studiato da Costello et al. [17], poi migliorato in Del Bimbo e Pernici [18]).

Per la sorveglianza di larghi ambienti come siti archeologici [45] o stazioni e parchi [46], l’impiego di sole telecamere non è economicamente fattibile. L’impiego di soluzioni coordinate con reti di sensori wireless (WSN) [44] a basso costo può essere estremamente interessante. Una rete di sensori può essere considerata alla stregua di un database distribuito in cui i sensori sono responsabili della raccolta e della disseminazione delle informazioni ed infine della presentazione delle stesse all'utente finale. La differenza più rilevante tra WSN e reti tradizionali è rappresentata dalla loro limitata riserva di energia; poiché l'utilizzo tipico di tali sensori richiede che essi operino in siti ostili in cui non si prevede intervento umano diretto dopo il montaggio, un obiettivo tipico di progetto è appunto la massimizzazione del tempo di vita della rete o, in altre parole, la minimizzazione di ogni possibile spreco di energia, mantenendo al contempo la robustezza e l'efficienza della rete[47].
Il presente progetto propone l'uso di due diverse piattaforme di nodi sensori, la prima orientata applicazioni a basso costo e con vincoli sull'uso delle risorse, costituita dai tipici motes, e la seconda, costituita dai cosiddetti nodi microserver, adatta per compiti a maggiori prestazioni o per il coordinamento dei motes. I microserver sono in generali più efficienti se vengono effettivamente utilizzati per elaborare dati, ma è più costoso mantenere le loro radio e i processori in modalità inattiva. Essi possono in particolare funzionare in congiunzione con delle telecamere, la cui azione sarà anche guidata da nodi sensori come spiegato in seguito. Per quanto riguarda l'inoltro dei dati attraverso i nodi, il lavoro proposto in Ortolani et el. [19] presenta una nuova strategia di raccolta dei dati su reti di sensori che tiene conto sia delle esigenze di risparmio energetico che di un ragionevole compromesso tra robustezza ed efficienza.

2) selezione ed eliminazione automatica dei dati biometrici non rispettosi della privacy;

Mentre è molto sviluppato nei paesi anglosassoni, in Italia non c’è forte collaborazione tra dipartimenti tecnologici e gli enti governativi e legislativi per la normativa della tecnologia legata alla privacy. Mentre la normativa è ben definita (si veda il decalogo della video sorveglianza (DL. 29 aprile 2004), o la norma per gli stadi (S.M. 6 luglio 2005))., non esistono norme attrattive e documentazioni tecniche per avere chiare indicazioni su fino a che punto un dato visuale si possa ritenere lesivo della privacy del cittadino e quando invece non è pericoloso. Un esempio di tale documentazione è quello fornito dalla Polizia inglese [20] . In questo progetto, ci si occuperà di fornire indicazioni standard, sulla correlazione tra risoluzione ed identificazione e sulla definizione di sistemi di video-sorveglianza rispettosi della privacy in modo nativo anche grazie al confronto con enti di ordine pubblico con cui sono già attive collaborazioni. Ci si avvarrà poi dei risultati ottenuti in diversi studi sociologici sull'impatto delle tecnologie di sorveglianza (come riportato da Langheinrich in [21] e Patton in [22]), che sottolineano l'importanza del considerare parte dell'efficacia del sistema la sua capacità di non essere intrusivo rispetto alla privacy. Un modo naturale di raggiungere tale obiettivo, consiste nell'utilizzare tecniche di visione artificiale per offuscare i volti degli individui nella scena (come proposto in Senior et al. in [23] o in Cucchiara et al. [24]). La letteratura esistente propone vari algoritmi per il rilevamento e l’inseguimento dei volti (Viola e Jones [25], Yang et al. [26], Hjelm and Low [27]). Alcune di queste tecniche possono essere impiegate in tempo reale facendo il tracking del volto stesso (come in DeCarlo e Metaxas [28], in Cucchiara et al. [29] e in Cucchiara [49]), anche in caso di cambiamenti repentini di luminosità [50].

3) individuazione e monitoraggio in tempo reale di eventi di interesse;

Le informazioni visuali estratte permettono un'ulteriore analisi di più alto livello al fine di determinare eventi e situazioni di interesse. In letteratura sono presenti diversi approcci che mirano alla classificazione del comportamento dei soggetti monitorati. In Wu et al. [30] gli eventi anormali vengono identificati tramite un Support Vector Machine (SVM). In Cucchiara et al. [31] un metodo basato su Hidden Markov Model permette l'analisi di postura e il riconoscimento di cadute a terra di persone in ambienti sorvegliati. Altri esempi di modellazione dei comportamenti in scene riprese da singola telecamera sono Cupillard et al. in [32], Park e Aggarwal in [33], Bertozzi et al. [34]. Campo, invece, ancora molto da esplorare è quello dell'analisi e il rilevamento di eventi di interesse in sistemi multicamera (Cupillard et al. [35]). Un approccio innovativo è quello basato su tecniche di machine learning innovative come i recenti kernel sequence-matching PHMM collegati a Support Vector Machines (SVM) [36].

4) posterity logging e retrieval di informazioni

Per finire, l’ ultimo modulo si occuperà dello studio di tecniche di annotazione di eventi sulle informazioni registrate, in modo da poter eseguire ricerche su basi di dati ottenute in lunghi periodi (Zhang [37]). Tali tecniche di analisi sono utilizzate da tempo nell'ambito delle ricerche su documenti testuali, e il loro adattamento ai contenuti visuali è oggetto di numerosi studi da alcuni anni. La ricerca nel recupero visuale per contenuto su dati multimediali è matura e la letteratura è molto vasta. Il testo sul Multimedia Retrieval di Del Bimbo [38] è uno dei lavori di riferimento mondiali sull’argomento. Ciononostante non molti sono i lavori che indirizzano applicazioni di retrieval legate alla video sorveglianza, e men che meno a sorveglianza con sistemi di telecamere distribuite, dove oltre alla grande quantità di dati da esplorare non è ben chiaro quale feature visuale impegare come chiave di ricerca. Un approccio adottato è quello di utilizzare tecniche di apprendimento non supervisionato sulle traiettorie acquisite in un periodo di tempo più o meno lungo (Stauffer e Grimson [39], Buzan et al. [40]). In situazioni molto complesse quali all'interno di una stazione della metropiltana, questi approcci non sono utilizzabili, quindi sono stati proposti approcci basati su risultati ottenuti per l'analisi delle cosiddette dynamic textures (Doretto et al. [41]). Questi metodi saranno impiegati ed integrati con informazioni di soft- biometry [48] ed in particolare di invarianti di traiettorie [52]. <<<