Vai al contenuto| Home page|

   Ti trovi in: HOME »Programmi, progetti e risultati »I progetti »PRIN - Programmi di ricerca di Rilevante Interesse Nazionale»Programma di ricerca»Unità di ricerca
INIZIO_TESTO_DA_INDICIZZARE

UNITA' DI RICERCA

italiano - english
Bibliografia
Adams, W.J., Banks, M.S., & van Ee, R. (2001). Adaptation to three-dimensional distortions in human vision. Nature Neuroscience, 4, 1063-1064.

Alais, D., & Burr, D. (2004). The ventriloquist effect re-sults from near-optimal bimodal integration. Current Biology, 14, 257-262.

Atkins, J.E., Fiser, J., & Jacobs, R.A. (2001). Experience-dependent visual cue integration based on consistencies between visual and haptic percepts. Vision Research, 41, 449-461.

Backus, B.T., Banks, M.S., van Ee, R., & Crowell, J.A. (1999). Horizontal and vertical disparity, eye position, and stereoscopic slant perception. Vision Research, 39, 1143-1170.

Bradshaw, M. F., Parton, A. D., & Glennerster, A. (2000). The task-dependent use of binocular disparity and motion parallax information. Vision Research, 40, 3725-3734.

Bulthoff, H. H. & Mallot, H. A. (1988). Integration of depth modules: stereo and shading. Journal of the Optical Society of America, A, 1749-1758.

Bulthoff, H. H. & Mallot, H. A. (1990). Integration of stereo, shading and texture. In AI and the Eye. A. Blake and T. Troscianko, ed. Chicester: Wiley and Sons.

Blaser, E., & Domini, F. (2002). The conjunction of feature and depth information. Vision Research, 42, 273-279.

Bradshaw, M.F. & Rogers, J.R. (1996). The interaction of binocular disparity and motion parallax in the computation of depth. Vision
Research, 36, 3457-68.

Brenner, E., & Landy, M.S. (1999). Interaction between the perceived shape of two objects. Vision Research, 39, 3834-3848.

Bruno, N., & Cutting, J.E. (1988). Minimodularity and the perception of layout. Journal of Experimental Psychology: General, 117, 161-170.

Caudek, C., & Domini, F. (1998). Perceived orientation of axis of rotation in structure-from-motion. Journal of Experimental Psychology: Human Perception and Performance, 24, 609-621.

Caudek, C., & Proffitt, D.R. (1993). Depth perception in motion parallax and stereokinesis. Journal of Experimental Psychology: Human Perception and Performance, 19, 32-47.

Caudek, C., & Rubin, N. (2001). Segmentation in structure from motion: modeling and psychophysics. Vision Research, 41, 2715-2732.

Caudek, C., Domini, F., & Di Luca, M. (2002a). Illusory 3-D rotation induced by dynamic image shading. Perception & Psychophysics, 64, 366-379.

Caudek, C., Domini, F., & Di Luca, M. (2002b). Short-term temporal recruitment in structure from motion. Vision Research, 42, 1213-1223.

Clark, J.J. & Yuille, A.L. (1990). Data fusion for sensory information processing systems. Kluwer Academic Publishers, Boston.

Cutting, J.E., Bruno, N., Brady, N.P., & Moore, C. (1992). Selectivity, scope, and simplicity of models: a lesson from fi¯tting judgments of perceived depth. Journal of Experimental Psychology: General, 121, 364-381.

Domini, F., & Caudek, C. (1999). Perceiving surface slant from deformation of optic flow. Journal of Experimental Psychology: Human
Perception and Performance, 25, 426-444.

Domini, F., & Caudek, C. (2003a). Recovering slant and angular velocity from a linear velocity field: modeling and psychophysics. Vision Research, 43, 1753-1764.

Domini, F., & Caudek, C. (2003b). 3-D structure perceived from dynamic information: a new theory. Trends in Cognitive Sciences, 7, 444-449.

Domini, F., Blaser, E., & Cicerone, C.M. (2000). Color-specfic depth mechanisms revealed by a color-contingent depth aftereffect. Vision Research, 40, 359-364.

Domini, F., Caudek, C., Turner, J., & Favretto, A. (1998). Discriminating constant from variable angular velocities in structure
from motion. Perception & Psychophysics, 60, 747-760.

Domini, F., Caudek, C., & Proffitt, D.R. (1997). Misperceptions of angular velocities influence the perception of rigidity in the kinetic depth effect. Journal of Experimental Psychology: Human Perception and Performance, 23, 1111-1129.

Domini, F., Caudek, C., & Richman, S. (1998). Distortions of depth-order relations and parallelism in structure from motion. Per-
ception & Psychophysics, 60, 1164-1174.

Domini, F., Caudek, C., & Skirko, P. (2003). Temporal integration of motion and stereo cues to depth. Perception & Psychophysics, 65, 48-57.

Domini, F., Vuong, Q.C., & Caudek, C. (2002). Temporal integration in structure from motion. Journal of Experimental Psychology:
Human Perception and Performance, 28, 816-838.

Ernst, M. O., & Banks, M. S. (2002). Humans integrate visual and haptic information in a statistically optimal fashion. Nature, 415, 429-433.

Ernst, M.O., Banks, M.S., & Bulthoff, H.H. (2000). Touch can change visual slant perception. Nature Neuroscience, 3, 69-73.

Fernandez, J.M., Watson, B., & Qian, N. (2002). Computing relief structure from motion with a distributed velocity and disparity
representation. Vision Research, 42, 883-898.

Hillis, J.M., Ernst, M.O., Banks, M.S., & Landy, M.S. (2002). Combining sensory information: mandatory fusion within, but not between, senses. Science, 298, 1627-1630.

Hillis, J.M., Watt, S.J., Landy, M.S. & Banks, M.S. (2004) Slant from texture and disparity cues: optimal cue combination. Journal of Vision, 4, 967-992

Jacobs, R.A. (1999). Optimal integration of texture and motion cues to depth. Vision Research, 39, 3621-3629.

Jacobs, R.A. (2002). What determines visual cue reliability? Trends in Cognitive Sciences, 6, 345-350.

Jacobs, R.A., & Fine, I. (1999). Experience-dependent integration of texture and motion cues to depth. Vision Research, 39, 4062-4075.

Johnston, E.B. (1991). Systematic distortions of shape from stereopsis. Vision Research, 31, 1351-1360.

Johnston, E.B., Cumming, B.G., & Landy, M.S. (1994). Integration of stereopsis and motion shape cues. Vision Research, 34, 2259-
2275.

Johnston, E.B., Cumming, B.G. & Parker, A.J. (1993). Integration of depth modules: stereopsis and texture. Vision Research, 33,
813-826.

Kersten, D., & Yuille, A. (2003). Bayesian models of object perception. Current Opinion in Neurobiology, 13,150-158.

Knill, D. C., & Saunders, J. A. (2003). Do humans opti-mally integrate stereo and texture information for judgments of surface slant? Vision Research, 43, 2539-2558.

Landy, M. S., & Kojima, H. (2001). Ideal cue combination for localizing texture-defined edges. Journal of the Optical Society of America A, 18, 2307-2320.

Landy, M.S., Maloney, L.T., Johnston, E.B., & Young, M. (1995). Measurement and modeling of depth cue combination: in defense of weak fusion. Vision Research, 35, 389-412.

Lappin, J.S., & Craft, W.D. (1997). Definition and detection of binocular disparity. Vision Research, 37, 2953-2974.

Mather, G., & Smith, D.R. (2000). Depth cue integration: stereopsis and image blur. Vision Research, 40, 3501-3506.

Nawrot, M, & Blake, R. (1989). Neural integration of information specifying structure from stereopsis and motion. Science, 244, 716-
718.

Poom, L., & Borjesson, E. (1999). Perceptual depth synthesis in the visual system as revealed by selective adaptation. Journal of
Experimental Psychology: Human Perception and Performance, 25, 504-517.

Schrater, P. & Kersten, D. (1999). Statistical structure and task dependence in visual cue integration. Proceedings of the IEEE Workshop
on Statistical and Computational Theories of Vision, Ford Collins, CO, June, 1999.

Schrater, P. & Kersten, D. (2000). How optimal depth cue integration depends on the task. International Journal of Computer Vision, 40,
73-91.

Tittle, J.S., & Braunstein, M.L. (1993). Recovery of 3-D shape from binocular disparity and structure from motion. Perception & Psychophysics, 54, 157-169.

Triesch, J., Ballard, D.H., & Jacobs, R.A. (2002). Fast temporal dynamics of visual cue integration. Perception, 31, 421-434.

Young, M.J., Landy, M.S., & Maloney, L.T. (1993). A perturbation analysis of depth perception from combinations of texture and mo-
tion cues. Vision Research, 33, 2685-2696.

Programma di ricerca

Integrazione delle informazioni nel sistema visivo: modelli computazionali dei processi sensoriali e decisionali
Università di riferimento
Università degli Studi di TRIESTE - PSICOLOGIA - TRIESTE(TS)
Responsabile dell'Unità di ricerca
Corrado CAUDEK
Descrizione
Il modello MWF ha due limiti: (i) non specifica com il processo di 'promozione' (cue promotion) possa garantire una soluzione euclidea veridica per ciascun cue in isolamento, come ipotizzato dal modello -- la prestazione percettiva non è necessariamente veridica neppure in situazioni 'ecologicamente ottimali' (Bradshaw, Parton, & Glennerster, 2000; Cuijpers, Kappers, & Koenderink, 2000; Loomis et al., 1992; Loomis, & Philbeck, 1999; Norman, Lappin, & Norman, 2000); e (ii) il processo di 'riponderazione dinamica' (dynamic cue reweighting) (secondo cui il peso assegnato a ciascun cue dipende dagli altri cue presenti nella scena) non è sufficientemente specificato, lasciando così irrisolto il problema di come vengono combinate le diverse stime 3D.

Viene qui proposto un diverso approccio secondo il quale i diversi segnali non vengono analizzati in maniera separata gli uni dagli altri, ma piuttosto vengono considerati congiuntamente in modo tale da definire una dimensione soggiacente a partire dalla quale la forma 3D possa essere direttamente recuperata. In base alla presente proposta, la derivazione percettiva della forma 3D segue un processo a due stadi:

(i) uno spazio multidimensionale di segnali input viene trasformato in un manifold unidimensionale; da questo manifold soggiacente viene poi derivata la struttura affine dell'oggetto distale;

(ii) all'interno dello spazio affine, una soluzione euclidea viene trovata tramite un processo di massima verosimiglianza.

In generale, esiste una forte covariazione tra i segnali di profondità 2D, dovuta al fatto che i diversi cue sono generati dalle stesse proprietà 3D. Si consideri il caso di un osservatore in movimento che mantiene la fissazione su un oggetto. La proiezione dell'oggetto produce un pattern di velocità retiniche e un pattern di disparità. Per semplicità, consideriamo qui solo questi due segnali. In generale, un campo di disparità può essere associato a diversi campi di velocità, dato che i secondi dipendono dalle proprietà del moviemnto dell'osservatore. Per qualunque trasformazione rigida, però, i segnali di disparità e velocità saranno sempre in una relazione lineare tra loro. Dunque, anche se è necessario uno spazio bidimensionale per rappresentare questi due due segnali di input, i segnali stessi risultano massimamente informativi delle proprietà 3D se vengono proiettati su un opportuno sotto-spazio unidimensionale, ovvero sulla retta che definiscono nello spazio di disparità e velocità.

In questo progetto di ricerca, questa dimensione soggiacente verrà chiamata 'Intrinsic Constraint (IC) line'. In condizioni naturali, i segnali di input definiscono uno spazio più complesso a q dimensioni, dove q indica il numero di cue. In base alla presente proposta, il sistema visivo riduce la dimensionalità di tale spazio di segnali input attraverso un processo simile all'analisi delle componenti principali (PCA).

Una conseguenza di tale elaborazione dei (degradati) segnali di input è che la correlazione tra i punteggi della prima componente principale () e i valori distali di profondità (z_i) sarà maggiore della correlazione tra ciascun singolo segnale e z_i. Lo stesso può dirsi per altre proprietà 3D quali la curvatura, lo slant, ecc.


1. Riduzione di dimensionalità

Si considerino i valori di disparità e velocità prodotti dalla proiezione di n punti Pi appartenenti a una regione locale di una superfice 3D. E' facile mostrare che





dove e sono i valori scalati dell'angolo di vergenza e della velocità angolare, e e sono gli errori di misurazione scalati dalle deviazioni standard dei due segnali. Le formule precedenti indicano che i segnali scalati sono linermente associati ai valori di profondità distale z_i. Inoltre, i segnali scalati saranno tra loro correlati, dato che entrami sono linearmente associati alla stessa mappa di profondità z_i.

In base alla presente proposta, il sistema fa uso di tale covariazione per ridurre il rumore di misurazione e per fornire una descrizione a dimensionalità più bassa dei segnali input. Anche se si può ottenere la riduzione di dimensionalità in modi diversi, qui noi useremo una tecnica standard di PCA. Si noti che i punteggi sulla prima componente principale (PC1) forniscono una stima migliore della struttura affine dell'oggetto distale di ciascun segnale isolato.


2. Interpretazione 3D

Il fine del secondo stadio del modello è quello di stimare la mappa di profondità euclidea z_i a partire dai punteggi su PC1 () e dal primo autovettore e1. Dato che le disparità e le velocità sono soggette ad errori di misurazione, anche i punteggi su PC1 e e1 saranno soggetti agli errori di misurazione. In momenti diversi, infatti, la stessa struttura 3D sotto le medesime condizioni di osservazione produrrà dei pattern di velocità e di disparità leggermente diversi. Di conseguenza, anche i punteggi su PC1 assumeranno valori leggermente diversi.

Nel secondo stadio del modello, una interpretazione euclidea verrà scelta all'interno dello spazio affine, date le informazioni fornite da e e1. Ciò può essere fatto in modi diversi. Qui useremo il metodo di massima verosimiglianza. Con Bayes,



e, dunque, la mappa scalata di profondità deventa:



dove la funzione di verosimiglianza può essere calcolata integrando i parametri sconosciuti e e1:



La soluzione euclidea così trovata non è, in generale, veridica. Tuttavia, non è in alcun modo arbitraria. Rappresenta piuttosto la stima migliore che può essere ottenuta delle profondità distali z_i, dati i segnali di input e le ipotesi che sono state introdotte nel processo interpretativo. La stessa logica può essere applicata al caso di 3 o più cue.


ESPERIMENTI PROPOSTI

Le ricerche proposte conseguiranno due obiettivi.

(a) In una prima serie di esperimenti, ci si chiederà se le prestazioni visive sono coerenti con l'ipotesi secondo cui un'interpretazione euclidea ottenuta tramite massima verosimiglianza viene imposta alla struttura affine derivata dal primo stadio di elaborazione ipotizzato dal modello.

(b) In una seconda serie di esperimenti, verrà studiata la plasticità del sistema visivo, ovvero la capacità del sistema di ricalibrarsi in funzione della muta coerenza tra i segnali retinici.


A. SEGMENTAZIONE DELLA SCENA VISIVA

Due approcci diversi verranno usati per studiare il problema della segmentazione della scena visiva nel contesto del modello proposto. In particolare, verrà studiato il contributo che la presenza di diverse IC line nello spazio multidimensionale dei segnali inpu fornisce alla soluzione del problema della segmentazione della scena visiva. Si ricordi che ciascun segnale s_i è associato linearmente alla proprietà distale d: , dove la costante k_i dipende dai parametri sconosciuti tali quali l'angolo di vergenza, la velocità angolare 3D, ecc. Nella scena visiva, in generale, questi parametri sono costanti per un dato oggetto, ma variano tra oggetti diversi. Per esempio, due oggetti possono muoversi con velocità diverse e la tessitura sulle loro superfici può essere caratterizzata da proprietà statistiche diverse. Tali oggetti, di conseguenza, definiranno due diverse IC line. I seguenti esperimenti intendono verificare se la presenza di multiple IC line influenza influenza il modo in cui il sistema visivo risolve il problema della segmentazione della scena visiva.


1. Segmentazione di superfici (disparità e velocità)

Oggetti che si muovono in maniera indipendente definiscono 2 o più IC line nello spazio di disparità e velocità. Si ipotizza che gli osservatori utilizzino tale proprietà per segmentare la scena visiva (si veda anche Caudek & Rubin, 1999). In questi esperimenti, due ellissoidi sovrapposti e definiti da punti casuali (random dots) verranno specificate unicamente dai segnali di disparita o velocità, oppure da entrambi. Gli ellissoidi saranno compressi lungo la dimensione verticale oppure quella orizzontale e, manipolando il livello del rumore visivo, si stabilirà, per ciascun segnale isolato, la soglia di discriminazione di un oggetto contro due oggetti. Due condizioni verranno definite, quando entrambi i cue saranno simultaneamente presenti. Nella prima, con due ellissoidi presenti, i segnali di velocità e disparità definiranno una singola IC line. Nella seconda, i due ellissoidi sovrapposti identificheranno due diverse linee nello spazio di disparità e velocità.

Risultati attesi. Nella prima condizione, la prestazione non dovrebbe migliorare rispetto alle condizioni con un singolo cue, dato che nessuna informazione rilevante per il compito viene aggiunta quando i due cue sono entrambi presenti. Nella seconda condizione, invece, ci si aspetta che la prestazione migliori, rispetto alle condizioni con un singolo cue. In tali circostanze, infatti, la relazione tra i due cue dovrebbe (in linea di principio) essere sufficiente per definire la presenza di due oggetti.


2. Detezione di rigidità.

Domini, Caudek and Proffitt (1997) hanno mostrato che gli osservatori non sono in grado di discriminare in maniera veridica tra strutture rigide e non rigide definite unicamente dal flusso ottico. Domini et al. hanno simulato due superfici trasparenti definite da punti casuali in rotazione attorno all'asse verticale. Le due superfici ruotavano con la stessa oppure con diverse velocità angolari (stimoli rigidi vs. non rigidi). Gli osservatori non erano sensibili alle proprietà del flusso ottico che definiscono la rigidità 3D, ma rispondevano piuttosto alla deformazione delle due superfici (Koenderink & van Doorn, 1975). Indipendentemente dalla rigidità simulata, gli stimoli venivano percepiti come rigidi se le due superfici proiettavano la stessa deformazione, e non rigidi nel caso opposto.

Con gli esperimenti presenti, verrà studiata l'influenza dei 'vincoli intrinsici' tra cue diversi nei confronti della percezione della rigidità. Dato che due superfici definite da cue di disparità e movimento definiscono due IC line quando ruotano con velocità angolari diverse, verranno qui manipolate le seguenti variabili: (i) la differenza della pendenza delle 2 IC line, e (ii) la differenza tra le deformazioni generate dalle due superfici. Se la differenza tra le due IC line è piccola, ci si aspetta che i giudizi di rigidità seguano l'euristica basata sulla deformazione descritta da Domini e al. (1997). Se la differenza tra le due IC line è grande, ci si aspetta invece un miglioramento nelle prestazioni.


2a. Movimenti oculari.

Informazioni aggiuntive riguardanti l'elaborazione percettiva verranno acquisite mediante la registrazione dei movimenti oculari.


B. RICALIBRAZIONE

E' noto che gli osservatori sono in grado di adattarsi a condizioni visive radicalmente diverse (Adams, Banks & Van Ee, 2001). Il fenomeno dell'apprendimento percettivo verrà qui studiato manipolando la covariazione tra i cue. Ci si chiede se il sistema visivo, in conseguenza dell'apprendimento percettivo, si ricalibri in funzione di una nuova relazione tra segnali di disparità e velocità.


3. Apprendimento percettivo (disparità e velocità).

Nella fase di apprendimento, verrà generata una relazione non lineare tra segnali di disparità e velocità simulando un moto non rigido di una nube di punti. Tali punti verranno collocati nel volume di ellissoidi aventi profondità diverse lungo l'asse sagittale. Quale effetto ha la nonlinearità simulata sull'interpretazione percettiva 3D? In condizioni di visione naturale, la relazione tra segnali di disparità e velocità è lineare. Se la relazione non lineare descritta sopra viene applicata alla simulazione di una superfice piana, allora tale superficie apparità come non-ridiga e concava (per esempio). Si assuma ora che, come conseguenza dell'apprendimento, il sistema visivo si 'ancori' a tale relazione non lineare. In tali circostanze, il modello proposto predice che lo sottospazio definito da tale relazione diventi lo 'standard' utilizzato dal sistema derivare la struttura 3D degli oggetti distali. Si ricordi che, in base al modello proposto, lo sottospazio IC specifica direttamente la struttura affine degli oggetti percepiti. Di conseguenza, se tale ricalibrazione ha luogo, ci aspettiamo che uno stimolo (caratterizzato da una relazione non lineare tra velocità e disparità) che prima appariva come una superficie concava, venga poi percepito come una superficie piana (o meno concava). Allo stesso tempo, uno stimolo caratterizzato da una relazione lineare tra velocità e disparità (che normalmente appare come una superficie piana) dovrebbe apparire come una superfice convessa.

Per verificare tale ipotesi, gli esperimenti saranno strutturati in una fase di pre-test, apprendimento e post-test. In tutte e tre le fasi, gli stimoli saranno definiti da informazione di disparità e movimento. Nelle fasi di pre- e post-test, gli osservatori dovranno discriminare tra superfici rigide concave e convesse. Nella fase di apprendimento, gli osservatori dovranno discriminare tra volumi di punti casuali (random dot) aventi diverse estensioni in profondità.

Nelle fasi di pre- e post-test, gli stimoli preserveranno la naturale relazione lineare tra i due segnali. Nella fase di apprendimento, la relazione tra i segnali sarà non lineare.

Ci aspettiamo uno spostamento della fuzione psicometrica nel post-test, nella direzione predetta dal modello: dopo la fase di apprendimento, una superficie piana rigida dovrebbe essere percepita come convessa.


4. Ricalibrazione di un segnale indotta dalla covariazione artificiale tra due altri segnali

Questi esperimenti stabiliranno se una relazione non lineare artificialmente indotta tra il segnale s1 e due altri segnali s2 e s3 produce una ricalibrazione del segnale s1. Si supponga che, per es., s1 sia il gradiente di tessitura e s2 es3 siano i gradienti di velocità e disparità prodotti dalla proiezione di 'patches' locali a vario orientamento. Misure appropriate di tali segnali sono linearmente associate tra loro. Nell'esperimento, i gradienti di velocità e disparità saranno associati linearmeente, ma gli elementi di tessitura di ciascuna patch saranno sistematicamente manipolati in modo da creare una relazione artificiale non lineare tra segnali di tessitura, da una parte e segnali di movimento e disparità, dall'altra.

Se rappresentiamo questo nuovo stimolo nello spazio (s1, s2, s3) otteniamo una curva che proietta come una linea nello sottospazio dei gradienti di velocità e disparità, ma come una curva nei sottospazi dei gradienti di tessitura e disparità, e dei gradienti di tessitura e velocità.

Nella fase di apprendimento, tale stimolo verrà presentato agli osservatori per un periodo prolungato. Nelle fasi di pre- e post-test, gli osservatori discrimineranno tra superfici concave e convesse.

In tre condizioni sperimentali, le superfici test saranno definite da ciascuno dei tre segnali presentato isolatamente. Non ci aspettiamo differenze tra le fasi di pre- e post-test quando le superfici test saranno specificate dai segnali di disparità o di velocità. Invece, se i segnali di velocità e disparità ricalibrano l'interpretazione percettiva dei gradienti di tessitura, allora ci aspettiamo una distorsione sistematica (bias) nella prestazione relativa alle superfici test specificate da questo cue.



4a. Potenziali evocati.

Gli esperimenti sugli effetti dell'apprendimento percettivo saranno replicati monitorando i potenziali evocati tramite il Neuroscan System.