Contenuto
Ti trovi in: HOME »Programmi, progetti e risultati »I progetti »PRIN - Programmi di ricerca di Rilevante Interesse Nazionale»Programma di ricercaINIZIO_TESTO_DA_INDICIZZARE
PROGRAMMA DI RICERCA
italiano - english
Unità di Ricerca
- Università degli Studi di SALERNO
STUDI LINGUISTICI E LETTERARI
FISCIANO - SALERNO(SA) - Università degli Studi di NAPOLI "Federico II"
FILOLOGIA MODERNA
NAPOLI(NA) - Università degli Studi di NAPOLI "Federico II"
SCIENZE FISICHE
NAPOLI(NA) - Università degli Studi di NAPOLI "Federico II"
NEUROSCIENZE E SCIENZE DEL COMPORTAMENTO
NAPOLI(NA) - Università degli Studi di NAPOLI "L'Orientale"
STUDI DELL'EUROPA ORIENTALE
NAPOLI(NA) - Università degli Studi ROMA TRE
LINGUISTICA
ROMA(RM) - Università per Stranieri di SIENA
SCIENZE UMANE
SIENA(SI) - Università degli Studi di TORINO
FILOSOFIA
TORINO(TO) - Universita' degli Studi di ROMA
STUDI FILOLOGICI, LINGUISTICI E LETTERARI
ROMA(RM) - Università degli Studi di FIRENZE
ITALIANISTICA
FIRENZE(FI)
Programmi di ricerca simili:
- 1 - Parlare italiano: teorie e applicazioni linguistiche.
- 2 - Informatica e ricerca geo-sociolinguistica. ALS: atlanti microareali e settoriali, e modalità di fruizione della banca dati
- 3 - L'italiano televisivo (1976-2006)
- 4 - Morfosintassi e corpora informatici dell'italiano antico
- 5 - eColingua: e-corpora negli studi linguistici e multimodali, nella traduzione, nell'apprendimento e nelle verifiche on-line delle lingue
- 6 - Organizzazione territoriale e ideologia nello stato achemenide: gli insediamenti di Persepoli
- 7 - GLOSSARI, DIZIONARI, CORPORA: LESSICOLOGIA E LESSICOGRAFIA DELLE LINGUE EUROPEE
- 8 - Ricerca umanistica e nuove tecnologie - Gli strumenti d'indagine multimediali e diagnostici come fondamento scientifico e le risorse tecniche in funzione del restauro, della museologia e delle tecniche artistiche.
- 9 - Le iscrizioni achemenidi di Persepoli: analisi testuale ed edizione critica e sinottica delle versioni antico-persiana, elamica e babilonese
- 10 - Rileggere Pompei. Sviluppo e trasformazioni della città dalle origini alla sua scomparsa.
Classificazione scientifico-disciplinare
- Area scientifico disciplinare: Scienze matematiche e informatiche
- Area scientifico disciplinare: Scienze dell'antichità, filologico-letterarie e storico-artistiche
- Area scientifico disciplinare: Scienze storiche, filosofiche, pedagogiche e psicologiche
Classificazione geografica
- Regione: Campania
Bibliografia
AA.VV., Gli italiani parlati, Firenze, Accademia della Crusca, 1987.Albano Leoni F., 1994, L'analisi fonica del parlato,in T. De Mauro (a c. di), Come parlano gli italiani, La Nuova Italia, Firenze, pp. 101-109.
Albano Leoni F., (1998), L’indeterminatezza del significante, in: Premessa a Ai limiti del linguaggio. Vaghezza, significato, storia, a c. di F. Albano Leoni et al., Roma-Bari, Laterza, 1998, pp. 9-14.
Anderson, A., Bader, M., Bard, E., Boyle, E., Doherty, G. M., Garrod, S., Isard, S., Kowtko, J., McAllister, J., Miller, J., Sotillo, C., Thompson, H. S. and Weinert, R. . The HCRC Map Task Corpus. Language and Speech, 34,(1991), pp. 351-366.
Bazzanella C., (1994), Le facce del parlare. Un approccio pragmatico all'italiano parlato. Firenze/Roma, La Nuova Italia.
Bazzanella C., 2002 (ed.), Sul dialogo. Contesti e forme di interazione verbale Milano, Guerini e Associati.
Beckman, Mary E., Ayers, Gayl M., 1993, Guidelines for ToBI Labelling, Ohio State University.
Bertuccelli Papi M. e Verschueren J. 1987, (eds.), The Pragmatic Perspective, Amsterdam/ Philadelphia, Benjamins.
Biber, Douglas, 1995, Dimension in Register variation. A Cross-Linguistic Comparison, Cambridge, Cambridge University Press.
Biber, Douglas, Conrad, Susan, Reppen, Randi, 1998, Corpus Linguistics, Cambridge, Cambridge University Press.
Blamey, Peter, Paper 248, "Speech Perception and Spoken Language in Children with Impaired Hearing" , Speech and Hearing Disorders 2 ICSLP'98
Blamey, P.J.- Clark, G.M. (1990) "Place coding of vowel formants for cochlear implant patients", Journal of the Acoustical Society of America 88,2: 667-673
Blanche-Benveniste C. et alii (1990), Le français parlé; études grammaticales, Editions du CNRS, Paris.
Broeder, Brugman, Russel & Wittenburg, A Browsable Corpus: accessing linguistic resources the easy way, Max Planck Institute for Psycholinguistics.
Burnard, L., 1995, “The Text Encoding Initiative: an overview”, in Leech G., Myers G., Thomas J., (eds.), Spoken English on Computer. Transcription, Mark-up and Applications, Longman Publishing, New York, 69-81
Caritas, 2001, Dossier statistico Caritas sull'immigrazione straniera in Italia, Roma, Anterem.
Clinical Linguistics and Phonetics, Recommended Phonetic Symbols for the Representation of Segmental Aspects of Disordered Speech, Clinical Linguistics & Phonetics 1,1 (1987)
Cresti E. (2000), Corpus di italiano parlato,vol. I- II, Accademia della Crusca, Firenze
Cresti E. e M. Moneglia et alii (2002), The C-ORAL-ROM Project. New methods for spoken language archives in a multilingual romance corpus,in M. C.. Rodriguez e C. Suarez Araujo (acd), Proceedings of III° International Conference on Language resources and evaluation (LREC 2002, Las Palmas), ELRA, Paris, pp. 2-10
Cutugno F. (1991), “ Alcune considerazioni sul comportamento fonico di soggetti ipoacusici”, in Atti del XIX Congresso Nazionale dell'Associazione Italiana di Acustica (AIA), (Napoli 10-12 Aprile 1991), 369-374.
D'Achille, P., Sintassi del parlato e tradizione scritta della lingua italiana, Roma, Bonacci, 1990.
D'Anna, L.; Petrillo, M.; Zovato, E. "Elaborazioni automatiche dei parametri prosodici, nuovi sviluppi di APA." 2001 in Atti delle XII Giornate di studio del GFS (Gruppo di Fonetica Sperimentale), Macerata, 13-15 Dicembre 2001.
De Mauro T., (a cura di), 1994, Come parlano gli italiani, Firenze, La Nuova Italia.
De Mauro T., Mancini F., Vedovelli M., Voghera M., 1993, Lessico di frequenza dell'italiano parlato, Milano, ETASLIBRI.
Desideri P., Testualità e tipologia del discorso politico, Bulzoni, Roma, 1980.
Drew, P., J. Heritage, eds. (1992) Talk at work: interaction in institutional settings. Cambridge: Cambridge University Press.
Ford, Cecilia E., Barbara A. Fox, and Sandra A. Thompson, eds. ( 2002) The Language of Turn and Sequence. New York: Oxford University Press; Oxford Studies in Sociolinguistics
Fujisaki H. & Hirose, K. (1982). "Modelling the dynamic characteristics of voice fundamental frequency with applications to analysis and synthesis of intonation", In Preprints of the Working Group on Intonation, 13th Intl. Congress of Linguists (pp. 57-70), Tokyo.
Giacalone Ramat, A., Vedovelli, M (a cura di) (1994), Italiano lingua seconda/ lingua straniera, Roma: Bulzoni.
Giannini A., Pettorino M., I cambiamenti dell’italiano radiofonico negli ultimi 50 anni: aspetti ritmico-prosodici e segmentali, Atti delle IX Giornate di studio del GFS, Venezia, 1998, pp. 65-81.
Gibbon, More, Winski (eds.) (1997), The Handbook of Standards and Resources for Spoken Language Systems, Mouton de Gruyter, Berlin.
Halliday, M.A.K. (1989), Spoken and Written Language, Oxford University Press.
Hart J., Collier R., Cohen A. (1990), A perceptual study on intonation. An experimental approach to speech melody, Cambridge University Press, Cambridge
Hirst, D., Di Cristo, A. (eds.), 1998, Intonation Systems. A Survey of Twenty Languages, Cambridge, Cambridge University Press
Holtus, G., Radtke, E. (a cura di) (1985), Gesprochenes Italienisch in Geschichte und Gegenwart, Tübingen: Narr.
Koch P. / Oesterreicher W., 1990, Gesprochene Sprache in der Romania: Französisch, Italienisch, Spanish, Tübingen, Niemeyer.
Levinson, S. C., 1983/1985, Pragmatics, Cambridge, Cambridge University Press, tr. it., La pragmatica, Bologna, Il Mulino.
MacWhinney B. (1995), The CHILDES project: tools for analyzing talk, Lawrence Erlbaum Associates, Hillsdale, New Jersey.
Miller, J., Weinert, R. 1998, Spontaneous Spoken Language. Syntax and Discourse, Oxford, Clarendon Press.
Moneglia M. (2000) Le corpus LABLITA, in M. Bilger (ed.) Corpus. Méthodologie et aplications linguistique Champion, Paris, pp. 49-57
Orletti, Franca,1983 (a cura di ) Comunicare nella vita quotidiana, Bologna, Il Mulino.
Pettorino M. and A. Giannini, “Aspetti prosodici del parlato radiofonico”, in Atti delle IV Giornate di Studio del G.F.S., pp. 19-28, Torino, 1993.
Pierrehumbert, Janet B., 1987, The Phonology and Phonetics of English Intonation, PhD Dissertation, MIT, Bloominghton, Indiana University Linguistic Club.
Pusch C. D., 2002, "A survey of spoken language corpora in Romance", in Pusch C. D. e Raible W. (eds.), Romanistische Korpuslinguistik - Korpora und gesprochene Sprache / Romance Corpus Linguistics - Corpora and Spoken Language (= ScriptOralia; 126), Tübingen, Narr, 245-264.
Schiffrin D., 1987, Discourse markers, Cambridge, Cambridge University Press.
Simone, R., 1986, Idee sulla grammatica ‘fine’. In Scambi culturali 4-5-6, Roma, Ministero della Pubblica Istruzione: 115-124.
Sornicola, R., 1981, Sul parlato, Bologna, Il Mulino.
Vedovelli M., 1994, L' italiano parlato dagli italiani e l' italiano appreso dai non italiani. In: De Mauro T., (a c. di), Come parlano gli italiani, Firenze, La Nuova Italia: 87-98.
Voghera, M. (1992), Sintassi e intonazione nell'italiano parlato, Bologna: Il Mulino.
Vossen P., EuroWordNet General Document, v. 3 DO32033/2D014 Part I, 2000.
SITI WEB
CES http://www.cs.vassar.edu/CES/
CHAT http://childes.psy.cmu.edu/
C-ORAL-ROM http://lablita.dit.unifi.it/coralrom
EAGLE, http://www.ilc.pi.cnr.it/EAGLES/
ELRA http://www.icp.grenet.fr/ELRA/catalog.html
ICE-BG http://www.ucl.ac.uk/english-usage/ice-gb/index.htm.
IMDI http://www.mpi.nl/ISLE/index.html
ISLE http://lingue.ilc.cnr.it/EAGLES96/isle/ISLE
LDC http://morph.ldc.upenn.edu/Catalog/by_type.html
LIR http://www.accademiadellacrusca.it/progetti/progetto_singolo
MATE, http://mate.nis.sdu.dk/
MPEG-7 http://mpeg.telecomitalialab.com/working_documents.htm
Spoken Dutch Corpus http://lands.let.kun.nl/cgn/ehome.htm
TEI http://www.tei-c.org/
Parole Chiave
ITALIANO PARLATO; SITO WEB; LINGUISTICA; GRAMMATICA MULTILIVELLO; LINGUISTICA DEI CORPORA; RISORSE LINGUISTICHE; INFORMATICA; ITALIANO L2; DISTURBI DEL LINGUAGGIOParlare italiano: osservatorio degli usi linguistici
Università degli Studi di SalernoAbstract
Il progetto Parlare italiano: osservatorio degli usi linguistici ha quattro obiettivi fondamentali: 1) progettare un sito web nazionale che raccolga i più recenti sviluppi teorici e applicativi delle ricerche sul parlato; 2) costituire un osservatorio degli usi linguistici del parlato italiano; 3) delineare e implementare metodologie e procedure di ricerca standard e formalizzate per lo studio del parlato; 4) svolgere attività che consentano la formazione per giovani ricercatori. Per garantire la massima trasparenza e verificabilità della ricerca, il progetto si prefigge di rispettare i seguenti criteri: a) pubblicità dei corpora di riferimento; b) pubblicità dei metodi e delle tecniche di analisi; c) pubblicità dei dati ottenuti.Il progetto Parlare italiano accoglierà vari punti di vista scientifici e applicativi poiché coinvolge studiosi provenienti da vari settori di ricerca (Linguistica, Informatica, Audiologia) con consolidate esperienze nello studio del parlato in ambito nazionale e internazionale, alcune delle quali già cofinanziate (AVIP, API, IPar). Con questo progetto intendiamo sviluppare strumenti teorici e applicativi nelle seguenti aree tematiche: Fonetica e Fonologia; Prosodia; Morfologia; Lessico; Sintassi; Semantica; Analisi del discorso e della conversazione; Pragmatica; Diacronia del parlato; Italiano L2; Parlato e mass media; Disturbi del linguaggio; Linguistica computazionale; Tecnologie del parlato.
Ciascuna delle aree tematiche sviluppate nel progetto presenterà delle sezioni dedicate a: corpora utilizzati; protocolli per la standardizzazione dei formati di rappresentazione; tools di etichettatura e analisi; bibliografia di riferimento.
Il sito web Parlare italiano, la cui progettazione è parte integrante della ricerca, costituirà in tal modo la prima iniziativa nazionale che si pone l'obiettivo non solo di studiare e descrivere il parlato italiano in tutti i suoi aspetti teorici e applicativi, ma anche di fornire dei protocolli di raccolta e elaborazione dei dati che garantiscano il controllo dei dati e la falsificabilità delle analisi proposte. <<<
Coordinatore Scientifico del Programma di Ricerca
Maria VOGHERA Università degli Studi di SALERNOObiettivo del Programma di Ricerca
Il progetto ha lo scopo di creare un punto di riferimento nazionale per lo studio linguistico dell'italiano parlato. Il progetto ha vari obiettivi che possono essere così suddivisi:A.obiettivi editoriali;
B.obiettivi scientifici;
C.obiettivi formativi.
A. Il progetto ha come obiettivo centrale la creazione di un sito web, che costituirà la struttura all'interno della quale saranno resi pubblici tutti i risultati. Il sito web 'Parlare italiano: osservatorio degli usi linguistici', la cui architettura e implementazione sono parti integranti della ricerca, sarà strutturato in due sezioni principali. La prima sezione,'Apertura', presenta una rassegna dei principali strumenti teorici e applicativi per l'analisi del parlato, con particolare riferimento all'italiano: corpora, protocolli e standard per la raccolta e l'analisi, strumenti linguistici per l'etichettatura di testi parlati, riferimenti bibliografici, link a altre iniziative internazionali e a singoli progetti nazionali (sezione 2.2.). La seconda sezione del sito web, 'Aree tematiche', è dedicata alle diverse aree disciplinari in cui si articolano gli studi linguistici del parlato. Unità di ricerca impegnate: Università di Napoli "Federico II"-Dip.di Scienze fisiche, Salerno.
B.Gli obiettivi scientifici del progetto si inseriscono in diversi campi della ricerca linguistica. Ogni unità di ricerca lavorerà in una o più aree, svolgendo molte indagini a cavallo tra più aree (dettagli nei Modelli B).
B1.Analisi multilivello della grammatica dell'italiano parlato.
B2.Linguistica computazionale e applicata.
B3.Metodi e procedure di analisi.
B1. Obiettivo primario è la costituzione di un osservatorio permanente del parlato italiano. A tal fine si farà un ampio spettro di analisi su vari livelli dell'italiano parlato in testi appartenenti a diversi registri e varietà diatopiche e diacroniche. I livelli di analisi sono i seguenti:
FONETICA E FONOLOGIA:
- analisi e classificazione dei fenomeni di coarticolazione e riduzione segmentale;
- analisi della voce e delle 'etichette' della voce;
- analisi delle caratteristiche segmentali del parlato televisivo.
Unità di Ricerca: Università di Napoli "Federico II"-Dip. di Filologia moderna, Università di Napoli "Federico II"-Dip. Scienze fisiche, Napoli "L'Orientale".
PROSODIA:
- comparazione di diversi schemi e modelli di annotazione prosodica;
- definizione e verifica delle unità di riferimento del parlato nell'interfaccia tra i livelli di annotazione linguistica prosodica, pragmatica e morfosintattica;
- analisi delle pause e delle esitazioni;
- analisi della velocità di eloquio.
Unità di Ricerca: Università di Firenze, Napoli "L'Orientale", RomaTre, Salerno, Torino.
MORFOLOGIA:
- studio del componente morfologico in relazione ai processi di riduzione fonica;
- analisi delle proprietà morfologiche delle teste sintattiche di SN e SV.
Unità di Ricerca: Università di Roma "La Sapienza", Salerno.
SINTASSI:
- analisi della variazione dell'ordine delle parole in varietà regionali di italiano parlato;
- analisi della 'microsintassi' dell'italiano parlato intesa come grammatica dei costituenti minori o come 'grammatica sottile';
- analisi delle relazioni di coordinazione e di subordinazione;
- analisi della struttura argomentale delle unità lessicali nominali e verbali;
- descrizione sintattica della clausola in tipi diversi di testi parlati;
- individuazione di standard di parametrizzazione per misurare la sintassi di un testo parlato.
Unità di Ricerca: Università di Firenze; Napoli "Federico II"- Dip. di Filologia moderna, Salerno, RomaTre.
PRAGMATICA:
- analisi topic/comment;
- analisi della deissi;
- annotazione anaforica della coreferenza tra espressioni referenti nominali e pronominali.
Unità di Ricerca: Università di Firenze, RomaTre, Salerno, Torino.
LESSICO:
- analisi del lessico usato nei discorsi politici parlamentari;
Unità di Ricerca: Università di Roma "La Sapienza".
ANALISI DEL DISCORSO E CONVERSAZIONALE:
- analisi dei marcatori linguistici cognitivi e dei processi conversazionali;
- analisi della ripetizione dialogica;
- analisi dei fenomeni di confine tra grammatica e interazione;
- analisi dei meccanismi di presa di turno;
- analisi dei fenomeni di 'frame';
- analisi dell'interazione comunicativa e del suo ruolo nell'acquisizione dell'italiano come L2.
Unità di Ricerca: Università di RomaTre, Siena Stranieri, Torino.
SEMANTICA:
- analisi delle proprietà semantiche delle teste sintattiche di SN e SV.
Unità di Ricerca: Università di Salerno.
DIACRONIA DEL PARLATO:
- caratteristiche morfologiche, sintattiche e testuali di varietà diacroniche dell'italiano parlato.
Unità di Ricerca: Università di RomaTre.
ITALIANO COME L2:
- analisi delle caratteristiche dell'italiano parlato da parlanti non nativi;
- analisi delle caratteristiche dell'italiano parlato da parlanti nativi con non nativi;
- studio dei parametri cognitivi e semiotici del processo di acquisizione dell'italiano da parte di parlanti non nativi.
Unità di Ricerca: Università Stranieri di Siena.
PARLATO E MASS-MEDIA:
- raccolta di una base di dati audio e video dei telegiornali italiani degli anni '60-'70;
- raccolta di un corpus audio e video letto da giornalisti professionisti;
- analisi segmentale, prosodica e mimico-gestuale dei corpora raccolti.
Unità di Ricerca: Università di Napoli "L'Orientale".
DISTURBI DEL LINGUAGGIO:
- analisi segmentale e soprasegmentale del parlato di bambini ipoacusici con protesi tradizionali e digitali;
- confronto tra il parlato di bambini ipoacusici impiantati o protesizzati;
- analisi del parlato di bambini ipoacusici impiantati a tappe definite e regolari;
- analisi e pragmatica e prosodica di soggetti con patologie del linguaggio.
Unità di Ricerca: Università di Napoli "Federico II"-Dip. di Neuroscienze e scienze del comportamento, Firenze.
B2. Parte importante del progetto sarà dedicata alla verifica e allo sviluppo di nuove applicazioni nel trattamento dei dati parlati: software per etichettatura e annotazione per l'analisi prosodica, morfosintattica, lessicale e semantica, e basi di dati interrogabili. Questa parte del progetto riguarda le aree tematiche di seguito indicate.
LINGUISTICA COMPUTAZIONALE:
- etichettatura morfologica automatica;
- lemmatizzazione automatica;
- interventi di data mining su dati parlati.
Unità di Ricerca: Università di Firenze, Napoli "Federico II"-Dip. Di Scienze fisiche.
TECNOLOGIA DEL PARLATO:
- analisi prosodica automatica;
- allineamento testo-suono.
Unità di Ricerca: Università di Napoli "Federico II"-Dip.di Scienze fisiche, Salerno, Firenze.
B3. Gli obiettivi di questa sottosezione sono strettamente interrelati con quelli precedenti, poiché coinvolgono tutti gli stadi della ricerca linguistica del parlato. La crescita degli studi sul parlato sia a livello nazionale sia a livello internazionale ha fatto emergere il bisogno di metodi e analisi standard per garantire la massima comparabilità dei risultati. Il processo di standardizzazione riguarda sia la possibilità di accesso ai dati sia la loro rappresentazione. Lo scopo di questa sezione è creare protocolli nazionali per la raccolta e le procedure di analisi specificamente concepiti per l'italiano, ma conformi agli standard internazionali. Tutte le unità di ricerca contribuiranno al raggiungimento di questo obiettivo.
C. E' parte integrante e rilevante del progetto un programma di formazione per giovani ricercatori. Come si vede dalle sezioni 3.1 e 3.3, la maggioranza delle risorse verrà impiegata in assegni di ricerca e/o contratti per laureati o dottori di ricerca. Ciò permetterà di creare gruppi di ricerca formati da giovani che lavoreranno insieme ad esperti ricercatori e studiosi provenienti da varie sedi distribuite su tutto il territorio nazionale. <<<
Risultati parziali attesi
Per quanto riguarda l'attività di progettazione dell'architettura del sito, si prevede, alla fine del primo anno, di giungere almeno alla definizione concettuale della struttura completa, accompagnata da un relativo documento di specifiche tecniche, e alla realizzazione materiale delle principali pagine di consultazione che costituiranno un prototipo modificabile e perfezionabile della versione definitivaPer quanto riguarda le attività collaterali di sviluppo della sezione di 'Apertura' del portale, si prevede di giungere, col contributo di diverse unità di ricerca, ad una prima ricognizione
- dei corpora dell'italiano e di altre lingue raccolti in progetti pubblici e privati;
- di tools e strumenti per l'analisi multilivello del parlato;
- di standard e formati di rappresentazione e codifica messi a punto in progetti ed iniziative di ambito nazionale ed internazionale.
Per quanto riguarda le diverse aree oggetto della ricerca, i risultati intermedi consisteranno in:
- disponibilità dei corpora acquisiti e/o annotati, etichettati, classificati;
- documenti di accompagnamento e descrizione dei corpora acquisiti;
- documenti operativi ad uso interno di norme e specifiche sui protocolli di rappresentazione e codifica dei dati, preesistenti o approntati allo scopo;
- documenti operativi ad uso interno di specifiche tecniche sugli strumenti software utilizzati per l'acquisizione, la codifica l'analisi e l'elaborazione dei dati;
- documenti operativi ad uso interno di specifiche sugli strumenti teorici e metodologici impiegati per l'elaborazione dei dati e la verifica delle ipotesi di ricerca;
- documenti ad uso interno sullo stadio di avanzamento delle ricerche.I risultati della seconda fase coincidono completamente con gli obiettivi generali del progetto descritti nella sezione 2.1.
Sarà realizzato in forma consultabile e navigabile il sito 'PARLARE ITALIANO' implementato dai contenuti disponibili alla chiusura del progetto.
La struttura 'aperta' del sito ed il suo carattere di Osservatorio permanente, tuttavia, prevederanno e consentiranno, in fasi successive alla chiusura, aggiornamenti continui tanto sulle risorse disponibili, quanto sui formati di rappresentazione e codifica in sintonia con le iniziative nazionali e internazionali in continua evoluzione.
Inoltre, l'osservatorio potrà continuare ad accogliere i contributi di un'ampia comunità scientifica quanto a dati, studi e ricerche sugli usi e le strutture dell'italiano parlato.
Per quanto riguarda le risorse linguistiche, verranno pubblicati i corpora e le selezioni dei sottocorpora raccolti, elaborati ed utilizzati per le specifiche ricerche delle singole unità all'interno del progetto. Si potrà contare dunque sull'accesso diretto o attraverso link (per i dettagli si rimanda ai singoli modelli B):
- ai corpora costituenti il catalogo di LABLITA (Corpus dell'italiano parlato spontaneo; Corpus Stammerjohann; Corpora longitudinali della prima acquisizione dell'italiano; Corpus della lingua Cinematografica) con specificazione delle modalità di accesso;
- ad un sottocorpus bilanciato delle risorse di parlato spontaneo di LABLITA (Corpus consultabile LABLITA costituito da parlato formale e informale in contesto naturale e parlato dei media);
- ad un corpus di dati di parlato prodotto da apprendenti stranieri che hanno sviluppato la loro competenza in Italia e all'estero, attinto dalla banca dati del Centro CILS (Certificazione di Italiano come Lingua Straniera) dell'Università per Stranieri di Siena;
- ai corpora delle varietà di italiano AVIP, API (costituiti da parlato spontaneo dialogico elicitato) realizzati da consorzi interuniversitari, e CLIPS (parlato dialogico, letto, telefonico, ortofonico, radiotelevisivo), raccolto dall'Università di Napoli "Federico II", con la collaborazione di altri enti pubblici;
- al corpus di parlato di telegiornali di epoche diverse raccolto dall'Università di Napoli "L'Orientale";
- al corpus delle varietà laziali raccolto e selezionato dall'Università di Roma Tre;
- al corpus di parlato patologico costituito da dialoghi di bambini sordi protesizzati e impiantati, raccolto dal Policlinico di Napoli;
- al corpus di discorsi parlamentari raccolto dall'Università di Roma "La Sapienza";
- al corpus PENELOPE di testi scritti e parlati variati diafasicamente e diastraticamente, reso in forma digitale dall'Università di Salerno.
La pubblicazione dei corpora sarà accompagnata dalla documentazione delle specifiche di rappresentazione e codifica, compresi i tools utilizzati e utilizzabili per la visualizzazione e l'accesso diretto ai dati in forma grezza e per l'interrogazione di eventuali database strutturati.
Nelle aree tematiche del sito, saranno resi pubblici:
- i metadati e i dati elaborati in varie forme (annotazioni, etichettature, classificazioni, tipologie,...) all'interno delle singole ricerche effettuate dalle varie unità;
- i risultati delle analisi linguistiche e delle comparazioni multilivello effettuate in ciascuna delle aree di ricerca ampiamente descritte nella sezione 2.1 e nei singoli modelli B;
- gli studi e le ipotesi teoriche scaturite dalle ricerche, sia sotto forma di pubblicazioni scientifiche, sia sotto forma di liste di discussione, aperte ai contributi presenti e futuri. <<<
Durata
24 mesiBase di partenza scientifica nazionale o internazionale
La stragrande maggioranza delle descrizioni e delle analisi mostra che il parlato si discosta sistematicamente e regolarmente dallo scritto. Esistono costanti del parlato che fanno sì che due testi parlati, anche se appartenenti a livelli diastratici o diafasici diversi, si assomiglino più di quanto non si assomiglino un testo parlato e un testo scritto appartenenti allo stesso livello diafasico e diastratico. Ciò dipende dalle differenze nei processi produttivi e ricettivi nelle due modalità. Il parlato è caratterizzato da una forte discontinuità funzionale intrinseca: la produzione del parlato è continua dal punto di vista fisico, ma i testi prodotti sono fortemente discontinui. La causa di tale discontinuità dipende dal fatto che il modello primario del parlato è il dialogo, il quale è per definizione frammentato: interruzioni, cambi di progetto, sovrapposizione fra parlanti, inserimenti da parte del ricevente sono fenomeni abituali dei dialoghi spontanei.Un testo parlato è quindi il risultato di un'attività alla quale contribuiscono sia il parlante sia il ricevente. Il parlante sa già, al momento di prendere la parola, che il suo discorso può essere interrotto e che la strategia testuale può essere fortemente modificata, con ripercussioni sulla pianificazione e strutturazione del messaggio e con conseguenze su ogni livello del testo.
Dai lavori svolti negli ultimi anni risulta che la comprensione della struttura del parlato dipende dallo studio dell'intero processo di trasmissione e ricezione dei segnali sonori. Ricerche sui segnali fonico-acustici e sui correlati fisici delle funzioni linguistiche forniscono dati molto importanti, come pure costituiscono un importante contributo in questa direzione gli studi sui soggetti ipoacusici o con patologie del linguaggio.
Per tutte queste ragioni, gli studi sul parlato integrano diverse aree di ricerca scientifica: da aspetti più propriamente strutturali (come la sintassi o la morfologia), a aspetti di tipo più pragmatico (come la competenza comunicativa nel parlato spontaneo), ad aspetti fisici (come la trasmissione e la ricezione del segnale sonoro). Tutti questi aspetti possono contribuire a una più generale riflessione teorica sul linguaggio: lo spettro delle possibili ricerche è infatti amplissimo e va dalla semiotica all'intera area degli studi linguistici.
In Italia l'attenzione al valore epistemologico del parlato risale almeno agli anni Sessanta del Novecento, anche se i primi studi empirici sono stati effettuati solo a partire dai tardi anni Ottanta. Si può annoverare una serie di studi che forniscono descrizioni dell'italiano parlato contemporaneo, sia di tipo fonetico così come di tipo testuale e pragmatico. Ciononostante, anche a causa della complessità della situazione linguistica dell'italiano, non disponiamo a tutt'oggi di una descrizione sistematica dell'italiano parlato. La stessa espressione 'italiano parlato' non è priva di ambiguità, in quanto può essere intesa secondo diverse connotazioni, se, ad esempio, viene considerata da un punto di vista geografico oppure sociale o altro. Inoltre, non tutti i livelli della struttura linguistica sono stati ancora studiati con uguale livello di dettaglio. Ad esempio, la dimensione diatopica, la quale ha un ruolo centrale nelle ricerche sull'intonazione, la fonetica e il lessico, non è stata ancora studiata a fondo a livello morfosintattico e testuale.
Lo studio diacronico dei fenomeni che riguardano il parlato, che trova il giusto rilievo nei lavori di linguistica storica, non è ancora sufficientemente sviluppato negli studi sul parlato contemporaneo, sebbene un'analisi di tale tipo sarebbe possibile tramite la comparazione tra il parlato e i documenti scritti del passato, o anche tramite la comparazione di diversi campioni di parlato appartenenti a corpora raccolti in periodi diversi.
La recente crescita del multiculturalismo in Italia ha importanti ripercussioni sulla lingua. L'italiano non è più soltanto la lingua degli italiani, ma è parlato anche da cinesi, marocchini, albanesi e altri immigrati, i quali continuano al tempo stesso a parlare le loro lingue materne. Questi gruppi sociali fanno confluire nell'italiano nuove strutture, parole e modi di dire. L'italiano sta cambiando in seguito anche all'interazione sociolinguistica con le altre lingue parlate dagli immigrati.
Questo insieme di considerazioni ci porta alla conclusione che non solo sono necessari altri studi sull'italiano parlato, ma anche che è necessaria una iniziativa complessiva che costituisca un punto di riferimento e di aggregazione per i singoli specifici studi sull'argomento.
Un punto di riferimento nazionale è necessario anche per quel che riguarda le procedure metodologiche. Gli studi sul parlato costituiscono una sfida per le metodologie impiegate in linguistica. Tradizionalmente, infatti, la linguistica ha messo alla prova le proprie ipotesi basandosi su materiali scritti, anche per quelle ipotesi che riguardano il linguaggio nel suo complesso. Gli studi dedicati specificamente al parlato hanno necessariamente provocato dei cambiamenti nelle procedure e nei metodi di analisi. Le trascrizioni ortografiche si sono dimostrate inadeguate a rappresentare il parlato e si è posta quindi la necessità di elaborare nuove strategie per la raccolta e l'immagazzinamento dei dati.
Negli ultimi decenni in diversi paesi si è proceduto alla raccolta di corpora linguistici. Da alcuni anni disponiamo infatti di basi di dati multimediali, che sono il risultato di progetti di ambito nazionale e internazionale. Fra questi ricordiamo: Vermobil Kiel Corpus per il tedesco, British National Corpus e Reading Corpus per l'inglese, Spoken Dutch Corpus, C-ORAL-ROM, corpus multilingue del parlato spontaneo italiano, francese, spagnolo, portoghese, e infine CHILDES sul linguaggio infantile.
In Italia il primo corpus del parlato italiano è stato il LIP, pubblicato nel 1993. Recentemente i lavori condotti all'interno di progetti cofinanziati (AVIP-Cofin 1997; API-Cofin 1999, CLIPS; IPAR-Cofin 2001) hanno prodotto una notevole quantità di dati e materiali sul parlato italiano. I materiali prodotti all'interno di questi progetti sono etichettati da un punto di vista fonetico, fonologico (sia in rapporto allo standard che alle varietà regionali), lessicale, prosodico, morfo-sintattico, testuale e pragmatico.
La raccolta di corpora linguistici fornisce ampie basi di dati per ricerche di orientamento sia descrittivo che teorico, e al tempo stesso ha prodotto una grande varietà di nuove ricerche interdisciplinari che coinvolgono sia linguisti che specialisti di informatica. Al fine di ottenere un'ampia diffusione dei dati e di sviluppare delle analisi di tipo comparativo, si è posta la necessità di elaborare standard procedurali. Un insieme di standard di rappresentazione e annotazione si è affermato di fatto con lo sviluppo di iniziative di standardizzazione e la raccolta di ampi corpora, come quelli sopra menzionati. I processi di standardizzazione riguardano sia l'ambito dell'accessibilità dei dati che quello della loro rappresentazione. Citiamo qui di seguito le principali iniziative riguardanti i formati di rappresentazione del parlato spontaneo. Codes for the human analysis of transcript (CHAT) è il formato usato per il progetto CHILDES (Child Language Data Exchange System). Text Encoding Initiative (TEI) è un progetto internazionale per lo sviluppo di linee guida per la preparazione e lo scambio di testi elettronici. Queste infrastrutture tradizionali, che sono state recentemente sviluppate in formato XML, perseguono un approccio integrato all'intero insieme dei problemi relativi alle fonti parlate: rappresentazione dei metadati (headers in entrambi i sistemi), struttura del dialogo e codificazione del testo. Questi livelli devono comunque essere considerati come separati.
La struttura standard delle descrizioni del catalogo e le descrizioni dei metadati sono essenziali. L'uso di standard nella descrizione di metadati permette la creazione di un universo di tali risorse recuperabili in Internet. La struttura di metadata è stata oggetto di standardizzazioni delle principali associazioni di raccolta di corpora in Europa (ELRA) e negli Stati Uniti (LDC). Il catalogo ELRA (European Language Resources Association) raccoglie un'ampia varietà di corpora, inclusi corpora di parlato, corpora di scritto e corpora terminologici. Il Linguistic Data Consortium (LDC) agisce nel campo dell'educazione collegata alla lingua, della ricerca e dello sviluppo tecnologico creando e diffondendo risorse linguistiche: dati, strumenti e standard. Importanti contributi alla descrizione di metadati vengono anche da iniziative di tipo più generale nel campo dell'eredità culturale e degli standard multimediali: Dublin Core MetaData Iniziative (DC), Multimedia Content Description Interface (MPEG-7). E' importante notare che la proposta relativa specificamente alle risorse linguistiche viene da progetti europei, dove è stato sviluppato il concetto di Browsable Corpus (BC) introdotto dal Max Plank Institute for Psycholinguistics (MPI) per rendere più facile la scoperta di risorse attraverso la definizione di metadescrizioni per le risorse linguistiche. Tale concezione è stata sviluppata nella ISLE Meta Data Iniziative (IMDI) come standard per i metadati delle risorse linguistiche a carattere multimediale e multimodale.
A fronte delle numerose soluzioni adottate, nessun progetto è riuscito a produrre uno strumento utile a codificare e analizzare interamente dati naturali. I corpora annotati possono essere usati e riusati per migliorare le nostre conoscenze sul comportamento comunicativo interattivo naturale. Tutti questi livelli di descrizione linguistica, dalla trascrizione ortografica all'etichettatura di tutti gli altri livelli linguistici, presentano problemi collegati alla relazione tra la produzione linguistica reale e i sistemi di annotazione, i quali non sempre si rivelano appropriati per descrivere la struttura dei testi parlati. Recentemente l'attenzione si è concentrata sui dialoghi, che costituiscono un importante banco di prova per il numero e la complessità dei problemi che sollevano. Laddove l'annotazione si applica a diversi livelli linguistici, la quantità di dati è tale che solo procedure automatiche permettono un'analisi esaustiva. Tra tali metodologie rivestono particolare interesse quelle legate al data mining, che si pongono come obiettivo non soltanto l'individuazione di un modello statistico, bensì la scoperta di nuove conoscenze a partire dai dati. Le tecniche di data mining più diffuse sono fortemente legate all'apprendimento automatico e ai modelli statistici, e includono metodi bayesiani, evolutivi, clustering, reti neurali.
La linguistica teorica, così come la linguistica applicata e quella computazionale, hanno recentemente sviluppato un interesse crescente per gli standard di rappresentazione e annotazione. Numerosi progetti hanno esplorato la possibilità di sistemi comprensivi multilivello di rappresentazione e annotazione e molti gruppi di ricerca hanno prodotto protocolli e strumenti per l'analisi di corpora di parlato. Ciononostante, manca ancora un'iniziativa che, partendo dai diversi punti di vista e proposte elaborate fino a oggi, possa rappresentare un punto di riferimento nazionale per l'Italia. <<<



