Contenuto
Ti trovi in: HOME »Programmi, progetti e risultati »I progetti »PRIN - Programmi di ricerca di Rilevante Interesse Nazionale»Programma di ricercaINIZIO_TESTO_DA_INDICIZZARE
PROGRAMMA DI RICERCA
italiano - english
Unità di Ricerca
Programmi di ricerca simili:
- 1 - Sintesi automatica di modelli astratti a partire da dati temporali o spaziali
- 2 - Il punto di vista di de Finetti sul paradigma di Bayes-Laplace: nuovi sviluppi metodologici e applicazioni
- 3 - Metodi inferenziali classici e bayesiani in classi di modelli econometrici per la finanza
- 4 - Misurazione del rischio di credito
- 5 - Classi flessibili di distribuzioni ottenute mediante perturbazione della simmetria: aspetti probabilistici, statistici e applicativi
- 6 - Nuovi metodi di verosimiglianza per modelli statistici complessi
- 7 - Integrazione delle informazioni nel sistema visivo: modelli computazionali dei processi sensoriali e decisionali
- 8 - Metodi di calcolo evolutivo in Statistica
- 9 - Modelli grafici, a classi latenti, e per dati panel: sviluppi metodologici ed applicazioni nel campo dell’istruzione e della salute.
- 10 - Web Ram: web retrieval and mining
Classificazione scientifico-disciplinare
- Area scientifico disciplinare: Scienze economiche e statistiche
Classificazione geografica
- Regione: Piemonte
Bibliografia
[Aa] Aalen, O.O. (1989). A linear regression model for the analysis of lifetimes. Statistics in Medicine 9, 907-925.[ABGK] Andersen, P.K., Borgan, Ø., Gill, R.D. and Keiding, N. (1993). Statistical Models Based on Counting Processes. Springer, New York.
[AK] Andersen, P.K. and Keiding, N. (2002). Multi-state models for event history analysis. Statistical Methods in Medical Research 11, 91-115.
[BH] Barry, D. and Hartigan, J. A. (1993). A Bayesian analysis for change point problems. J. Amer. Statist. Assoc. 88, 309-319.
[BBC] Boneh, S., Boneh, A. and Caron, R.J. (1998). Estimating the prediction function of the number of unseen species in sampling with replacement. J. Amer. Stat. Assoc. 93, 372-379.
[Br] Brix, A. (1999). Generalized gamma measures and shot-noise Cox processes. Adv. in Appl. Probab. 31, 929-953.
[CS] Chao, A. and Shen, T.-J. (2004). Nonparametric prediction in species sampling. Journal of Agricultural, Biological, and Environmental Statistics 9, 253-269.
[Cl] Clayton, D.G. (1991). A Monte Carlo method for Bayesian inference in frailty models. Biometrics 47, 467-485.
[CF] Clayton, M.K. and Frees, E.W. (1987). Nonparametric estimation of the probability of discovering a new species. J. Amer. Stat. Assoc. 82, 305-311.
[Co] Cox, D.R. (1972). Regression models with life tables (with discussion). J. Roy. Statist. Soc., Series B 34, 187-220.
[DS] Demiris, N. and Sharples, L.D. (2006). Bayesian evidence synthesis to extrapolate survival estimates in cost-effectiveness studies. Statistics in Medicine, to appear.
[Do] Doksum, K. (1974). Tailfree and neutral random probabilities and their posterior distributions. Ann. Probab. 2, 183-201.
[DL] Dykstra, R.L. and Laud, P.W. (1981). A Bayesian nonparametric approach to reliability. Ann. Statist. 9, 356-367.
[ELP] Epifani, I., Lijoi, A. and Pruenster, I. (2003). Exponential functionals and means of neutral-to-the-right priors. Biometrika 90, 791-808.
[EW] Escobar, M.D. and West, M. (1995). Bayesian density estimation and inference using mixtures. J. Amer. Statist. Assoc. 90, 577-588.
[Fe] Ferguson, T.S. (1973). A Bayesian analysis of some nonparametric problems. Ann. Statist. 2, 615-629.
[GT] Good I. J. and Toulmin G.H. (1956). The number of new species, and the increase in population coverage, when a sample is increased. Biometrika 43, 45-63.
[Ha] Hartigan, J. A. (1990). Partition models. Comm. Statist. Theory Methods 19, 2745-2756.
[Hj1] Hjort, N. L. (1990). Nonparametric Bayes estimators based on beta processes in models for life history data. Ann. Statist. 18, 1259-1294.
[Hj2] Hjort, N.L. (2000). Bayesian analysis for a generalized Dirichlet process prior. Statist. Research Report N.7, University of Oslo.
[IJ] Ishwaran, H. and James, L. F. (2001). Gibbs sampling methods for stick-breaking priors. J. Amer. Stat. Assoc.,96, 161--173.
[Ja1] James, L.F. (2002). Poisson Process Partition Calculus with applications to Exchangeable models and Bayesian Nonparametrics. Mathematics ArXiv math.PR/0205093.
[Ja2] James, L.F. (2005). Poisson process partition calculus with applications to Bayesian Lévy moving averages and shot-noise processes. Ann. Statist. 33, 1771-1799.
[Ja3] James, L.F. (2006). Poisson calculus for spatial neutral to the right processes. Ann. Statist., to appear.
[Ka] Kalbfleisch, J.D. (1978). Non-parametric analysis of survival time data. J. Roy. Statist. Soc., Series B 40, 214-221.
[KL1] Kim, Y. and Lee, J. (2003). Bayesian analysis of proportional hazard models. Ann. Statist. 31, 493-511.
[KL2] Kim, Y. and Lee, J. (2004). A Berstein-von Mises theorem in the nonparametric right-censoring model. Ann. Statist. 32, 1492-1512.
[Ki] Kingman, J.F.C. (1975). Random discrete distributions. J. Roy. Statist. Soc., Series B 37, 1--22.
[La] Lavine, M. (1992). Some aspects of Polya tree distributions for statistical modelling. Ann. Statist. 20, 1222-1235.
[LMP1] Lijoi, A., Mena, R.H. and Pruenster, I. (2005). Hierarchical mixture modelling with normalized inverse Gaussian priors. J. Amer. Stat. Assoc. 100, 1278-1291.
[LMP2] Lijoi, A., Mena, R., Pruenster, I. (2005b). Bayesian nonparametric analysis for a generalized Dirichlet process prior. Statistical Inference for Stochastic Processes, 8, 283-309.
[LPW] Lijoi, A., Pruenster, I, and Walker, S.G. (2005). On consistency of nonparametric normal mixtures for Bayesian density estimation. J. Amer. Stat. Assoc, 100, 1292-1296.
[LY] Lin, D.Y. and Ying, Z. (1994). Semiparametric analysis of the additive risk model. Biometrika 81, 61-71.
[Li] Liu, J.S. (1996). Nonparametric hierarchical Bayes via sequential imputations. Ann. Statist. 24, 911-930.
[Lo] Lo, A.Y. (1984). On a class of Bayesian nonparametric estimates: I. Density estimates. Ann. Statist. 12, 351-357.
[MM] MacEachern, S.N. and Mueller, P. (1998). Estimating Mixture of Dirichlet Process Models. J. Comput. Graph. Statist., 7, 223-239.
[Ma] Mao, C. X. (2004). Prediction the conditional probability of discovering a new class. J. Amer. Stat. Assoc. 99, 1108--1118.
[ML] Mao, C. X. and Lindsay, B. G. (2002). A Poisson model for the coverage problem with a genomic application. Biometrika 89, 669--682.
[MQ] Mueller, P., and Quintana, F. (2004). Nonparametric Bayesian Data Analysis. Statist. Science 19, 95-110.
[MSW] Mauldin, R.D., Sudderth, W.D. and Williams, S.C. (1992). Polya trees and random distributions. Ann. Statist. 20, 1203-1221.
[NPW] Nieto-Barajas, L., Pruenster, I. and Walker, S. (2004). Normalized random measures driven by increasing additive processes. Ann. Statist., 32, 2343-2360.
[PR] Papaspiliopoulos, O. and Roberts, G.O. (2005) Retrospective MCMC for Dirichlet process hierarchical models. Tech. Report, University of Lancsater.
[Pe] Petrone, S. (1999). Random Bernstein polynomials. Scand. J. Statist. 26, 373-393.
[Pi1] Pitman, J. (1996). Some developments of the Blackwell-MacQueen urn scheme. In Statistics, Probability and Game Theory, Lecture Notes, Monograph Series, vol. 30, 245-267, IMS, Hayward.
[Pi2] Pitman, J. (2003). Poisson-Kingman partitions. In Goldstein, D.R., ed., Science and Statistics: A Festschrift for Terry Speed. Lecture Notes, Monograph Series, vol. 40, 1-35. IMS, Hayward.
[Pi3] Pitman, J. (2005). Combinatorial stochastic processes. Lecture notes for St. Flour Summer School.
[Pr] Pruenster, I. (2002). Random probability measures derived from increasing additive processes and their application to Bayesian statistics. Ph.D. dissertation, University of Pavia.
[QI] Quintana, F.A., Iglesias, P.L. (2003). Bayesian clustering and product partition models. J. R. Stat. Soc. Ser. B Stat. Methodol. 65, 557-574.
[RLP] Regazzini, E., Lijoi, A. and Pruenster, I. (2003). Distributional results for means of random measures with independent increments. Ann. Statist. 31, 560--585.
[Ro] Robbins H.E. (1968). Estimating the total probability of the unobserved outcomes of an experiment. Ann. Math. Statist. 39, 256-257.
[TT] Tiwari, R.C. and Tripathi, R.C. (1989). Nonparametric Bayes estimation of the probability of discovering a new species. Comm. Statist. Theory Methods 18, 877-895.
[W1] Walker, A.M. (1969). On the asymptotic behaviour of posterior distributions. JRSS B 31, 80-88.
[WD] Walker, S. and Damien, P. (1998). A full Bayesian non-parametric analysis involving a neutral to the right process. Scand. J. Statist., 25, 669-680.
[WDLS] Walker, S., Damien, P., Laud, P.W. and Smith, A.F.M. (1999).Bayesian nonparametric inference for random distributions and related functions (with discussion). J. R. Stat. Soc. Ser. B 61, 485-527.
[WM] Walker, S. and Muliere, P. (1997). Beta-Stacy processes and a generalization of the Polya-urn scheme. Ann. Statist., 25, 1762-1780.
Parole Chiave
STATISTICA BAYESIANA NON PARAMETRICA, STATISTICA BAYESIANA, DISTRIBUZIONI INIZIALI, PROCESSO DI DIRICHLET, MODELLI MISTURA, MODELLI GERARCHICI, CLUSTERING BAYESIANO, DISTRIBUZIONI FINALIMetodi bayesiani non parametrici per il clustering, l'analisi della sopravvivenza e la previsione del numero di specie
Università degli Studi di TorinoAbstract
Questo progetto di ricerca tratta differenti aspetti della statistica bayesiana non parametrica. Si propone di sviluppare nuove metodologie e la loro applicazione in vari campi: in particolare, l'attenzione verrà focalizzata sul clustering, sull'analisi della sopravvivenza e sulla previsione nell'ambito di problemi di campionamento di specie.La parte metodologica concerne l'analisi di distribuzioni iniziali discrete che differiscono sostanzialmente dal celebre processo di Dirichlet: ci si propone di studiarne le proprietà a posteriori e di individuare casi specifici che godono di sufficiente trattabilità ai fini di un loro in contesto reale. La parte applicativa riguarda innanzitutto modelli semiparametrici: nell'ambito di tali modelli, si intendono sfruttare varie distribuzioni iniziali non parametriche e confrontarne le capacità inferenziali su problemi reali sviluppando appropriati algoritmi di simulazione. Le linee di ricerca perseguite riguardano il clustering bayesiano mediante modelli mistura e l'analisi della sopravvivenza o, più in generale, l’event history analysis. Un' altra importante area di interesse riguarda la previsione del numero di specie in una data popolazione ai fini dell'analisi di dati genetici quali sequenze di frammenti di cDNA. L'approccio bayesiano non parametrico si adatta in maniera naturale a queste problematiche e ci si propone di derivare una serie di strumenti da testare su dati genetici. <<<
Coordinatore Scientifico del Programma di Ricerca
Igor Pruenster Università degli Studi di TORINOObiettivo del Programma di Ricerca
Questo progetto di ricerca tratta differenti aspetti metodologici e applicativi della statistica bayesiana non parametrica. La statistica bayesiana non parametrica sta vivendo un periodo di vigoroso sviluppo: metodologie innovative, nuovi algoritmi di simulazione e applicazioni originali sono apparse nella letteratura recente. Questo progetto ha le sue radici in questi recenti contributi e si propone di sviluppare ulteriormente questa disciplina lungo le linee qui riassunte (maggiori dettagli sono forniti nella Sezione 2.3).Gli argomenti oggetto di studio possono essere riassunti in tre punti:
(I) Analisi di distribuzioni iniziali nonparametriche discrete
(II) Modelli semiparametrici per clustering bayesiano e per l’analisi della sopravvivenza
(III) Previsione del numero di specie per l'analisi di dati genetici
(I) Recentemente numerose nuove classi di distribuzioni iniziali non parametriche discrete sono state proposte nella letteratura. Menzioniamo, tra le altre, i modelli species sampling (e l’interessante sottoclasse costituita dalle prior di tipo Gibbs) ([Pi1], [Pi3]), le misure normalizzate ad incrementi indipendenti [RLP], le distribuzioni iniziali stick breaking [IJ]. Tutte queste classi di prior contengono il processo di Dirichlet come caso particolare; tuttavia, includono anche altre distribuzioni iniziali che si caratterizzano per un comportamento molto diverso dal processo di Dirichlet (si veda, e.g., [LMP1]): quindi, sembra utile studiare modelli che vanno oltre il celebre processo di Dirichlet. In questo progetto si intende analizzare il loro comportamento a posteriori e determinare casi specifici che godono di sufficiente trattabilità da essere usati proficuamente in ambito applicativo. L’obiettivo di individuare prior specifiche di semplice implementazione è cruciale per i punti (II) e (III).
(II) I modelli semiparametrici godono di grande popolarità in seguito all’introduzione di efficaci tecniche di simulazione che ne hanno permesso un utilizzo relativamente agevole. Di conseguenza, è diventato comune introdurre delle componenti non parametriche all’interno dei modelli per incrementarne la flessibilità. Le linee di ricerca che si intendono seguire consistono nel clustering bayesiano mediante modelli mistura gerarchici e nell’analisi della sopravvivenza o, più in generale, nell’event history analysis. Per quanto concerne la prima, ci si propone di sostituire il processo di Dirichlet al livello più alto della gerarchia con le distribuzioni iniziali menzionate in (I) e di studiare i meccanismi di clustering indotti da questi modelli. Si veda [IJ], [LMP1], [LMP2], [NPW] per alcuni interessanti risultati preliminari in questa direzione: prior alternative possono essere più efficaci del processo di Dirichlet in molte situazioni. Con riferimento alla seconda linea di ricerca, cioè l’analisi della sopravvivenza e l’event history analysis, essa rappresenta un’area che pone molti interessanti problemi statistici data la necessità di una modellistica complessa, di strumenti computazionali sufficientemente sofisticati per trattare informazioni incomplete e strutture di dati elaborate. Qui, si intendono studiare estensioni del modello di Cox con funzione di rischio logistica e il processo beta [Hj1] come prior sul cumulative hazard, modelli semiparametrici per dati competing risk e modelli di regressione sugli hazard nell’ambito di modelli multi-stato. Nell’ambito di entrambe le linee di ricerca verranno sviluppati appropriati algoritmi di simulazione e, inoltre, verranno studiate alcune proprietà asintotiche dei modelli in questione. Tutti i modelli verranno testati su dati simulati e, successivamente, implementati per dati reali.
(III) L’inferenza sulle specie esistenti in una data popolazione è una questione rilevante in numerosi contesti della biologia e dell'ecologia. Si vedano e.g., [GT], [CS]. Questi argomenti hanno ottenuto di recente un rinnovato interesse poiché appaiono frequentemente nell’analisi di dati genomici (in particolare, nell'analisi di frammenti di DNA). Si veda, e.g., [ML], [Ma]. Nonostante l’approccio bayesiano non parametrico si applichi piuttosto naturalmente a questa categoria di problemi, sembra esserci una lacuna in una così importante area applicativa. In questo progetto ci si propone di colmare tale lacuna, in particolare ricorrendo a distribuzioni iniziali con struttura di Gibbs: si intendono derivare stimatori bayesiani per varie quantità di interesse statistico; un primo esempio consiste nel fornire un equivalente bayesiano del celebre predittore di Good e Toulmin. Le nuove tecniche verranno testate su dati genetici: le loro capacità di prevedere la selezione di nuovi geni, di fornire buoni intervalli di credibilità, di stimare la proporzione relativa di un certo gene costituiranno le principali misure di successo.
Per quanto concerne la metodologia, si intende lavorare simultaneamente su aspetti metodologici e applicativi. Ciò dovrebbe condurre a sinergie positive e, quindi, non sembra appropriata una separazione tra i due ambiti. Data la complessità analitica dei modelli trattati, una parte rilevante del lavoro si concentrerà su aspetti computazionali: di fatto, risultati esatti devono essere combinati con algoritmi piuttosto sofisticati per permettere di fare inferenza e applicazioni esaustive a fenomeni reali. <<<
Durata
24 mesiBase di partenza scientifica nazionale o internazionale
La statistica bayesiana nonparametrica è un'area di ricerca relativamente giovane protagonista recentemente di un forte sviluppo. Le fondamenta del paradigma bayesiano non parametrico sono già state poste negli anni ’30 con il concetto di scambiabilità e il celebre teorema di rappresentazione di de Finetti. Tuttavia, le difficoltà di natura tecnica nel fornire esempi concreti di distribuzioni iniziali ne hanno a lungo impedito lo sviluppo. La scoperta cruciale è dovuta a Ferguson [Fe] con l’introduzione della misura di probabilità aleatoria (m.p.a.) di Dirichlet. Nei due decenni successivi particolare attenzione è stata riservata ai problemi posti da questa nuova disciplina. Varie generalizzazioni del processo di Dirichlet sono state proposte in letteratura, tra cui le prior neutrali a destra [Do], il processo extended gamma [DL], il processo mistura di Dirichlet [Lo], il processo beta [Hj], le distribuzioni inziali Polya-tree [La], [MSW], i polinomi di Bernstein aleatori [Pe]. In questa prima fase i risultati sono stati principalmente di natura teorica, in quanto la complessità matematica delle espressioni coinvolte ha impedito una concreta applicazione dei risultati. Tuttavia, con l’introduzione nei primi anni '90 di nuove tecniche computazionali, quali il Markov Chain Monte Carlo, i metodi bayesiani non parametrici hanno suscitato un vasto interesse nella comunità scientifica grazie alla possibilità di essere applicati a problemi reali di grande complessità. Ciò ha prodotto molte ricerche concentrate su tecniche computazionali e applicazioni nell’ambito della medicina, della biologia, della genetica, dell’econometria, dell’analisi della sopravvivenza, dell’ecologia e di molte altre discipline. Ampie rassegne della statistica bayesiana non parametrica e delle sue applicazioni sono fornite in [WDLS] e [MQ].Discutiamo ora in maggiore dettaglio le basi di partenza relative agli argomenti che saranno affrontati nel corso del progetto:
(I) Analisi di distribuzioni iniziali nonparametriche discrete;
(II) Modelli semiparametrici per il clustering bayesiano e per l’analisi della sopravvivenza;
(III) Previsione del numero di specie per l’analisi di dati genetici.
(I) È ben noto che la distribuzione iniziale di Dirichlet seleziona distribuzioni discrete (con probabilità uno); tale caratteristica è condivisa dalla maggior parte delle generalizzazioni proposte in letteratura. Negli anni '90, la ricerca si è occupata principalmente delle possibilità applicative della teoria sviluppata negli anni '70 e '80: di conseguenza, è incentrata sul processo di Dirichlet o su distribuzioni aleatorie da esso derivate, e.g., complessi modelli gerarchici. Di recente si sono avuti degli importanti sviluppi nella costruzione e nello studio di m.p.a. discrete in vari contesti non direttamente legati alla statistica, e.g., in problemi di stoccaggio, in informatica, in genetica delle popolazioni, in ecologia, in fisica statistica, in analisi combinatoria e in teoria delle escursioni. Si veda [Pi3] e la vasta bibliografia ivi contenuta. Varie m.p.a., anche molto diverse per caratteristiche rispetto al processo di Dirichlet, sono state oggetto di un'analisi approfondita. Per quanto riguarda il presente progetto di ricerca è utile ricordare l’ampia famiglia di modelli di species sampling introdotta da [Pi1]: il processo di Dirichlet-Poisson a due parametri ne costituisce l’esempio più importante e ha permesso di trovare soluzione a numerosi e interessanti problemi in molti diversi ambiti. Si veda sempre [Pi3]. L'adattamento e lo sviluppo di questa teoria all’interno dell’ambito bayesiano non parametrico è dovuto ad una serie di articoli di James (se veda, e.g., [Ja1], [Ja2], [Ja3]). Parallelamente [Pr] ha dato avvio ad uno studio sistematico di classi di m.p.a. basandosi su processi di Lévy invece che su partizioni aleatorie: in particolare, definendo m.p.a. mediante opportune trasformazioni di processi additivi. Tra le possibili trasformazioni vi è l’approccio basato sulla normalizzazione, avanzato per la prima volta in [Ki] e sviluppato da [Pi2] nella direzione delle partizioni aleatorie e da [RLP] in ambito bayesiano. Tale approccio sembra avere le maggiori potenzialità applicative. Tutte queste nuove classi di distribuzioni iniziali possono essere sfruttate nei contesti relativi ai modelli proposti in (II) e (III).
(II) La modellistica semiparametrica si è diffusa in seguito all’introduzione di efficaci algoritmi di campionamento che ne permettono un'applicazione relativamente semplice. Di conseguenza, è diventato comune introdurre delle componenti non parametriche all’interno dei modelli per incrementarne la flessibilità.
Un problema importante che può essere affrontato con questa strategia è il clustering bayesiano: in questo contesto le misture di processi di Dirichlet di [Lo] occupano un ruolo preminente; comunemente sono rappresentate come misture gerarchiche con la m.p.a. di Dirichlet che ne regola la struttura latente. Il fatto che la distribuzione iniziale di Dirichlet selezioni distribuzioni discrete la rende inadatta per modellare dati "continui": usata nell'ambito di un modello mistura questo difetto non solo viene superato, ma si tramuta in un pregio fornendo un modello flessibile per raggruppare i dati. Infatti, il numero di valori distinti generati dal processo di Dirichlet rappresenta il numero di cluster rispetto ai quali le osservazioni vengono raggruppate. Lo sviluppo di efficaci metodi di simulazione (si veda, e.g., [EW], [MM]) ha reso la mistura di Dirichlet un metodo semplice e potente sia per la stima di densità sia per individuare il numero di componenti di una mistura che ha generato un insieme di dati. Uno studio legato a modelli di partizioni prodotto ([Ha], [BH]) si può trovare in [QI]. Una naturale estensione di tali misture consiste nel sostituire la m.p.a. di Dirichlet con una diversa m.p.a.: in [IJ] si considerano stick-breaking priors, mente in [LMP1] e [LMP2] si sfruttano misure normalizzate. Si veda anche [NPW] per una versione più generale del modello.
Anche per quanto concerne l’analisi della sopravvivenza, la statistica bayesiana non parametrica ha introdotto una modellistica innovativa e utile. La caratteristica dei modelli di sopravvivenza è quella di trattare dati incompleti, tipicamente dati soggetti a censura a destra, ossia dati per i quali si è cessato di osservare il fenomeno prima che del verificarsi dell’evento oggetto di studio. Per tali problemi è conveniente esprimere la distribuzione di probabilità in termini di hazard rate piuttosto che di funzione di densità, in quanto la verosimiglianza di dati censurati a destra si può derivare in termini dell’hazard rate. L’hazard rate è una funzione del tempo che descrive il rischio istantaneo che l’evento si verifichi condizionatamente al fatto di non essersi ancora verificato. In ambito non parametrico si lascia non specificato il cumulative hazard, che corrisponde all’integrale dell’hazard rate in ipotesi di continuità, ma che nel caso non continuo ha una più precisa interpretazione di probabilità condizionale quando si guardi ai corrispondenti incrementi istantanei. Le distribuzioni iniziali più popolari in questo ambito sono i processi neutrali a destra [Do] che godono della proprietà di coniugio rispetto a dati censurati a destra e, quindi, sono particolarmente trattabili. Esempi notevoli sono la distribuzione neutrale a destra basata sul processo gamma [Ka] e il processo Beta-Stacy [WM]. Maggiormente in linea con l’analisi della sopravvivenza tramite processi di punto [ABGK] è il processo beta di [Hj1], dove si richiede espressamente che il cumulative hazard abbia salti limitati nell’intervallo (0,1). Dopo aver descritto la componente non parametrica forniamo una breve panoramica delle linee di ricerca rilevanti ai fini del progetto: una prima è rappresentata dall’inferenza per modelli di regressione sull’hazard, quali il modello a rischi proporzionali [Co] e il modello additivo [Aa]. Contributi bayesiani per il primo si trovano in [Cl] e [KL1], mentre per il secondo si veda [LY]. Un’altra direzione, relativamente meno sviluppata, riguarda l’inferenza bayesiana di tempi di attesa in modelli multi-stato, dove l’interesse si sposta su modelli di regressione sui transition-specific hazard rates, cioè gli hazard rate che descrivono il rischio istantaneo di una transizione tra due stati, condizionatamente al fatto di non essersi ancora verificata alcuna transizione al di fuori del primo stato. Si veda [AK] per una recente rassegna sulla letteratura frequentista in materia.
(III) L’inferenza sulle specie esistenti in una data popolazione è una questione rilevante in numerosi aspetti della biologia e dell'ecologia. In particolare, si supponga di disporre di un campione e di rilevare il numero di specie distinte presente in esso: il problema della valutazione della probabilità di scoprire un dato numero di nuove specie in un secondo campione proveniente dalla stessa popolazione è stato studiato da diversi autori. Si veda, e.g., [GT], [BBC], [CF], [CS], [Ro]. Questo problema è noto nella letteratura scientifica come problema di coverage e lo stimatore maggiormente utilizzato è il celebre predittore di Good-Toulmin. Questi argomenti hanno ottenuto di recente un rinnovato interesse poiché appaiono frequentemente nell’analisi di dati genomici (in particolare, nell'analisi di frammenti di DNA). Si veda, e.g., [ML], [Ma]. Si noti come tutti i contributi citati in precedenza si basano su un approccio frequentista. Da un punto di vista bayesiano in letteratura non sono presenti risultati, con l’eccezione di [TT] ove sono forniti alcuni risultati parziali legati al processo di Dirichlet. La lacuna di risultati bayesiani in una così importante area applicativa merita decisamente di essere colmata, considerando anche il fatto che l’approccio non parametrico si applica piuttosto naturalmente a questa categoria di problemi. <<<



