Vai al contenuto| Home page|

   Ti trovi in: HOME »Programmi, progetti e risultati »I progetti »PRIN - Programmi di ricerca di Rilevante Interesse Nazionale»Programma di ricerca
INIZIO_TESTO_DA_INDICIZZARE

PROGRAMMA DI RICERCA 2006

italiano - english
Programmi di ricerca simili:
Classificazione scientifico-disciplinare
Classificazione brevettuale
Classificazione geografica
Bibliografia
Akutsu T., Miyano S. 2001. Selecting Informative Genes for Cancer Classification Using Gene Expression Data, Proc. of the IPSJ SIGNotes Mathematical modeling and Problem Solving
Anthony M., 2004. On data classification by iterative linear partitioning. Discrete Applied Mathematics 144, 2-16.
Astorino A., Gaudioso M., 2002. Polyhedral separability through successive LP. Journal of Optimization Theory and Applications 112, 265-293.
Bafna V. , Gusfield D., Lancia G. and Yooseph S., 2003. Haplotyping as Perfect Phylogeny: A Direct Approach, J. of Comp. Biol., 10.
Bafna V. , Istrail S. , Lancia G. and Rizzi R., 2005. Polynomial and APX-hard cases of the Individual Haplotyping Problem, Theoretical Computer Science, 335(1).
Barnes E., Sokol J. K. and Strickland D. M., 2005. Optimal Protein Structure Alignment Using Maximum Cliques, Operations Research 53.
Berman H., Westbrook J., Feng Z., Gilliland G., Bhat T.N., Weissig H., Shindyalov I.N., Bourne P.E., 2000. The Protein Data Bank, Nucleic Acid Research 28.
Bonizzoni P., Della Vedova G., Dondi R. and Li J., 2003. The Haplotyping Problem: An Overview of Computational Models and Solutions, J. of Comp. Sc. and Tech. 18(6).
Bradley P. S., Fayyad U. M., Mangasarian O. L., 1999. Mathematical programming for data mining: formulations and challenges. INFORMS Journal on Computing 11, 217-238.
Caprara A., Fischetti M. and Toth P., 1999. A Heuristic Method for the Set Covering Problem, Operations Research 47.
Caprara A. ,Lancia G.,Carr B. ,Walenz B. and Istrail S., 2004 1001 optimal PDB structure alignments: Integer Programming methods for finding the maximum contact map overlap, J. of Comp. Biol., 11(1).
Chakravarti R., 1998. It's raining SNPs, hallelujah?, Nat. Gen. 19, n. 3.
Cox B., Kislinger T., Emili A., 2005. Integrating gene and protein expression data: pattern analysis and profile mining. Methods 35, 303–314.
Cristianini N., Shawe-Taylor J., 2000. An introduction to support vector machines and other kernel-based learning methods. Cambridge University Press, Cambridge, UK.
De Bontridder K., Halldorsson B., Halldorsson M., Hurkens C. A. J. , Lenstra J. K., Ravi R. and Stougie L., 2003. Approximation Algorithms for the Test Collection Problem, Mathematical Programming 12.
Ding Z., Filkov V. and Gusfield D., 2006. A Linear-Time Algorithm for Perfect Phylogeny Haplotyping, J. of Comp. Biol. 13(2).
Eidhammer I., Jonassen I. and Taylor W., 2000. Structure comparison and structure patterns, J. of Comp. Biol. 7.
Godzik A., Skolnick J. and Kolinski, 1992. A topology fingerprint approach to inverse protein folding problem, J. Mol. Biol. 277.
Greenberg H., Hart W., Lancia G., 2004. Opportunities for combinatorial optimization in computational biology. INFORMS Journal on Computing 16, 211-231.
Gusfield D., 1997. Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology, Cambridge Univ.Press.
Gusfield D., 2003. Haplotype Inference by Pure Parsimony, Proc. of the Annual Symposium on Combinatorial Pattern Matching (CPM), Lecture Notes in Comp. Sc. 2676.
Gusfield D. and Orzack S., 2005. Haplotype Inference, in Handbook of Computational Molecular Biology, Chapman Hall.
Hart W., Greenberg H. and Lancia G., 2004. Opportunities for Combinatorial Optimization in Computational Biology, INFORMS J. on Comp. 14, n.1.
Holm L. and Sander C. , 1996. Mapping the protein universe, Science 273.
Karp. R.M., 2002. Mathematical Challenges from Genomics and Molecular Biology. Notices of the American mathematical Society 49, 544-553.
Krasnogor N., 2004. Self-Generating Metaheuristics in Bioinformatics: The Protein Structure Comparison Case, J. Gen. Progr. and Evolv. Mach., 5(2).
Krogel M., Scheffer T., 2004. Multi-Relational Learning, Text Mining, and Semi-Supervised Learning for Functional Genomics. Machine Learning 57, 61–81.
Lancia G., Bafna V., Istrail S., Lippert R. and Schwartz R., 2001. SNPs Problems, Complexity and Algorithms, Proc. of the Annual European Symposium on Algorithms (ESA), Lecture Notes in Comp. Sc. 2161.
Lancia G., Carr B., Walenz B. and Istrail S., 2001. 101 Optimal PDB Structure Alignments: A Branch-and-Cut Algorithm for the Maximum Contact Map Overlap Problem, Proc. of RECOMB.
Lancia G. and Istrail S., 2003. Protein Structure Comparison: Algorithms and Applications, Lecture Notes in Bioinformatics, 2666.
Lancia G. , Pinotti C. and Rizzi R., 2004. Haplotyping populations: Complexity and Approximations, INFORMS J. on Comp., 16.
Lancia G. and Rizzi R., 2006. A polynomial solution to a special case of parsimony haplotyping problem, Operations Research Letters, 34(3).
Li L., Kim J. H. and Waterman M., 2004. Haplotype reconstruction from SNP alignment, J. of Comp. Biol., 11(2).
Lippert R., Schwartz R., Lancia G. and Istrail S., 2002. Algorithmic Strategies for the SNPs Haplotype Assembly Problem, Briefings in Bioinformatics 3, n.1.
Mangasarian O. L., 1997. Mathematical Programming in Data Mining. Data Mining and Knowledge Discovery 1, 183-201.
Molla M., Waddell M., Page D., Shavlik J., 2004. Using machine learning to design and interpret gene-expression microarrays. AI magazine 25, 23-44.
Murthy S.K., 1998. Automatic construction of decision trees from data: A multi-disciplinary survey. Data Mining and Knowledge Discovery 2, 345-389.
Orsenigo C., Vercellis C., 2003a. Multivariate classification trees based on minimum features discrete support vector machines. IMA Journal of Management Mathematics 14, 221-234.
Orsenigo C., Vercellis C., 2003b. One-against-all multicategory classification via discrete support vector machines. In: Data Mining III, N. Ebecken et al. eds., WIT Press, Ashurst Lodge, 2003, 255-264.
Orsenigo C., Vercellis C., 2004. Discrete support vector decision trees via tabu-search. Journal of Computational Statistics and Data Analysis 47, 311-322.
Orsenigo C., Vercellis C., 2006a. Rule induction through discrete support vector decision trees. In: Data Mining and Knowledge Discovery Approaches Based on Rule Induction Techniques, E. Triantaphyllou & G. Felici eds., Springer, in press.
Orsenigo C., Vercellis C., 2006b. Accurately learning from few examples with a polyhedral classifier. Computational Optimization and Applications, in press.
Orsenigo C., Vercellis C., 2006c. Multicategory classification via discrete support vector machines. Computational Management Science, in press.
Perez O., Hidalgo-Conde M., Javier Marín F., Trelles O., 2003. Weighting and Feature Selection on Gene-Expression Data by the Use of Genetic Algorithms, Proc. of the 7th Intl. Work-Conf. on Artif.l and Nat. Neural Networks, Lecture Notes in Comp. Sc. 2687.
Pevzner P.A., 2000. Computational Molecular Biology, MIT Press.
Poggio T., Smale S., 2003. The mathematics of learning: dealing with data. Notices of the American Mathematical Society 50, 537-544.
Rost B., 2001. Protein secondary structure prediction continues to rise. J. of Struct. Biol. 134, 204-218.
Schölkopf B., Smola A.J., 2002. Learning with kernels. Support vector machines, regularization, optimization and beyond. The MIT Press, Cambridge, USA.
Valafar F., 2002. Pattern recognition techniques in microarray data analysis: a survey. Techniques in Bioinformatics and Medical Informatics 980, 41-64.
Vapnik V., 1995. The nature of statistical learning theory. Springer-Verlag, New York, USA.
Vapnik V., 1998. Statistical Learning Theory. Wiley, New York, USA.
Wang X, 2005. Finding Patterns on Protein Surfaces: Algorithms and Applications to Protein Classification. IEEE Transactions on knowledge and data engineering 17, 1065-1078.
Waterman M., 1995. Introduction to Computational Biology: Maps, Sequences, and Genomes, Chapman Hall.
Xiong M., Li W., Zhao J., Jin L., Boerwinkle E., 2001. Feature (gene) selection in gene expression-based tumor classification, Mol.Gen. and Metab. 73.
Parole Chiave
OTTIMIZZAZIONE, APPRENDIMENTO INDUTTIVO, ANALISI DEI DATI, SCIENZE DELLA VITA, RICERCA OPERATIVA, GENOMICA & PROTEOMICA, GESTIONE DELLA SALUTE, BIOLOGIA MOLECOLARE, MEDICINA GENETICA

Modelli di data mining e di ottimizzazione per le applicazioni biologiche e mediche

Politecnico di Milano
Abstract
Diverse discipline nell’ambito delle scienze della vita (biolife sciences), quali la genomica, la proteomica, la medicina e la gestione della salute, sono caratterizzate dalla crescente disponibilità di ampie moli di dati sperimentali, che hanno progressivamente accentuato la dipendenza di tali discipline dall’utilizzo di modelli matematici rivolti all’estrazione di conoscenza e alla generazione di predizioni accurate, al fine di conseguire miglioramenti concreti nella gestione e nella cura della salute umana.

Il progetto di ricerca si propone di sviluppare e applicare modelli di data mining e di ottimizzazione a diverse classi di problemi in ambito biolife. L’attività di ricerca riguarderà sia aspetti metodologici, mediante lo sviluppo di nuovi modelli matematici e algoritmi per l’analisi di ingenti moli di dati genomici e l’identificazione di ricorrenze latenti nei dati, sia aspetti applicativi di notevole rilevanza, quali l’individuazione di nuovi ambiti di impiego e il miglioramento dell’efficacia dei metodi proposti per l’analisi dei dati nei sistemi biolife.

Numerosi problemi in ambito biolife sono stati recentemente espressi in termini matematici mediante formulazioni deterministiche o probabilistiche. Nonostante la rilevanza di questi primi approcci, riteniamo che ancora molto si debba fare per affinare i modelli matematici e gli algoritmi proposti, al fine di conseguire miglioramenti significativi nell’accuratezza delle predizioni >>>

Coordinatore Scientifico del Programma di Ricerca
Carlo Vercellis Politecnico di MILANO
Obiettivo del Programma di Ricerca
Il progetto di ricerca si pone l’obiettivo generale di sviluppare nuovi modelli matematici e algoritmi per l’ottimizzazione, l’individuazione di ricorrenze latenti e l’analisi di vaste moli di dati per diverse classi di problemi nell’ambito della biologia molecolare, la genomica, la proteomica, la medicina, la gestione della salute. Numerosi problemi in ambito biolife sono stati recentemente espressi in termini matematici mediante formulazioni deterministiche o probabilistiche. Nonostante la rilevanza di questi primi approcci, riteniamo che ancora molto si debba fare nel campo della ricerca matematica per affinare i modelli e gli algoritmi proposti, al fine di conseguire miglioramenti significativi nell’accuratezza delle predizioni, nell’efficienza delle elaborazioni e nell’efficacia del processo decisionale nel suo complesso.

Il programma di ricerca riguarderà sei ambiti di indagine tra loro interconnessi. Il primo ha natura metodologica, mentre i rimanenti riguardano significativi problemi in ambito biolife:

Obiettivo 1: Sviluppo di modelli matematici per la classificazione e la regressione.
Il primo obiettivo riguarda lo sviluppo di nuovi modelli e algoritmi per l’apprendimento induttivo, utili per le indagini di tipo biolife previste nei rimanenti obiettivi del progetto. L’attività di ricerca sarà rivolta a: generare modelli di classificazione in grado di apprendere in modo accurato da un numero esiguo di osservazioni: in numerosi >>>

Durata
24 mesi
Base di partenza scientifica nazionale o internazionale
Nella cosiddetta era post-genomica, la ricerca nel campo biologico e medico si sta progressivamente spostando dall’acquisizione dei dati all’analisi e all’interpretazione dei dati raccolti. Il ritmo crescente con il quale vengono accumulati dati genomici e dati relativi allo stato di salute degli individui offre la possibilità di sviluppare nuovi modelli matematici rivolti all’estrazione di conoscenza e alla generazione di predizioni accurate, al fine di conseguire miglioramenti concreti nella gestione e nella cura della salute dell’uomo.

Numerosi problemi nel campo delle scienze della vita (biolife sciences) sono stati recentemente tradotti in termini matematici mediante formulazioni deterministiche o probabilistiche; si vedano le surveys (Karp, 2002; Greenberg & al., 2004). Nonostante la rilevanza di questi primi approcci, riteniamo che ancora molto si debba fare per affinare i modelli matematici e gli algoritmi proposti, al fine di conseguire miglioramenti significativi nell’accuratezza delle predizioni, nell’efficienza delle elaborazioni e nell’efficacia del processo decisionale nel suo complesso. In particolare, l’ampia disponibilità di banche dati contenenti insiemi di dati sperimentali raccolti in diversi ambiti biolife, offre ai ricercatori nel campo delle metodologie matematiche la possibilità di collaudare nuovi modelli e di valutare i miglioramenti nell’accuratezza delle predizioni e nelle prestazioni in generale.

Nella >>>