Desarrollo de algoritmos bioinformáticos para estudios de genómica funcional: aplicaciones en cáncer

Fontanillo Fontanillo, Celia

Desarrollo de algoritmos bioinformáticos para estudios de genómica funcionalaplicaciones en cáncer

Fontanillo Fontanillo, Celia

Dirigida por:

Javier de las Rivas Director

Universidad de defensa: Universidad de Salamanca

Fecha de defensa: 19 de marzo de 2013

Tribunal:

Alberto Orfao Presidente
José Manuel Sánchez Santos Secretario/a
Manuel Martín-Merino Acera Vocal
José M. Sayagues Manzano Vocal
Alberto Pascual Montano Vocal

Tipo: Tesis

Teseo: 340207 DIALNET GREDOS editor

Resumen

[ES]La presente Tesis Doctoral se enmarca en las áreas de conocimiento de la Bioinformática y Biología Computacional y también de la Genómica Funcional y Genómica del Cáncer. El objetivo fundamental de la Genómica Funcional es entender cómo funciona el genoma en su conjunto mediante el análisis de la actividad de todos sus genes y de los múltiples factores que regulan o influyen la expresión de los mismos, así como otras entidades biomoleculares relacionadas. La recolección sistemática de información y datos procedentes de tecnologías genómicas experimentales globales a gran escala proporciona un punto de partida para desvelar la actividad del genoma y el comportamiento de los sistemas vivos asociado a su genoma. En este marco temático, el trabajo de esta Tesis Doctoral ha sido el desarrollo y aplicación de varios algoritmos bioinformáticos para el análisis de datos sobre muestras humanas de pacientes con cáncer procedentes de diversas plataformas genómicas de alta densidad, así como su integración e interpretación para descubrir los genes y procesos biológicos alterados en dichas patologías. En concreto se han analizado datos de los tipos mayoritarios de leucemias agudas y crónicas (ALL, AML, CLL, CML), de cáncer colorectal (CRC) metastásico y de tumores cerebrales primarios de tipo glioblastoma multiforme (GBM). Los resultados concretos obtenidos, enunciados modo breve, son: (1) desarrollo de un clasificador multiclase para diferenciar subtipos patológicos basado en perfiles globales de expresión (¿geNetClassifier¿); (2) desarrollo de un método para análisis cuantitativo de alteraciones genómicas del número de copias de DNA (CNA) y detección de puntos de ruptura en el genoma, aplicado a muestras de cáncer; (3) desarrollo de un método para análisis integrado de alteraciones genómicas en número de copias (CN) y alteraciones transcriptómicas de la expresión génica (GE); (4) desarrollo de un algoritmo y una aplicación web para análisis biológico funcional basado en asociación recíproca múltiple de genes y términos biológicos derivados de diferentes espacios de anotación (¿GeneTerm Linker¿ http://gtlinker.cnb.csic.es/). A continuación se hace una descripción más amplia de todos estos resultados y se citan los trabajos científicos donde se han publicado. En primer lugar, se han utilizado datos transcriptómicos de perfiles de expresión génica para diferenciar subtipos de enfermedades así como para identificar una firma molecular propia de cada uno de los subestados patológicos. Para ello se ha desarrollado el algoritmo geNetClassifier que proporciona un método de clasificación multiclase robusto, evaluado mediante validación cruzada anidada y centrado en el acceso transparente a las entidades biológicas. Este clasificador realiza una asignación probabilística de nuevas muestras a cada uno de los estados, de manera que permite reducir el número de falsos positivos y lograr una mayor semejanza con el proceso de decisión que llevaría a cabo un experto humano. Además de identificar los genes marcadores para cada enfermedad, el algoritmo analiza las relaciones entre dichos genes de manera que se facilita la creación de redes de genes asociados a cada subtipo patológico y la identificación de los procesos biológicos desregulados en cada estado en los que cooperan dichos genes marcadores. Para usar este algoritmo se ha preparado un paquete de R disponible en Bioconductor (http://www.bioconductor.org/). Junto a la información transcriptómica, las alteraciones genómicas juegan un papel importante en los procesos tumorales. Estos procesos patológicos provocan habitualmente una acumulación de alteraciones en el DNA, con incrementos y disminuciones en el número de copias de DNA. Se ha implementado un flujo de trabajo completo para el análisis de estas alteraciones y la caracterización de diferentes tipos tumorales basados en la presencia o aparición de las mismas. Los algoritmos diseñados se basan en la discretización de los valores cuantitativos continuos del número de copias de DNA en 3 estados: amplificación (o ganancia), deleción (o pérdida) y no cambio; obtenidos mediante microarrays genómicos de SNPs. A partir la discretización se han desarrollado dos algoritmos que buscan alteraciones recurrentes propias de determinadas patologías. El primer algoritmo identifica regiones mínimas con alteraciones comunes en un conjunto de muestras, que se corresponderán con las alteraciones germinales o más importantes implicadas en el desarrollo de las patologías. El segundo algoritmo identifica las regiones con puntos de ruptura, es decir, en las se producen frecuentemente los cambios en el estado de número de copias, normalmente asociadas con el desarrollo tumoral. Utilizando estos algoritmos se han identificado regiones alteradas candidatas a marcadores moleculares de cáncer colorectal (CRC) metastásico. Además se ha identificado un punto de ruptura en el cromosoma 17p11.2 relacionado con la supervivencia de los pacientes con este tipo de tumor metastásico. Este trabajo ha dado lugar a las siguientes publicaciones: PLoS One 2010, 5: e13752 (PMID: 21060790); PLoS One 2012, 7: e42683 (PMID: 22912721); Mod Pathol 2012, 25: 590 (PMID: 22222638). El análisis de las alteraciones genómicas del número de copias de DNA proporciona una información valiosa para comprender el origen y desarrollo tumoral, sin embargo, no todas las alteraciones definidas producen los mismos efectos sobre la expresión génica. La integración de estos datos junto con los perfiles de expresión génica facilita la identificación de genes conductores claves en el desarrollo y progresión tumoral. Se ha presentado un método para la identificación de alteraciones en el número de copias de DNA asociados a cambios en la expresión génica. El método propuesto permite la integración de datos procedentes de microarrays de RNA y de DNA que reduce, gracias a la segmentación, los efectos de regulación no asociados a la localización genómica. De este modo, se consiguen identificar genes conductores en regiones genómicas candidatas que refinan los resultados obtenidos analizando por separado ambas capas de información. Este trabajo ha dado lugar a la siguiente publicación: BMC Genomics 2012, 13 5:S5 (PMID: 23095915). Por último, se ha propuesto también un método bioinformático de análisis de enriquecimiento funcional llamado ¿GeneTerm Linker¿ que permite la combinación de múltiples espacios de anotación con el objetivo de eliminar redundancias y reducir la complejidad de los resultados de anotación funcional automática. Se ha desarrollado una herramienta web con el método propuesto que facilita la interpretación de los resultados de enriquecimiento mediante el filtrado de términos generales identificados en el análisis de diferentes espacios de anotación y posibilita la inferencia de relaciones funcionales entre genes pobremente anotados. Este trabajo ha dado lugar a la siguiente publicación: PLoS One 2011, 6: e24289 (PMID: 21949701). De modo global, el trabajo descrito en esta memoria proporciona un conjunto de herramientas y algoritmos que permiten estudiar la asociación entre genotipo y fenotipos patológicos. Estudiando las alteraciones genómicas y los cambios en la expresión génica es posible comprender mejor las funciones y procesos que están teniendo lugar en las células y que, de alguna manera, están impulsando el desarrollo tumoral o patológico. El análisis combinado de datos procedentes de técnicas ómicas como los arrays transcriptómicos de expresión y arrays genómicos de DNA permite identificar genes directores o causales y ahondar en los mecanismos que rodean la aparición y la progresión de enfermedades complejas como el cáncer. La profundización en el conocimiento de las enfermedades puede traducirse en tratamientos mejor dirigidos y más específicos, así como en un diagnóstico precoz que posibilite una mejor calidad de vida y una mejora de la supervivencia de los pacientes. Como aporte adicional las herramientas y algoritmos desarrollados en este trabajo son independientes de la tecnología utilizada para la cuantificación de las señales génicas y genómicas y, por ello, pueden ser fácilmente adaptables a otras técnicas experimentales en auge como las nuevas técnicas de secuenciación masiva (NGS) simplemente adaptando el pre-procesamiento de los datos.