Bioinformatics to integrate protein and gene information in a relational context, application to human proteomic and transcriptomic data

  1. Droste, Conrad Friedrich
Dirigida por:
  1. Javier de las Rivas Director

Universidad de defensa: Universidad de Salamanca

Fecha de defensa: 04 de septiembre de 2017

Tribunal:
  1. José María de Pereda Vega Presidente
  2. José Manuel Sánchez Santos Secretario
  3. Manuel Martín-Merino Acera Vocal

Tipo: Tesis

Resumen

El objetivo general de esta Tesis Doctoral es el desarrollo y aplicación de algoritmos y métodos bioinformáticos para integrar, analizar y visualizar diversas fuentes de información transcriptómica y proteómica, aplicados principalmente a datos humanos. La integración de múltiples y complejos datos actualmente disponibles sobre proteínas y genes a escala global (es decir, "ómica") es un desafío para los estudios biomédicos y un escenario claro para aplicar y desarrollar nuevos métodos y herramientas bioinformáticas. En este marco, esta Tesis Doctoral ha desarrollado, en su primera parte, la herramienta llamada Path2enet (publicada en BMC Genomics en 2016: Path2enet: generation of human pathway-derived networks in an expression specific context; DOI: 10.1186/s12864-016-3066-7, PMID: 27801297). Esta herramienta permite la integración, en redes biológicas (networks) enriquecidas, de datos relacionales de distinto tipo: (i) rutas de señalización o rutas metabólicas (pathways); (ii) datos de interacciones físicas proteína-proteína (derivados de bases de datos que acumulan información sobre experimentos proteómicos); y (iii) datos de expresión génica (derivados de secuencias expresadas en tejidos específicos, ESTs, o de datos de expresión de experimentos transcriptómicos, tanto de plataformas de microarrays como de RNA-seq). Además, la herramienta Path2enet lleva implimentado el uso del algoritmo gene-barcode que, basado en el tipo de muestras usado, permite indicar qué genes están expresados/activos (ON) o no expresados (OFF) en una red compleja. La herramienta también permite calcular parámetros principales de redes (por ejemplo, degree, betweeness, clustering coefficient y eigenvector) para encontrar nodos clave (hubs) y comparar, por ejemplo, las redes calculadas para diferentes fenotipos o para diferentes tipos de muestras tratadas de distinta forma. Como caso de estudio concreto, se presenta una comparación de las redes generadas para linfocitos humanos de distintos tipos: linfocitos B CD9+, linfocitos T CD8+ y T CD4+. Respecto a estas células se hace un estudio comparativo de las distintas redes generadas derivadas de la ruta de señalización de NOTCH. En la segunda parte de la Tesis se desarrollan una serie de métodos y estrategias de análisis que permiten integrar y comparar datos de transcriptómica (de microarrays y RNA-seq) y datos de proteómica (de espectrometría de masas, MS, y de técnicas basadas en anticuerpos, como MAP-Sec, microsphere-based affinity array coupled to a size-exclusion chromatography). Estas técnicas se utilizan de forma combinada para medir la expresión de proteínas en muestras de una línea celular de linfoide humana: RAMOS (correspondiente a linfocitos B del linfoma de Burkitt); que es tomada como modelo de estudio. El análisis integrativo de datos proteómicos y transcriptómicos muestra un alto solapamiento y concordancia entre las técnicas; aunque la sensibilidad y especificidad de estas tecnologías no es la misma. En este sentido, siempre hemos observado una mayor cobertura sobre el genoma/proteoma y mejor reproducibilidad con las técnicas transcriptómicas. Sin embargo, las técnicas proteómicas muestran mayor sensibilidad para detectar ciertas proteínas (por ejemplo, formas fosforiladas o isoformas alternativas) que no se pudieron detectar bien mediante técnicas transcriptómicas. Esta capacidad de las técnicas proteómicas permite proponer un marco de trabajo más propicio para la identificación de ciertos biomarcadores específicos. En todo caso, la combinación de técnicas transcriptómicas y proteómicas se muestra en nuestro trabajo muy eficiente y poderosa de cara a la caracterización detallada de las proteínas activas en muestras humanas. Finalmente, en la tercera parte de la Tesis hemos desarrollado métodos y estrategias de análisis combinado de datos de proteómica y fosfoproteómica derivados de muestras de pacientes con leucemia (en concreto, leucemia linfocítica crónica, CLL). En este estudio observamos que el fosfoproteoma obtenido para muestras de linfocitos de pacientes con el mismo tipo de leucemia presentaba una reproducibilidad o solapamiento muy bajos (17% de solapamiento), mientras que el proteoma global de estas células si era muy congruente (con un 73% de solapamiento). De este modo se pudo comprobar, por ejemplo, que las proteínas relacionadas con receptores de citoquinas y TLR estaban infra-representadas en comparación con las proteínas de la ruta de señalización de BCR en todas las muestras de leucemia analizadas. Además, varias proteínas relacionadas con la ruta de señalización de BCR (especialmente en la parte citoplasmática y nuclear de la vía, downstream BCR, por ejemplo ERK, JNK y cMYC) están presentes en todas las muestras, sugiriendo que esta ruta tiene un papel clave en el mantenimiento de la supervivencia de las células leucémicas linfocíticas.