Desarrollo y aplicación de métodos estadísticos basados en recortes imparciales a datos de expresión génica de alta dimensionalidad

  1. Fernández Martínez, Icíar
unter der Leitung von:
  1. Agustín Mayo Iscar Doktorvater/Doktormutter
  2. Javier de las Rivas Sanz Doktorvater

Universität der Verteidigung: Universidad de Valladolid

Fecha de defensa: 24 von Juli von 2012

Gericht:
  1. Carlos Gabriel Matrán Bea Präsident/in
  2. Luis Angel García Escudero Sekretär/in
  3. Juan Antonio Cuesta Albertos Vocal
  4. María Angeles Gil Alvarez Vocal
  5. Rodrigo Santamaría Vicente Vocal

Art: Dissertation

Zusammenfassung

En esta Tesis proponemos la utilización de métodos estadísticos basados en recortes imparciales [Gordaliza, 1991] que, aplicados a matrices de datos de expresión génica de alta dimensionalidad, permiten obtener estimadores con funcionamiento robusto mediante la eliminación de un porcentaje de individuos. La aplicación de este tipo de estrategias nos va a permitir caracterizar el nivel de expresión típico de cada gen en medidas de escala genómica (genome-wide) como el que aparece asociado al comportamiento de una mayoría de condiciones, utilizando una adaptación del estimador smart [Cuesta-Albertos et al, 2008] a una situación unidimensional. Nuestra aproximación plantea utilizar como procedimiento de recorte de partida el estimador MCD de [Rousseeuw, 1985], lo que permite obtener una representación simplificada para el estimador smart y la obtención de un algoritmo más eficiente que el disponible actualmente. La estimación de los parámetros que describen el comportamiento típico de un gen, va a permitir identificar mejor condiciones que manifiestan expresión diferencial y nuevas definiciones para caracterizar genes que muestran comportamientos de expresión generalizada (tipo gen housekeeping). El estimador propuesto será la base de estadísticos para identificar comportamientos atípicos en muestras clasificadas inicialmente como homogéneas, y también para contrastar expresión diferencial entre condiciones diferentes. Basado en los mismos principios, proponemos la utilización de metodología para encontrar grupos de genes (clústers) que co-expresan y para encontrar agrupaciones conjuntas de genes y de condiciones que comparten patrones de co-expresión. Los procedimientos de agrupación propuestos incorporan el recorte de un porcentaje de genes y de condiciones para aumentar la robustez de la clasificación propuesta. Para todos los procedimientos propuestos se han desarrollado funciones, algoritmos y programas de R [R Development Core Team, 2011] que los implementan. El funcionamiento de los métodos se ha ilustrado utilizando datos simulados y sobre todo utilizando varios conjuntos de datos reales correspondientes a experimentos y estudios biológicos con microarrays de oligonucleótidos de alta densidad, que es una de las tecnologías genómicas de gran escala más utilizadas para el estudio de la expresión génica. [Gordaliza, 1991] Gordaliza A. Best approximations to random variables based on trimming procedures. Journal of Approximation Theory, 64: 162 - 180; 1991. [Cuesta-Albertos et al, 2008] Cuesta-Albertos JA, Matrán C, Mayo-Iscar A. Trimming and likelihood: robust location and dispersion estimation in the elliptical model. The Annals of Statistics, 36: 2284-2318; 2008. [Rousseeuw, 1985] Rousseeuw PJ. Multivariate Estimation with High Breakdown Point. In Mathematical Statistics and Applications, Vol. B (eds. W. Grossmann et al.) pp 283 - 297. Dor-drecht: Reidel Publishing Co; 1985. [R Development Core Team, 2011] R Development Core Team (2011). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/