Contribuciones al anàlisis Biplot basadas en soluciones factoriales disjuntas y en soluciones Sparse

  1. Cubilla Montilla, Mitzi Isabel
Dirigida por:
  1. Purificación Galindo-Villardón Directora
  2. Ana Belén Nieto Librero Codirectora

Universidad de defensa: Universidad de Salamanca

Fecha de defensa: 05 de septiembre de 2019

Tribunal:
  1. Eugenia Maria Maia Ferreira Castela Presidente/a
  2. Carmen Patino Alonso Secretaria
  3. David Almorza Gomar Vocal
Departamento:
  1. ESTADÍSTICA

Tipo: Tesis

Resumen

Los métodos Biplot han cobrado importancia, durante más de cuatro décadas contribuyendo al avance de la ciencia de manera efectiva. En cualquier campo o área de investigación se ha puesto de relieve el aporte de estos métodos; con los cuales, datos provenientes de las Ciencias Naturales o las Ciencias Sociales, se ven favorecidas en la toma de decisiones a través de esta metodología. Con el fin de dar un paso importante que contribuya en el proceso de análisis multivariante de grandes y complejos conjuntos de datos; y al mismo tiempo, hacer un novedoso aporte a favor de los métodos Biplot, se ha elaborado esta tesis. La tesis inicia presentando la definición del Biplot y el desarrollo de los fundamentos teóricos que le sustentan, se presentan luego las propiedades fundamentales de la representación y las reglas básicas de interpretación, y se concluye con una revisión bibliográfica sobre las principales contribuciones a la metodología Biplot. En la segunda parte se presentan en detalle los diferentes métodos biplot, los elementos a considerar para su construcción, sus propiedades y las formas de representación gráfica. Se hace referencia tanto a los métodos biplot para datos cuantitativos, así como también para datos de tipo binario y/o categórico. Posteriormente, se presenta en detalle cada una de las librerías en R y las Interfaces Gráficas de Usuario (GUI) que llevan a la representación del Biplot. En esta sección también se examina la capacidad de utilizar en un contexto específico las diferentes librerías e interfaces sobre Biplot, para lo cual se conformará una matriz de datos reales que permita explorar estas técnicas e ir comparando los resultados. El apartado central de esta tesis evidencia la necesidad de implementar nuevos modelos para el análisis de datos multivariantes, de cara al desarrollo del Big Data. Para adaptarse a datos masivos es necesario la implementación de nuevas técnicas, capaces de reducir la dimensionalidad de los datos y mejorar su interpretación. Como el Biplot basa su fundamento teórico en el ACP, iniciamos con una revisión bibliográfica de los diferentes métodos de Análisis de Componentes Principales encaminados a simplificar la información original, que comprenden desde los métodos de rotación hasta las metodologías SPARSE y las componentes disjuntas. A partir de allí, nos centramos en la construcción de nuevas metodologías Biplot (SPARSE), poniendo especial énfasis en la construcción de componentes principales modificadas, mediante la contracción o anulación de las cargas. Se proponen diferentes metodologías Biplot: Ridge HJ Biplot, LASSO HJ Biplot y Elastic Net HJ Biplot. En cada caso se propone el algoritmo en R para su uso. De esta manera, los métodos biplot enriquecen las técnicas estadísticas multivariantes utilizadas en análisis de datos masivos.