Cluster no jerárquicos versus cart y biplot

  1. Carrasco Oberto, Gonzalo Isaac
Supervised by:
  1. Purificación Vicente Galindo Director
  2. Carmen Patino Alonso Co-director

Defence university: Universidad de Salamanca

Fecha de defensa: 30 November 2020

Committee:
  1. Mitzi Isabel Cubilla Montilla Chair
  2. Antonio Blázquez Zaballos Secretary
  3. Claudio Castro López Committee member
Department:
  1. ESTADÍSTICA

Type: Thesis

Teseo: 644897 DIALNET

Abstract

Machine Learning, como métodos no supervisados (simétricos utilizando la terminología estadística) basados en algoritmos cuyo objetivo directo es agrupar las unidades taxonómicas a clasificar, bajo diferentes criterios; sin embargo, en la era actual en la que cada día es más frecuente el manejo de grandes masas de datos y de un elevado número de variables, estos métodos son insuficientes. El Algoritmo K-means de Forgy, propuesto en 1965, y modificado por Mcqueen en 1967, sigue siendo el método más utilizado, probablemente porque es fácil de implementar y de interpretar sus resultados, es rápido y eficiente en términos de coste computacional, es sensible a la existencia de outliers, converge pero encuentra mínimos locales de la función de coste, es sensible a la inicialización, no existe una solución única para un número K de clusters. Las limitaciones del K-means han dado lugar a distintas alternativas que tratan de mejorar diferentes aspectos tales como: Fuzzy C-means (Dunn, 1974) donde no se considera la pertenencia de forma dicotómica sino en términos probabilísticos; K-medoids (PAM) (Kaufman & Rousseeuw, 1990) más robusto al ruido y a valores grandes de los datos, donde cada cluster está representado por una observación presente en el cluster (medoid), mientras que en K-means cada cluster está representado por su centroide. Las soluciones para datos de grandes dimensiones, generalizan el Algoritmo PAM, generando Medoids óptimos Globales con el algoritmo CLARA (Kaufman & Rousseeuw, 1990) y parten de submuestras aleatorias iniciales diferentes en varias iteracciones, en la propuesta CLARANS (Ng & Han, 2002). El cluster HJ-BIPLOT es una representación gráfica multivariante donde los clusters se definen, maximizando la Inercia Entre clusters y minimizando la Inercia Dentro de cada clúster, mientras que el Clusplot es una representación gráfica donde los cluster se generan utilizando el algoritmo PAM, Tomando como base la información que arroja la representación geométrica multidimensional HJ-Biplot (Galindo, 1986) de los diferentes clusters posibles, es viable elegir aquellos que sean conceptualmente interpretables. Mientras que en el modelo CART los clusters solo son compatibles con estructuras dicotómicas, en el CLUSTER HJ-BIPLOT los clusters pueden tener cualquier estructura. En el caso de tener una estructura respuesta multivariante y muchas variables explicativas, se pueden generar clusters que capturan la estructura de la respuesta a partir de clases latentes y seleccionan las variables que intervienen en la creación de los clusters, a partir de coeficientes de predictividad que son la base del algoritmo TAID (Castro, 2005), el cual genera árboles ternarios sobre los que se definen los clusters.