Contribuciones a la detección de variables relevantes en tablas de contingencia multivariantes.

  1. Castro López, Claudio
Dirigida por:
  1. Purificación Galindo-Villardón Directora

Universidad de defensa: Universidad de Salamanca

Fecha de defensa: 22 de junio de 2005

Tribunal:
  1. Pedro Jiménez Guerra Presidente/a
  2. Carmelo Antonio Ávila Zarza Secretario
  3. Mario Miguel Ojeda Ramírez Vocal
  4. Ana Isabel Garcia Felipe Vocal
  5. Francisco Javier Martín Vallejo Vocal
Departamento:
  1. ESTADÍSTICA

Tipo: Tesis

Teseo: 125827 DIALNET

Resumen

En el contexto de la familia de métodos de segmentación AID (Automatic Interaction Detection), el más conocido de ellos es CHAID (CHI-square AID), CHAID utiliza un conjunto de variables explicativas y una variable predictora, todas ellas categóricas. El objetivo del método es segmentar la población o muestra en grupos de individuos lo más homogéneos posible, respecto de la variable respuesta. En diferentes etapas del método se utiliza el test Chi-cuadrado, por ejemplo, en la fase de agrupamiento de categorías de cada variable predictora y en la elección del mejor predictor con respecto de la variable dependiente (primeras dos etapas del algoritmo). Emplear el test Chi-cuadrado presenta serías limitantes a un procedimiento que se supone asimétrico en su planteamiento. Es decir, usar el test Chi-cuadrado no captura el carácter asimétrico de una variable respuesta y una predictora en la tabla de contingencia, no considera que la variable respuesta pueda estar en escala ordinal, no verifica condiciones de colapsabilidad de variables en la tabla multidimensional de partida, no es sensible a detectar el fenómeno conocido como Paradoja de Simpson, y efectúa un gran número de pruebas de hipótesis pudiéndose presentar riesgo en error de tipo I.. Ante esta problemática, el trabajo de tesis desarrolla una adecuación algorítmica a la fase de colapsamiento de categorías, mediante el empleo de un modelo de efectos columna, para capturar el orden subyacente en las categorías de la variable respuesta. Se profundiza en el colapsamiento de variables mediante modelos gráficos para tablas de contingencia multivariantes con estructuras de respuesta y modelos en bloques encadenados, ya que estos modelos son subyacentes a un proceso de segmentación. Se desarrolla un método de segmentación basado en la obtención de una variable latente (no observable), la cual es obtenida a través de un modelo de clases latentes, a partir