Un sistema para el mantenimiento de almacenes de datos

  1. García Gerardo, Clemente
unter der Leitung von:
  1. Matilde Celma Giménez Doktorvater/Doktormutter

Universität der Verteidigung: Universitat Politècnica de València

Fecha de defensa: 26 von Juni von 2008

Gericht:
  1. Oscar Pastor López Präsident/in
  2. Vicente Pelechano Ferragud Sekretär/in
  3. Francisco José García Peñalvo Vocal
  4. Paloma Martínez Fernández Vocal
  5. H. Decker Vocal

Art: Dissertation

Zusammenfassung

Un almacén de datos es una base de datos diseñada para dar soporte al proceso de toma de decisiones en una organización. Un sistema de almacén de datos integra en un único repositorio, información histórica procedente de distintas fuentes de datos operacionales de la organización o externas a ella. Para que el almacén de datos sea en todo momento un reflejo fiel de la organización a la que sirve, debe ser actualizado periódicamente. Este proceso puede consumir muchos recursos, y en algunos casos inhabilitar el almacén de datos para los usuarios. En organizaciones donde el sistema debe estar disponible para los analistas en todo momento, el mantenimiento del almacén se convierte en un punto crítico del sistema. Por este motivo la investigación en estrategias eficientes de mantenimiento de almacenes de datos ha recibido la atención de los investigadores desde la aparición de esta tecnología. El mantenimiento de un almacén de datos se realiza en tres fases: extracción de datos de las fuentes, transformación de los datos y actualización del almacén. En este trabajo de tesis se han abordado, las fases de transformación y principalmente la fase de actualización. Para la fase de transformación se ha desarrollado un sistema que permite realizar tareas de limpieza moderada de los datos, integración de formato e integración semántica. Pero, el trabajo principal se ha centrado en la fase de actualización, para ella se han definido e implementado dos algoritmos que permiten realizar la actualización del almacén de datos de forma incremental y en línea, es decir evitando inhabilitar el almacén de datos durante el mantenimiento. Los algoritmos se basan en una estrategia multiversión, que permite mantener un número ilimitado de versiones de los datos actualizados, permitiendo de esta manera que los usuarios accedan a una misma versión del almacén mientras éste se está actualizando. Estos algoritmos mejoran otras propuestas existentes en la literatura, y permiten el mantenimiento e