Enterprise information integration unsupervised proposals for web information extraction

Sleiman, Hassan A.

Enterprise information integration unsupervised proposals for web information extraction

Sleiman, Hassan A.

Dirigida por:

Rafael Corchuelo Gil Director/a

Universidad de defensa: Universidad de Sevilla

Fecha de defensa: 18 de diciembre de 2012

Tribunal:

José Miguel Toro Bonilla Presidente/a
Carlos Alberto Pan Bermúdez Secretario/a
Carlos Molina Jiménez Vocal
Juan Luis Pavón Mestras Vocal
Emilio Santiago Corchado Rodríguez Vocal

Tipo: Tesis

Teseo: 332764 DIALNET Idus editor

Resumen

El objetivo de la integración de información empresarial es ofrecer un acceso uniforme a multiples fuentes de datos, que deben ser tratados como una base de datos única. Los wrappers web son módulos software que tienen como objetivo ofrecer una API para abstraer a los desarrolladores de los detalles requeridos para simular el comportamiento de una persona con los formularios y para transformar los resultados a datos estructurados. Un componente clave en un web wrapper es el extractor de información, que se usa para extraer y estructurar la información de los documentos web. Existen en la actualidad muchas técnicas para aprender las reglas de extracción de información, pero ninguna de ellas es aplicable universalmente. En esta tesis doctoral, nos centramos en las técnicas no supervisadas para aprender estas reglas y los extractores de información basados en heurísticas que no utilizan reglas. Los problemas que estudiamos en esta tesis doctoral son la forma de reducir los costes de desarrollo de las técnicas de extracción de información, la forma de comparar estas técnicas de una forma homogénea y cómo extraer información usando técnicas de extracción eficientes y efectivas. Actualmente, no existe ningún framework para ayudar a los ingenieros del software a diseñar e implementar nuevas técnicas de extracción de información para sitios web semi-estructurados; además, las técnicas no supervisadas existentes tienen diversos problemas que afectan a su aplicación en la práctica. En esta tesis doctoral presentamos una arquitectura de referencia acompañada de un framework para ayudar a los ingenieros del software a desarrollar nuevas técnicas de extracción de información para documentos semi-estructurados. Además, proponemos dos técnicas no supervisadas para la extracción de información que han demostrado ser muy efectivas y eficientes en la práctica.