Evaluación de la producción científica mediante motores de búsqueda académicos y de acceso libre

MEDRANO, JOSE FEDERICO

Evaluación de la producción científica mediante motores de búsqueda académicos y de acceso libre

MEDRANO, JOSE FEDERICO

Dirigida por:

José Luis Alonso Berrocal Director
Luis Carlos García de Figuerola Paniagua Director

Universidad de defensa: Universidad de Salamanca

Fecha de defensa: 12 de julio de 2017

Tribunal:

Francisco Javier García Marco Presidente/a
Ángel Francisco Zazo Rodríguez Secretario
Montserrat Mateos Sánchez Vocal

Departamento:

INFORMÁTICA Y AUTOMÁTICA

Tipo: Tesis

Teseo: 488153 DIALNET

Resumen

La evaluación de la producción científica o específicamente la evaluación de la productividad de un científico, ha sido desde que se iniciaran las publicaciones de los resultados de la investigación, una tarea nada sencilla. El ser humano en su naturaleza de cuantificarlo todo, ha desarrollado a lo largo del tiempo, variadas métricas y metodologías para contabilizar los frutos del trabajo de la investigación y comunicarlo a la comunidad científica. Cualquier tarea que implique una medida lleva consigo el empleo de un conjunto de técnicas, herramientas, fórmulas y reglas para asegurar la objetividad de los resultados arrojados. Para obtener indicadores de productividad es necesario tener acceso a los datos que servirán para el análisis, en este caso, acceso a los resultados de la investigación en forma de publicaciones científico-académicas. Las bases de datos tradicionales como lo son Scopus y Web of Science han sido los referentes en este ámbito por muchísimo tiempo, pero en la última década y media se ha comenzado a gestar, y en los últimos años con más fuerza, la apertura de esta información, tal es el caso de la existencia de los motores de libre acceso, el ejemplo favorito de este tipo de motores es sin lugar a dudas Google Scholar, aunque Microsoft ha realizado una apuesta firme con la nueva versión de su motor académico Microsoft Academic. La existencia de motores académicos de libre acceso ha abierto la puerta a un sin número de estudios encargados de evaluar dichas herramientas desde distintos puntos de vista: la cobertura y la autenticidad de la información son dos de los más populares. Estos motores han evolucionado al punto que pasaron de ser simples interfaces de búsqueda de material académico a ser consideradas herramientas de evaluación. A raíz de esto se generó un debate interesante entre los encargados de realizar análisis bibliométricos, pues dichos motores al ser de libre acceso presentan ciertos problemas como la falta de normalización de los datos, problema del que no escapan incluso las bases de datos tradicionales. La falta de normalización en cualquier tipo de bases de datos no es un problema trivial y si sumado a ello, estas bases de datos son utilizadas para evaluar la productividad de un académico, para otorgar subvenciones, becas o promover un ascenso, el problema se torna un tanto complejo. No se debe perder de vista que dicho inconveniente desencadena una serie de problemas no menores como la existencia de duplicados, la imposibilidad de identificar claramente homónimos, la existencia de material no científico-académico, entre muchos otros. Hoy por hoy Google Scholar presenta algunos indicadores bibliométricos en su motor académico con lo cual la discusión se amplía más aun, pues dichos indicadores se basan en la información que recolecta este motor, es más, empresas encargadas de realizar análisis bibliométricos toman como fuente de datos los provistos por este buscador. Habiendo dado un pequeño panorama de la situación actual, esta tesis pretende ofrecer una alternativa a los resultados que ofrecen este tipo de motores académicos de libre acceso, pues se entiende que el principal problema es la falta de normalización. Es así, que en un intento de mejorar la calidad de la información brindada, en este trabajo se desarrolló una herramienta que toma como origen de datos las publicaciones de un científico que se pueden recoger de Google Scholar, Microsoft Academic o cualquier otro motor académico. La idea es procesar estos datos poco normalizados y obtener indicadores más cercanos a la realidad, o al menos libres de los inconvenientes mencionados. Para ello, en primer lugar se ofrece un estado de la cuestión enfocado en los problemas que se han recogido de la bibliografía existente, también se realiza un estudio de los indicadores y de las formas más comúnmente utilizadas a la hora de evaluar la producción científica, se presenta un pantallazo de las herramientas que actualmente evalúan o recogen de otras herramientas información para evaluar el estado actual de la productividad de un académico, analizando el conjunto de publicaciones como es el esquema habitual y analizando también el impacto de estas en las redes sociales tanto científico-académicas como redes sociales comunes (alternativas altmetrics), por último en esta primera parte se revisan los esquemas, técnicas y herramientas más importantes utilizados en la actualidad para resolver estos problemas y las posibilidades en cuanto a visualización de información que ofrecen las bases de datos actuales. Luego de la parte introductoria, se describen todos los procesos y mecanismos generados primero para recuperar la información de estos motores y luego para procesar dicha información. El procesamiento que se dio a los datos se divide en tres partes, la primera de ellas permite desambiguar los autores de un conjunto de publicaciones, este primer proceso evalúa los patrones de colaboración que se establecen entre los coautores de una publicación, esto permite agrupar conjuntos de autores que al parecer se conocen o colaboran entre sí, solo se cuenta con los datos ofrecidos por una publicación de un motor poco normalizado, no se cuenta con datos adicionales para resolver este problema, es la incertidumbre quien guía el proceso de análisis y es en base a esta información que se realizan las inferencias para obtener un resultado aproximado. La segunda parte del proceso se encarga de desambiguar los registros de las publicaciones de estos grupos formados, para ello detecta los posibles duplicados y realiza una fusión de las citas recibidas por estos registros. La tercera parte del proceso ofrece los resultados obtenidos primero como un conjunto de indicadores y luego como una visualización interactiva desarrollada totalmente para este trabajo, que logra exhibir algunas de las dimensiones y variables involucradas al momento de evaluar un conjunto de publicaciones. Una vez detallado el modelo que se diseñó para procesar la información, se realiza un experimento real para comprender no sólo como funciona la herramienta sino también para entender el procesamiento completo llevado a cabo y tener así una imagen completa de la complejidad de esta tarea. Por último se resumen los resultados obtenidos, resaltando las mejoras y ventajas que aporta la solución planteada, como el hecho de intentar resolver la ambigüedad en nombres de autores identificando todas las posibles variantes y excepciones en la forma y modo de firmar de un autor, resuelve también la ambigüedad de los títulos de los registros de publicaciones, parte de un conjunto de datos poco normalizado y realiza un ajuste y limpieza adecuado entregando indicadores más reales, se vale del uso de herramientas diseñadas para propósitos académicos como la Academic Knowledge API o de búsquedas de propósito general como la Bing Web Search API de Microsoft, además propone una visualización interactiva que mejora en gran medida las visualizaciones básicas y estáticas ofrecidas por las bases de datos actuales. Pese a las ventajas del modelo expuesto, este presenta ciertas limitaciones como la utilización de una única fuente de datos al mismo tiempo, la demora en el procesamiento para algunos casos, pues ante la falta de datos y de información para el proceso de desambiguación, es necesario consultar información de la web y obtener datos que den algún indicio de las relaciones entre dos grupos de autores al parecer no relacionados, además algunos de los procesos corren en línea, con lo cual la demora es real pues no se realiza un procesamiento inicial al almacenar los datos, como lo realizan otras bases de datos. De un modo u otro, estos problemas se podrán resolver en líneas futuras de investigación ampliando los límites de los orígenes de datos, empleando otras técnicas y mecanismos que aumenten el conocimiento inicial, por ejemplo incluyendo datos adicionales como datos filiatorios, datos geográficos, información del campo de estudio, técnicas de PLN entre otros.