Los investigadores partieron de la certeza de que “los pappers de mayor impacto son aquellos que tienden a incluir más información de tipo visual: diagramas y en menor medida fotografías”, según ha recogido la revista Technology Review.

Para hacer más asequible el manejo de estos datos “que mejoran la calidad del documento”, los estudiantes descargaron 4,8 millones de imágenes de un total de 650.000 documentos de biomedicina y salud. A su vez, el algoritmo dividió los gráficos en sus distintas partes logrando un registro de unos 10 millones de figuras científicas.

El equipo programó el sistema para diferenciar entre gráficos de datos (35% del total), fotografías (20%), ecuaciones (17%), tablas (5%), diagramas y otros; obteniendo además la cuantificación de las figuras más utilizadas por los investigadores.

Así mismo, analizaron su evolución histórica según el tipo de publicación, la fecha y la especialidad. “Se ha mantenido relativamente constante en el tiempo, pero varían mucho según la disciplina” ha explicado Lee, “aunque es cierto que los pappers más exitosos tienden a tener más cifras”, aclara.

El siguiente paso para el doctorando y su equipo será incluir en Viziometrics una base de datos relacionada con las ciencias físicas, aunque también se plantean continuar extrayendo información sobre el tipo de diagramas cosechan más éxito en divulgación.