Data scraping, investigación académica y la construcción del conocimiento

Published in

qu4nt

5 min readMar 10, 2019

Hace unos 50 años la gran pregunta para los investigadores académicos era dónde buscar la información. Apenas hace dos décadas, la pregunta era que tipo de información emplear. Para los académicos de hoy, inmersos en un mar de datos, la pregunta es cómo clasificar, condensar y procesar información, de forma que esté más a la mano.

Las posibilidades en el uso de los datos se han vuelto infinitas ante el auge de las nuevas tecnologías y el desarrollo de plataformas, las cuales han facilitado la proliferación de datos en todos los espacios de la cotidianidad. Pero tan enorme caudal también viene de la mano de enormes riesgos.

Para muchos académicos de las ciencias sociales, uno de los grandes problemas al momento de realizar una investigación es justamente encontrarse con un volumen importantísimo de datos y fuentes. Sin embargo, las inconsistencias y sesgos exhibidas por estas fuentes, son también un aspecto resaltante que debe tenerse en cuenta al utilizarlas.

En una entrega anterior mencionamos algunos de los retos del mundo del periodismo y la comunicación frente a esa misma realidad. Entonces nos referimos al desarrollo de una sinergia que empuja al mundo de la comunicación social hacia el periodismo de datos.

El manejo de plataformas y herramientas dinámicas resulta muy útil en el procesamiento masivo de datos, y poder sustentar con ello el ejercicio de la profesión periodística con un mayor nivel de rigor, como antítesis a la proliferación de fake news y la sedimentación en la credibilidad que hoy sufren los medios de comunicación.

Así, la necesidad de investigar y sustentar afirmaciones impactan a otros ámbitos distinto al periodismo. También el mundo académico se encuentra atravesado por necesidades de consistencia y estas pueden ser solventadas aplicando herramientas de la ciencia de datos.

Hablemos sobre data scraping.

El data scraping consiste en la extracción de datos de manera masiva, desde sitios web para convertirlos a formatos más sencillos, más fáciles de procesar y gestionar, con el fin de ser almacenarlos, analizados y estudiarlos posteriormente con mayor facilidad. De esta manera, los datos adquieren un carácter multivalente al pasar de una amplia dispersión en la web a formatos para usos instrumentales.

Este proceso de minería de datos que recientemente ha atraído la atención de periodistas, investigadores académicos y otros interesados de diversas disciplinas que demandan información con fines específicos y que, por lo tanto, necesitan acceder y organizar los datos para sus actividades.

El sentido de estas metodologías para búsqueda de información yace no solo en el gran volumen de información, también en su alta dispersión.

Algunas luces para el “scraping”

A pesar de lo pretenciosa u complicada que a veces parece ser la jerga en el mundo de las nuevas tecnologías, lo cierto es que una inmensa parte de ésta, funciona, en realidad en sus adentros como aplicaciones para dummies.

Según el sitio Knightcenter adscrito a la Universidad de Texas, la labor del data scraping es menos complicada de lo que suena, o al menos así lo aseguran tomando palabras del hacker Peter Markun, quien ha realizado varios talleres emocionantes de scraping en la Casa de la Cultura Digital en Sao Paulo. Para Markun el nivel de conocimiento necesario para tomar ventaja de esta técnica es “muy básico”.

“Los raspadores o scrapers son programas sencillos para hacer frente al gran desafío y el ejercicio constante es encontrar un patrón en los datos de páginas web — algunas páginas son muy sencillas, otras son un dolor de cabeza sin fin”, dijo Markun para el Centro Knight para el Periodismo en las Américas.

Knightcenter indica que Markun tiene un perfil público en Scraperwiki, un sitio que le permite acceder a bases de datos creadas por otras personas:

“Al igual que Scraperwiki, hay otras herramientas en línea que favorecen la ampliación de los datos, tales como Mozenda, una interfaz de software sencilla que automatiza gran parte del trabajo, y Screen Scraper, una herramienta más compleja, que trabaja con varios lenguajes de programación para extraer datos de internet. Otra herramienta similar es Firebug (para Firefox)”.

¿Cuál será la mejor forma de investigar sobre las estadísticas mundiales?

Es muy fácil ir a cualquier fuente, como el Banco Mundial, el Fondo Monetario Internacional o el Programa de Naciones Unidas para el Desarrollo. Cualquiera de estas fuentes será sólida, pero no explicará a profundidad cualquiera de estos flagelos y sus denominaciones por país.

Pero, ¿qué ocurre cuando se trata de hallar informaciones más intrincadas como la composición de la balanza comercial de un país, o la procedencia de migrantes por país a un determinado continente? La pregunta es: ¿Qué ocurre cuando debemos generar datos que nadie ofrece en bandeja de plata y debemos ser generadores de conocimiento?

Algunos podríamos ir a cualquier gráfico disponible en sitios como Statista.com. Si necesitamos saber cuantos autos se fabrican por minuto en el mundo podríamos ir a worldometer.com y ver el contador en tiempo real. Cualquier cosa la hay en internet y casi cualquiera puede encontrar cualquier cosa.

Pero en virtud del rigor académico, es decir, a la hora de generar conocimiento, el uso unidireccional de fuentes es contraproducente, en ocasiones riesgoso y muchas veces insuficiente para la expectativa del investigador.

Muchas investigaciones demandan que quien investiga deba generar en muchos casos sus propios “datos duros”, haciendo su propio levantamiento de información y precisando su propio trabajo como fuente.

La forma en que la ciencia de datos está cambiando las formas de procesar la información afectará consistentemente los perfiles profesionales y el desarrollo de la actividad académica y científica de manera transversal en los próximos años. Josh Wills usa una definición sobre “Ciencia de datos” que parece ser bastante acertada e intuitiva:

“Científico de datos (n): Persona que sabe más de estadística que cualquier programador y que a la vez sabe más de programación que cualquier estadístico”. Así, un científico de datos es sencillamente un profesional dedicado a analizar e interpretar grandes bases de datos. O lo que es lo mismo, uno de los profesionales más importantes en cualquier empresa de internet hoy en día.

Dicho de otra manera, hay un paradigma en proceso de cambio. El aradigma emergente requerirá de investigadores de pre y postgrado, el uso de herramientas de la ciencia de datos.

Data scraping, investigación académica y la construcción del conocimiento

Hablemos sobre data scraping.

Algunas luces para el “scraping”

¿Cuál será la mejor forma de investigar sobre las estadísticas mundiales?

Written by Franco Vielma