Bases de datos, infografías y visualizaciones digitales para el análisis cultural.

Un abordaje desde el campo de las Humanidades Digitales

Las Humanidades Digitales son un campo incipiente en las Ciencias Sociales que por el momento no puede definir objeto de estudio o incluso definirse. Por esa razón, creemos pertinente comenzar por entender a las herramientas de procesamiento y visualización como facilitadores en la investigación y la vez objetos de estudio dentro de este campo.

Los softwares que nos permiten diseñar, construir, configurar y procesar bases de datos para luego ser visualizados por otros programas tienen este doble carácter de ser tanto instrumentos técnicos para llevar adelante la investigación como formar parte de la perspectiva metodológica que nos permite este nuevo enfoque en las Humanidades Digitales.

Cambiar el término “Humanidades “Digitales” significaba que el campo había emergido de un bajo nivel de status como un servicio técnico, para pasar a ser un esfuerzo intelectual genuino con sus propias prácticas profesionales, estándares rigurosos e interesantes exploraciones teóricas (Hayles 2011). (Berry, 2011)

Por otra parte, es importante establecer que el núcleo central estas herramientas es el dato. Esa unidad de información que está superando la producción anual de 8 trillones de preguntas afirmativas/negativas (Aiden y Michel, 2013). Esta confluencia de producción masiva de información y el desarrollo de herramientas para procesarlos, da lugar a la expansión de las escalas de investigación, acelerando ciertos procesos de abordaje al objeto de estudio mientras se reducen tiempos y costos. De todas maneras, estamos muy prontos para pensar en un uso extendido dentro de la comunidad académica, muchas prácticas han sufrido tres desafíos importantes: acceso, comunicación y análisis (Suárez, 2013)

En América latina, España, tal vez, las humanidades digitales van a tener un destino muy diferente porque no pueden institucionalizarse. No tienen recursos, no tienen el peso que tienen en otros lados y no tienen inclusive el poder de cómputo que hay en otros lados. Todo es mucho más casero, todo es mucho más precario y todo es mucho más limitado. (Piscitelli, 2015)

Por último, este artículo tiene dos objetivos:

  • observar a la analítica cultural como un marco que permite usos y límites a las herramientas de procesamiento y visualización.
  • establecer un modelo provisorio para el uso de herramientas que permitan abordar las problemáticas de las Humanidades Digitales.

¿Qué nos permite la analítica cultural?

La definición de manual sobre analítica cultural es la aplicación de una masiva escala de datos y su posterior análisis para el estudio de la cultura humana (Aiden y Michel, 2013). La primera parte hace referencia a la posibilidad de contar con grandes cantidades de información para nuestro uso. Hemos producido vasta cantidad de productos culturales a lo largo de la historia de la humanidad, pero solo en este momento contamos con la posibilidad de acceder ellos de manera conjunta, y sin tener que realizar mucho esfuerzo o gastos.

Lev Manovich en su Laboratorio lab.softwarestudies.com/

Por un lado se encuentran los proyectos de recolección de datos como Google Books o plataformas como Youtube e Instagram que concentran la mayor cantidad de videos y fotos que circulan por la web. Por otra parte, tenemos un poder de almacenamiento que se incrementa a la par de un mejoramiento en el acceso. Chris Anderson explica que hace 60 años la información podía leerse de manera digital; hace 20 Internet permitió que esa información estuviera al alcance de los usuarios; hace 10 los primeros buscadores transformaron toda es información en una sola base de datos; y desde hace 5 años empresas como Google están trabajando sobre este corpus como condición de lo humano:

Imagen tomada de http://cloudtweaks.com
La edad del Petabyte es diferente porque más es diferente. Los Kilobytes eran almacenados en diskettes de 3 ½. Los Megabytes se almacenan en discos duros. Los terabytes en una matriz de discos. Los Petabytes en la nube. A medida que nos movemos en esta progresión, fuimos de la analogía de la carpeta, pasando por el fichero hasta la gran biblioteca y luego… bueno, al llegar al petabyte nos quedamos sin analogías. (Anderson, 2008)
En otras palabras, el conocimiento y la comprensión detallada, que antes sólo se podía llegar a partir de unos pocos textos, ahora puede obtenerse sobre las colecciones masivas de estos. (Manovich, Reading Patterns, 2011)

Para ilustrar las analogías de Anderson, los autores del libro “Uncharted: Big Data as a Lens on Human Culture” (2013), Erez Aiden y Jean-Baptiste Michel, aportan algunos números:

En este momento, el promedio de datos producidos por un usuario es casi de 1 terabyte. Esto equivale a casi 8 trillones de preguntas afirmativas/negativas. Como colectivo, eso significa que la población total produce casi 5 Zettabytes anuales: 40.000.000.000.000.000.000.000 (40 trillones) de bits. (Aiden y Michel, 2013:164)

Mayor cantidad de números representa mayores desafíos para los cientistas sociales, dado que estos están estructurados de manera distinta. No hay un terreno seguro para los experimentos elegantes que den resultados precisos. En la Big Data los datos son confusos. (Aiden y Michel, 2013:273)

Charla TED de Cukier sobre su libro https://www.amazon.com/Big-Data-Revolution-Transform-Think/dp/0544227751

En este sentido, el crítico literario Franco Moretti, nos invita a transitar este camino con plena conciencia de que el conocimiento teórico siempre exige algo a cambio. Es preciso aceptar que algo debe perderse, dado que la riqueza de la realidad no puede ser concebida en la pobreza de un concepto abstracto. Aún así, es esta pobreza la que permite controlar a la realidad en pos de conocerla. (Moretti, 2000)

¿Pero cómo sintetizar este proceso? Anderson pone el foco en los individuos. El autor entiende a las personas como acciones, y cree necesaria la creación de herramientas adecuadas que permitan rastrear, registrar y medir con cada vez mayor precisión para que con la cantidad de datos suficientes, los números hablen por sí solos” (Anderson, 2008)

Pero la experiencia de investigadores como Moretti y Manovich buscan dar un paso más luego de los resultados que arrojan los datos. La mirada del investigador es primordial en el hacer hablar a estos datos, y por consiguiente, establecer relaciones incluso entre bases de datos diferentes. Los trabajos sobre los datos son capaces de arrojar nuevas conclusiones y, una vez establecida la regularidad, los recorridos hasta ahora utilizados para dar explicaciones de los resultados visibles en la tabla pasan a ser las excepciones.

Es menester señalar que como cualquier análisis automático computarizado de grandes muestras de cultura humana, existen limitaciones y, por lo tanto, no se podrá reemplazar a la intuición y experiencia humana. (Manovich, 2007)

En conclusión, tenemos una gran cantidad de datos culturales, que están estructurados (aún con dificultades) y al alcance del público (no la mayoría) y a la par tenemos herramientas que nos permiten recuperar estos datos, procesarlos y poder trabajar sobre ellos para continuar analizando según los filtros o visualizaciones. Si bien todo el trabajo parece automático, no hay que dejar de lado la importancia del ojo humano en el armado y relación entre datos. Ese es el plus que (por el momento) le llevamos a las máquinas.

Bases de datos

Como señalábamos en el subapartado anterior, el proceso está en construcción: uno de los principales problemas de la producción de información de manera masiva es su estructuración y categorización. Por eso, el uso de computadoras que permite procesar información a esta escala pueden crear grandes oportunidades para comprender nuestro objeto a la hora de investigar:

a) una de ellas estaría dada en la posibilidad de recortar o seleccionar la información que sea pertinente para nuestro interés.
b) podemos dividir y ser más precisos en la segmentación o filtrado de esta información.
c) jugar con a) y b ) ….. y así mixturamos y recombinamos moebianamente.
Excelente charla TED de Hans Rosling donde se trabaja el problema de las bases de datos y su acceso.

El común denominador era pensar a las nuevas tecnologías como herramientas subordinadas al trabajo del investigador, siendo facilitadoras en el proceso de producción, pero lentamente los avances a nivel de programación, fueron modificando el rol de estas herramientas, situándolas junto al mismo objeto de investigación, abriendo de esta forma, nuevos interrogantes a los mismos usuarios.

El gran desafío final es el “cambio de domicilio de la información”. Los cientistas sociales recuperan datos a partir de experimentos en laboratorios o salen al exterior a desarrollar observaciones. La obtención de los datos está dentro de una metodología de investigación que ha sido regular y sistemática en la tradición académica. En el mundo de la Big Data, las grandes corporaciones e incluso los gobiernos, son usualmente los guardianes (gatekeepers) de los mayores conjuntos de información, por eso es necesario crear espacios y contextos donde esta información sea accesible, transparente, de fácil aplicación para los usuarios o investigadores.

Visualizaciones e Infografías

Veamos un ejemplo: si consideramos la técnica de pegar un número de fotos independientes de manera panorámica, estrictamente hablando, los algoritmos que subyacen no agregan información nueva a cada una de las imágenes (sus píxeles no cambian). Pero cada imagen ahora pertenece a un sector de otra más grande, por ende, para una observador el significado cambia. Las habilidades para generar nueva información a partir de la vieja, fusionar distintos tipos de fuentes, y crear conocimientos de fuentes analógicas son sólo algunas de las técnicas de la “epistemología del software”.

¿Cómo comparar un millón de mangas? Es el proyecto de Lev Manovich http://manovich.net/index.php/projects/how-to-compare

La idea central es el uso de software de visualización para explorar conjuntos de imágenes, videos o texto que conforman nuestra base de datos. Estas visualizaciones pueden usar los metadatos existentes e incluso nuevos metadatos agregados por los investigadores, ya sea por anotación o codificación. Sin embargo, agregar etiquetas u otras anotaciones manualmente contrae serias dificultades: por un lado nuestro sistema visual natural no puede dar cuenta de diferencias visuales sutiles entre una gran cantidad de imágenes; y por otro, nuestro lenguaje natural textual no posee términos para describir todas las ínfimas características visuales, o nombrar las posibles variaciones.

Entonces, establecidas estas dificultades, el autor propone el siguiente acercamiento para poder superar estas barreras:

“Nuestro acercamiento consiste en usar las visualizaciones como un nuevo sistema descriptivo. En otras palabras, describimos usando imágenes. Al hacer esto, tomamos la ventaja que nos proporcionan las mismas para registrar diferencias sutiles en cualquier dimensión visual.” (Manovich, 2011)

Aiden y Michel cuentan con la base de datos de Google Books conformada por un total de 500 billones de palabras. Y teniendo en cuenta que el diccionario más grande es el Oxford English Dictionary, compuesto por 23 volúmenes y 446.000 palabras, los investigadores decidieron que debían buscar un método mediante el cual se pudiera seleccionar las palabras de la misma manera que los lexicógrafos en el diccionario.

“Legendary, Lexical, Loquacious Love” libro de Eve Rhymer en el que Aiden y Michel se inspiraron para crear NGram Viewer para Google Books https://books.google.com/ngrams

Los autores señalan dos perspectivas al respecto: la prescriptiva y la descriptiva. La primera establece que los lexicógrafos están a cargo del establecimiento del lenguaje y su desarrollo de en el diccionario. Ellos legislan qué palabras usar y cuáles no. La dificultad del presente enfoque radica en la subjetividad del lexicógrafo (aquella persona “a cargo” del lenguaje), cuando para los autores, el lenguaje excede a los gobiernos y nacionalidades.

En cambio, la perspectiva descriptiva no presenta la idea del “monarca”, sino la del “explorador”; reportando lo que hacemos con el lenguaje. En este caso, el diccionario constituye un mapa de lo que han encontrado. Aún así, esta perspectiva presenta otro problema; los lexicógrafos no pueden decidir si una palabra lo es por mandato, y también se presenta la variable del “tiempo” (cuánto se tarda en decidir si una palabra debería ser incluída). Estas dificultades nos arrojan a diversos interrogantes: si el explorador no ve el campo completo y sólo la porción que va descubriendo, es muy posible que su avanzada tenga errores. ¿Cómo subsanarlos? ¿Quién los ve? ¿Qué estrategia adoptar? Existe una “orbe” por la cuál cerrar el “campo”. El explorador por tanto, cae en su propio frente.

Como explican Presner y Johansson en “The Promise of Digital Humanities” estas herramientas y software, han creado nuevos mecanismos que involucran directamente a los estudiantes en investigación de vanguardia. A partir de estas nuevas metodologías en investigación, los mismos se unen a proyectos colaborativos, ansiosos por usar estas herramientas, aplicando conocimientos y habilidades.

Para estos autores, las Humanidades Digitales han redefinido la excelencia de la investigación para los no graduados, permitiendo que jóvenes universitarios hagan contribuciones significativas en campos de estudios avanzados, yendo desde la arqueología y la arquitectura hasta la literatura o historia.

“Las Humanidades Digitales enseña a los estudiantes a desarrollar las habilidades necesarias para el pensamiento crítico en la era de la información digital, preparándolos para ser participantes activos en la producción de conocimiento y en la construcción de este nuevo mundo” (Presner y Johanson 2009)

Por esta razón, entendemos que es necesario realizar un trabajo formal para presentar en el ámbito de la Universidad de Buenos Aires, adhiriendo nuevas metodologías, acercando recientes desarrollos y herramientas de trabajo al Comunicador Social. Deseamos sumar complejidades de lectura y apertura a la Carrera que me nos ha formado, y que en este momento se encuentra revisando su Plan de Estudios, debatiendo los alcances de sus miradas epistémicas.

Conclusiones

A partir de lo expuesto podemos realizar las siguientes observaciones: dimos cuenta que las herramientas o software de procesamiento de datos facilitan el recorrido y abordaje de grandes cantidad de datos. No sólo nos permiten responder rápidamente preguntas, sino que también nos habilitan a realizarnos nuevas preguntas a partir de las visualizaciones realizadas. Es decir, las respuestas no son el punto final de la investigación, sino el comienzo de un nuevo recorrido por la base de datos, ingresando por otra puerta.

Por otra parte, como en todo proceso de investigación, el armado de la base de datos es vital para este tipo de trabajos. En este sentido, se realza la capacidad de las herramientas de poder rastrear y recuperar los datos (como Voyant Tools o Wordle) sin la necesidad de transcribir palabra a palabra, y que la misma herramienta de opciones de estructuración o visualización de los datos.

Por último, respecto al párrafo anterior, nos encontramos con una dificultad importante a la hora de reunir la información necesaria para nuestra base de datos, algo que representa una problemática en general con el trabajo del cientista social que se introduce a las Humanidades Digitales. Se produce mucha información, pero gran cantidad de ella no se encuentra estructurada, lo que hace más relevante este tipo de trabajos que tienen como objetivo procesar la información existente y actualizar la que aún no está disponible.

*Nota del autor

Este artículo pretende reunir algunas ideas esbozadas en mi tesina de licenciatura pero organizadas de una manera más introductoria, multimedial y de lectura ágil para personas que están entrando a las Humanidades Digitales. Como así también, debajo podrán encontrar la bibliografía utilizada que puede funcionar de base para próximos proyectos o investigaciones que deseen hacer dentro de este campo.

Bibliografía utilizada

  • ALVARADO, Rafael (2011) The Digital Humanities Situation Disponible en bit.ly/iyaOGW
  • ANDERSEN Chris (2008) The End of Theory: The Data Deluge Makes the Scientific Method Obsolete, Wired Magazine Disponible en bit.ly/LOU8
  • BERRY, David (2011) Humanidades Digitales: Primera, segunda y tercera ola, en stunlaw: A critical review of politics, arts and technology. Traducción de Julio Alonso y Fernanda Ibañez. Disponible en bit.ly/17H6XtO
  • BURDICK, Anne; DRUCKER Johanna; LUNENFELD, Peter; PRESNER Todd y SCHNAPP Jeffrey (2012) Digital_Humanities, Massachusetts Institute of Technology Disponible en bit.ly/13x8AZC
  • BORDA, Libertad (2012) Bettymaniacos, Luzmarianas y Mompirris: El Fanastimo de los foros de telenovelas latinoamericanas, Tesis Doctoral en Ciencias Sociales, Facultad de Ciencias Sociales, Universidad de Buenos Aires
  • EL PEZ MARTILLO (2007) Constelaciones, Espejo de la realidad Disponible en bitly.com/IyvLf6
  • HURST, Marcus (2012) Google contratará a más de 4.000 humanistas en los próximos años, Yorokubu, España Disponible en bit.ly/x0Zs4U
  • JENKINS, Henry (2006) Convergence Culture: Where Old and New Media Collide
  • LATOUR Bruno (1991) Nunca fuimos modernos: ensayos de antropología simétrica
  • LEVY, Pierre (1994) Inteligencia colectiva, por una antropología del ciber-espacio.
  • MANOVICH, Lev (2011) Un millón de páginas de manga, en software studies iniciative. Disponible en bit.ly/1ojDrlg
  • MANOVICH, Lev (2011) From reading to patterns recognition Disponible en bit.ly/RX5trm
  • MANOVICH, Lev (2012) Epistemología del Software. Disponible en bit.ly/EpistemologiaSoftware
  • MANOVICH, Lev (2012) ¿Cómo comparar un millón de imágenes de manga?, en BERRY, David Understanding Digital Humanities, Palgrave. Disponible en bit.ly/1i87QOL
  • MANOVICH, Lev (2013) Software takes command Disponible en bit.ly/175Fz4w
  • MORETTI, Franco (2000) Conjetures on World Literature, New Left Review 1 ed. Enero — Febrero Disponible enbit.ly/Sqzfz7
  • MORETTI, Franco (2007) Graphs, Maps, Trees: Abstract Models for Literacy.
  • PISCITELLI, Alejandro (2012) Las “Digital Humanities” y como pensamos en la era de la análitica cultural, Filosofitis.com.ar Disponible en bit.ly/WPZ6TZ
  • PISCITELLI, Alejandro (2013) ¿Cómo definir a las humanidades digitales? ¿O es mejor no definirlas? Disponible en bit.ly/1e37rjz
  • PRESNER, Todd y JOHANSON, Chris (2009) The Promise of Digital Humanities. A whitepaper. Universidad de California. Disponible en bit.ly/1fJRRF2
  • ROSSI, Aníbal (2013) Cultoronomía para todos. Aprendiendo a usar operadoradores en N-Grams Viewer, en Cátedra Datos Web. Disponible en http://bit.ly/1lYyFaE
  • SUÁREZ, Juan Luis Suárez (2013) El Humanista Digital. Disponible en bit.ly/14u1p7i