“An Open Scanner”

una propuesta del capítulo Creative Commons de Venezuela — Parte 1

--

Identidad de “An Open Scanner”, creada para Creative Commons Venezuela — por Estefanía Sánchez Pineda. Bajo la licencia CC BY 4.0.

En 2020, y estando inmersos en lo que parecía ser ya un evento definitorio para todo el planeta, al Capítulo Venezolano de Creative Commons llegó la noticia de que el Community Activities Fund (o Fondo de Actividades Comunitarias) ha aceptado a financiar nuestra propuesta de crear una versión de un escáner de libros de Código Abierto. De inmediato, comenzamos a ejecutar el plan y, lo que es más importante, a construir un grupo de trabajo que exploraría la viabilidad de encontrar, crear y ensamblar tal “hardware” en Venezuela.

Nuestro primer esfuerzo fue buscar miembros jóvenes del equipo que estuviesen involucrados en universidades. Era evidente que uno de los primeros destinatarios de dicha herramienta serían las bibliotecas universitarias y de otras instituciones académicas. Ellas suelen albergar múltiples volúmenes de innumerables materias y áreas de especialización, muchos de las cuales solo existen en forma física, por lo que son propensas a perderse para siempre.

Además, las universidades tienden a tener espacios y recursos que se pueden tomar prestados para realizar este proyecto. Al menos esta era la hipótesis. Pronto comprendimos que ésto parecía ser un desafío mayor de lo previsto.

El caso venezolano & el equipo

Mientras tanto en Venezuela, varios de nosotros estábamos buscando posibles recursos y materiales para usar; otros fuera del país estudiaron varios proyectos anteriores de escáneres de libros de acceso abierto. Fiel a los principios de compartir y reutilizar, la idea original era replicar un proyecto de Acceso Abierto ya existente!

Esta replicación aceleraría el proceso: al encontrar los planos y código correctos, estaríamos listos para comprar el material necesario, tomar algunas herramientas y empezar a “cortar y pegar”, al igual que otros han hecho con éxito antes que nosotros.

Desafortunadamente, no fue el caso. Durante extensas conversaciones, muchas búsquedas en línea y preguntando a responsables de proyectos similares, entendimos que una de las razones por las que tales proyectos de escáner de libros de acceso abierto son un reto de reproducir es que dependen de un software que no es fácil de conseguir, utilizar o mantener.

Para ser claros, hay proyectos de escáneres de libros de hardware hermosos y bien documentados. Han evolucionado hasta el punto de tener soluciones de una calidad casi comparables a soluciones comerciales. Pero el software es otra historia.

Esta íntima relación actual entre software y hardware limita el diseño & la construcción modular y también cuesta más.

Otro aspecto importante que aprendimos mientras buscábamos los proyectos y materiales adecuados, incluidas las cámaras, fue que el hardware, es decir, el escáner en sí, fue diseñado para adaptarse a una forma particular de capturar y rastrear las imágenes. El núcleo de varias de las propuestas de escáneres físicos se basa en combinar software no tan flexible y posprocesamiento de captura. Esta íntima relación actual entre software y hardware limita el diseño y la construcción modular y también cuesta más.

El “An Open Scanner” o “Un Escaner Abierto”

Por eso partimos de cero. Y por la parte menos “cara”: el software.

Hoy en día, las técnicas de Aprendizaje Automático o Machine Learning y las herramientas de Visión Artificial o Computer Vision permiten identificar caracteres y características en fotografías como no era posible hace tan solo unos años.

Entonces, el nuevo enfoque fue: imagina que ya tienes las capturas (es decir, las fotos) de las páginas de un libro en tu computadora. ¿Podemos implementar una solución de código abierto que permita la reconstrucción de un libro de este tipo, incluido el reconocimiento óptico de caracteres (ROC)?

O mejor dicho, si no nos importa cómo se toman las imágenes, podemos reconstruir el documento y extraer la información que contiene?

La respuesta a esa pregunta es sí,… bueno… necesitábamos que fuese un “sí”. ¿Por qué? porque si ese es el caso, podemos abrir un conjunto de oportunidades completamente nuevo, pero dos de esas oportunidades son particularmente relevantes:

Cámara de fotos común en uso al crear el primer “An Open Scanner” — por Arturo Sánchez Pineda. Bajo la licencia CC BY 4.0.
  • Podemos permitir que los futuros usuarios modifiquen, desarrollen o reutilicen el hardware que mejor se adapte a sus necesidades. Incluidas las cámaras: ya no necesitan ser una pareja específica.
  • El software se puede desarrollar independientemente de la geometría del hardware y otras características, lo que permite un producto más genérico que se puede entregar como un producto para instalar localmente o como un software como servicio.

Si lo miramos de esta manera, las oportunidades para crear una comunidad y dar a la gente el poder de desarrollar una oportunidad de negocio sostenible y escalable, inspirada en Made with Creative Commons — ¡era ahora una realidad!

¡La oportunidad de crear una comunidad sostenible y escalable era ahora una realidad!

Entonces, “An Open Scanner” o AOS es

  • Un proyecto impulsado por la comunidad para la digitalización y la accesibilidad de documentos por computador (o computadora, como decimos en casa).
  • Hardware y software de acceso abierto que permite escanear casi cualquier documento, libro y manuscrito estándar a un bajo costo.
  • Un diseño que requiera el mínimo esfuerzo para permitir la creación de escáneres, en donde el procesamiento posterior se base en algoritmos de Aprendizaje Automático y Visión Artificial para manipular y mejorar las imágenes.
  • Incluído como parte de su diseño, tiene el potencial de crear una comunidad de “Operadores” y “Editores” distribuidos por todo el mundo.
  • Haciendo que sea mucho más fácil pasar de una hoja de papel física a un documento digital y mejorado gracias a el uso de Computación en la Nube.
  • un proyecto que tiene un modelo de negocio dedicado y escalable, en el espíritu de la publicación “Made with Creative Commons”.
The “An Open Scanner” logo
“An Open Scanner” logo donado por Estefanía Sánchez Pineda — miembro de la GNC de CC. Bajo la licencia CC BY 4.0.

AOS y sus usuarios primarios

  • Quien quiera digitalizar un documento o un libro
  • Instituciones educativas pequeñas y medianas
  • Escuelas, universidades, bibliotecas independientes
  • Museos públicos y privados y otras asociaciones culturales
  • Editores tradicionales y otras empresas de medios
  • Científicos e investigadores que necesitan movilidad, precisión y flexibilidad para escanear y analizar documentos delicados.

También

  • Editores y otras personas que necesiten o quieran mejorar un libro ya digitalizado: esto significa que pronto el software podrá utilizarse para hacer ROC en libros que fueron escaneados tiempo atrás, cuando la tecnología aún no estaba lista!
  • Organizaciones que quieran distribuir la carga de trabajo para procesar una gran cantidad de documentos entre personal o voluntarios separados geográficamente.

¡Y es aquí donde se crea la comunidad!

El software se puede utilizar para hacer ROC en libros que fueron escaneados cuando la tecnología aún no estaba lista!

Un vistazo a la versión cero del montaje del hardware del “An Open Scanner” bajo prueba — por Arturo Sánchez Pineda. Bajo la licencia CC BY 4.0.

Comunidades orbitando el AOS

El capítulo de Creative Commons Venezuela es la primera comunidad en la que nos gustaría desarrollar esta idea. Pero en paralelo, ya estamos buscando desarrolladores que puedan ayudar a construir con el software a partir del prototipo creado. Pero, volviendo a la comunidad, desde ya podemos imaginar dos actividades particulares y asignar un trabajo asociado a cada una de tales tareas:

Los Operadores

Este es el grupo de personas que utilizará el hardware: son los responsables del transporte, montaje y la captura de las fotografías. También serán los capacitadores de los futuros usuarios que tomarán prestado (o alquilarán) el “An Open Scanner” del capítulo — primero — y luego para cualquier persona o grupo que siga la idea y también construya su escáner. Un ejército de Operadores permitirá escanear múltiples documentos en lugares como bibliotecas antiguas o alejadas de urbes, archivos,… para rescatar información que solo existe en ese lugar, por poner un ejemplo.

Como puedes ver, un equipo (o hardware) de bajo costo se vuelve crucial para escalar y llegar a tantos lugares como sea posible en el mundo desarrollado y en desarrollo.

Los Editores

Este es un grupo interesante. Los Editores son las personas que obtendrán las imágenes de los Operadores y harán el procesamiento correspondiente: utilizar el software para reconstruir el libro o documento, realizar ROC y obtener una digitalización completa.

Y, si nos tomamos un minuto para pensarlo, nos daremos cuenta de que en nuestro mundo actual, los Editores no necesitan estar físicamente cerca del “An Open Scanner”. No es necesario que formen parte del proceso de escaneo en sí. Entonces, se puede distribuir esta tarea entre otras personas.

En este caso, las habilidades de los Editores serán diferentes y complementarias a las de los Operadores, creando un excelente ecosistema donde los libros se escanean en un lugar y se reconstruyen digitalmente en otros lugares… del mundo. En un proyecto profesional, ese tipo de esfuerzo puede ser una fuente de empleo en áreas con poco acceso a Internet (más información sobre cómo eso es posible en la Parte 2).

¿Se ve simple? ¡Sí! esa es la idea. Queremos que sea lo más simple, barato y genérico posible — por Arturo Sánchez Pineda. Bajo la licencia CC BY 4.0.

Entonces, ¿a dónde vamos ahora? Después de que se realizó una prueba de concepto del hardware y el software durante 2020, nos estamos moviendo para crear la plataforma adecuada para colaboraciones:

  • Recrear los ejemplos de software en buena forma (limpieza de código estándar) y sus repositorios públicos, en los que otros pueden intentar unirse como desarrolladores o probadores.
  • Ya tenemos una marca, o identidad, y se utilizará en el sitio web que albergará los planos y la documentación.
  • En el futuro, el mismo sitio web será el lugar para publicar las historias de éxito y aprendizaje de la futura comunidad.
  • Inspirándose en fantásticos proyectos como el https://scholar.archive.org/ y muchos otros.

Este es un proyecto muy importante para nosotros y estamos emocionados de seguir adelante, junto con las comunidades de Acceso Abierto y de Fuente Abierta y, por supuesto, con Creative Commons.

Nos encontramos de nuevo en nuestro próximo post. ¡Gracias por leer!

--

--

Arturo Sánchez Pineda
Creative Commons: We Like to Share

PhD Researcher, SysAdmin & Educator — Work(ed) @ CERN / ICTP / INFN / LAPP / CNRS / ULA — https://www.linkedin.com/in/arturo-sanchez-pineda - @Arturo_RSP