Smarty smart smart that’s me (Wikipedia/Jason “Textfiles” Scott, CC BY 2.0)

La arqueología de una era: 20 años del Internet Archive

El proyecto que mantiene la memoria histórica de nuestro rastro tecnológico

Brewster Kahle es un ingeniero en computación estadounidense y un semidios del internet gracias a que fundó, en 1996, el Internet Archive. Este archivo contiene versiones históricas de sitios tan importantes como Google, Amazon o Wikipedia, también archivos de texto, video y música que alguna vez circularon en la red.

Kahle es un activista de la información libre y sabe muy bien que una de las cualidades naturales de esa información es su fugacidad; fue precisamente esta cualidad la principal razón por la que Brewster decidió preservarla tal como se hace con la información impresa en una biblioteca.

La sede del archivo — que guarda memes de gatitos y porno, pero también conferencias presidenciales o documentos fundamentales para concebir nuestra actualidad tecnológica — no es una biblioteca convencional. El repositorio que alberga, por lo menos, 472 mil millones de copias de páginas web es una antigua iglesia cristiana científica en San Francisco, California.

Brewster Kahle in 2009 (Wikipedia/Joi Ito CC BY 2.0)

El entusiasmo de Brewster Khale y Bruce Gilliat por el registro histórico de la actividad en internet los empujó a crear, también en 1996, Alexa Internet. En sus inicios, Alexa (nombrada así en referencia a la Biblioteca de Alejandría) ofrecía una experiencia de usuario que consistía en una toolbar que sugería páginas relacionadas con contenidos afines al historial del que navegaba, además de información sobre cuántas páginas contenía alojadas la principal y la periodicidad de actualización de cada una de ellas. Con el tiempo, y gracias a la demanda de la herramienta, Alexa comenzó a archivar páginas web.

Para 1998 el trabajo de rastreo (web crawling) y archivo de Alexa había reunido 2 terabytes de información sobre el desarrollo de nuestras actividades en internet. Esa información fue donada a la Biblioteca del Congreso Norteamericano y fue la piedra fundacional de la preservación de nuestra historia digital.

Fue hasta el año 2001 cuando el archivo puso a disposición pública el contenido de la colección de la World Wide Web que había sido archivada. La Wayback Machine es la interfaz que contiene, actualmente, 510 millones de millones de páginas web guardadas para su consulta y descarga.

Bajo el lema “acceso universal a todo el conocimiento” el archivo pone a disposición de todo el mundo la herencia cultural digital que se ha gestado a través de sus 20 años de trabajo.

¿Cómo opera el archivo?

Internet Archive es una organización no lucrativa (501©(3)) que se sostiene de donaciones de otras asociaciones y de toda la comunidad de internet (bitcoins incluidos). El trabajo de mantenimiento, actualización y administración de los servidores también es comunitario aunque la organización cuenta con algunos empleados fijos. Ingenieros, bibliotecarios, diseñadores web y hasta personas que tengan el amor suficiente por preservar la historia escaneando libros son bienvenidos.

Las contribuciones que han hecho posible un proyecto como el del Internet Archive no sólo son monetarias, las donaciones de información también son fundamentales para su crecimiento. La primera donación a gran escala que recibió el archivo y que fue fundamental para su existencia vino de parte de Alexa Internet (su proyecto hermano y actualmente subsidiaria de Amazon) quien entregó una copia de la base de datos (2 terabytes) que donó también a la Biblioteca del Congreso Norteamericano.

El crecimiento descontrolado de internet es el que dicta los parámetros para archivar los cambios en los sitios. Actualmente, el periodo de cambios significativos en una página web oscila entre los 75 y 100 días por lo que cada página es capturada en el archivo al menos cada dos meses. La labor de voluntariado es muy importante para mantener al día el archivo, por lo que cualquier usuario puede salvar data en todo momento y sólo basta con introducir la URL de la página en la casilla “Save Page Now”.

Archivadores de cerámica por la escultora Nuala Creed (Wikipedia/Jason Scott CC BY 2.0)

La Wayback Machine es uno de los proyectos más conocidos del Archivo, entre su gigantesca base de datos es posible encontrar las versiones más antiguas y las del día a día de millones de páginas pero su uso no se limita a ser un catálogo de diseño. Parte de la información más importante que conserva la Wayback es el código fuente de cada página.

La investigación práctica que puede hacerse gracias al archivo de páginas web puede beneficiar a muchos gremios, por ejemplo, en de los negocios. Gracias a las miles de capturas diarias un empresa puede rastrear el desarrollo de su competencia (a través del calendario histórico) para conocer las mejoras que han hecho en experiencia de usuario, diseño, accesibilidad y construcción de código. La Wayback Machine también es una gran herramienta para conocer y reconocer los errores que se cometieron en el pasado para poder evitarlos o remediarlos en el futuro.

El trabajo del archivo nos permiten ver la evolución de los sitios para múltiples propósitos y más aún, sin ese trabajo no tendríamos memoria histórica de nuestro rastro tecnológico.

Aunque muchos piensen que la Wayback Machine es el archivo en su totalidad, no es así. El Archivo de Internet es mucho más. En los repositorios del archivo se guarda la colección de libros digitalizada más grande de internet, esta biblioteca digital tiene 10 millones de libros escaneados en más de 180 idiomas.

CC0.

Muchas de las colecciones que conforman la biblioteca digital del archivo fueron donadas por instituciones como JSTOR Early Journal Content, el Instituto Smithsonian y la Universidad de Harvard. La labor de digitalización está repartida en 33 centros de escaneo por todo el mundo y la tasa promedio de libros escaneados (por día, en cada uno de los centros) es de mil. La labor rinde frutos pues, según datos del archivo, se descargan más de 15 millones de libros al mes.

A lo largo de su existencia, el Internet Archive ha hecho mancuerna con proyectos que también están comprometidos con preservar la historia de internet y de que éste sea público. Entre los más conocidos están The American Library Association, The Internet Public Library y The Society of American Archivists, por la parte de librerías; la tecnología que se utiliza para archivar también proviene de alianzas con The Intermemory Project y The Text Retrieval Conference (TREC), entre otras. La lista de asociaciones es enorme, y las funciones de mapeo de internet, estadísticas, derechos, cuestiones de privacidad incluso de almacenamiento físico de datos no sería posible sin la colaboración de todos estos proyectos.

En el archivo también hay espacio (6 millones de archivos) para toda la nostalgia nerd por software antiguos. En la librería de software del Internet Archive es posible conseguir versiones de programas que forman parte de la historia de la computación a través de emuladores, incluyendo software para dispositivos como Apple II, Atari 800 y ZX Spectrum. La calidad de la información que es posible consultar está comprobada por los 33,863,771 de nerds que usaron el archivo el mes de julio pasado.

Apple IIGS and drives at w:Internet Archive. (Wikipedia/Jason Scott, CC BY 2.0)

Otro de los grandes recursos del archivo es Archive-It, la plataforma en línea que ayuda a muchas instituciones con la labor de archivar sus colecciones, el servicio es gratuito y en retribución las instituciones alojan sus colecciones en los servidores del Internet Archive para formar parte del dominio público.

El Internet Archive guarda cada elemento de nuestra cultura, software, política, música, videos, videojuegos, películas y noticias de televisión. La interfaz del archivo cumple con la característica de los proyectos que persiguen la libertad de información, navegar por este museo de datos es muy fácil e intuitivo. Para tener acceso a nuestro pasado digital basta con registrarse, y adentrarse entre los millones de archivos que están en el repositorio histórico.

La importancia del proyecto

CC0.

Todos los sitios que almacenan datos son susceptibles de sufrir pérdidas físicas y de contenido graves, el inconmensurable trabajo del archivo (con sus miles de copias al mes) es una gran manera de reducir el riesgo de perder información. La constante renovación de sitios, programas, versiones móviles de cada elemento constituyente del internet aumenta la tarea pero también la herencia cultural nativo digital.

Mantener el internet de fácil acceso y libre es el principal objetivo del archivo, sus fundadores y trabajadores creen firmemente en que el conocimiento es poder. El Internet Archive es una de las instituciones más poderosas (culturalmente) en el mundo.

Google inició en los tempranos años 2000 un proyecto de archivación de búsquedas de internet. Al igual que el Internet Archive, contenía diversas colecciones en muchas secciones, música, libros, vídeo, sin embargo, las intenciones de ese proyecto eran lucrativas. Al ser una de las compañías más grandes del mundo, Google realizaba su rastreo y análisis de las búsquedas en internet para, entre otras cosas, vender anuncios a otras empresas. El gigantesco proyecto no resultó como se esperaba después de una década dejó de funcionar aunque los datos sigue disponible para consultarse.

Internet Archive (Flickr/Beatrice Murch, CC BY 2.0)

El Internet Archive se mantiene en la actualidad como una de las principales memorias históricas efectivas con 2,899,232 de usuarios sólo en el mes de octubre.

El trabajo que esta organización está haciendo puede ser entendido como arqueología de la era digital y esto nos permite conocer las bases de nuestra historia tecnológica pero además, y de manera más cotidiana, nos permite rastrearnos en este medio en el que dejamos mucha de nuestra vida.

La naturaleza del internet es infinita y cada vez que algo surge de ahí comienza a desaparecer, gracias a todos los hippies digitales que nos ayudan a preservarlo y ¡larga vida al Internet Archive!

Por Judith Campiña.