Retrouver un site web, AVANT !

Comment revoir les pages d’un site web, avant sa dernière transformation ?

WayBackMachine

Est un projet de “Internet Archive” : https://archive.org/web/ qui intègre désormais 307 Milliards de pages web, de plusieurs centaines de millions de sites web…

Mais pas tous ! Ni toutes les versions de vos pages…

Il ne faut pas rêver ! A noter qu’une fonction très sympa est proposée pour les Webmasters: Ajouter un script afin de tenter d’ouvrir les versions archivées des liens devenus invalides, la fameuse ‘Erreur 404’

Il faut juste ajouter le script suivant dans la page 404
<div id="wb404"/>
<script src="https://archive.org/web/wb404.js"> </script>

Google archived page

Avez-vous remarqué que parfois, Google ne pouvant pas afficher une page web, il proposait sa version “en cache” ?

On peut aller la chercher derrière la “petite flèche”, pour faire apparaître le menu ‘cache’, un peu caché, c’est vrai !

Mais la version CACHE, est épurée des images, et parfois, sans “preview”, il faut prendre le code html…

Il est aussi possible de lui demander d’afficher la version mise en cache !

http://webcache.googleusercontent.com/search?q=cache:http://www.ict-a.ch

Mais, il faut faire vite, car la page est rapidement remplacée par la dernière version.

Last Chance

Le cache de votre propre navigateur !

Sur Chrome: chrome://cache

Mais le visuel n’est pas terrible.

Il faut reconstruire la page html.

Un site facilite ce travail ! http://www.sensefulsolutions.com/2012/01/viewing-chrome-cache-easy-way.html

Mais bon, c’est pas gagné, et quand le site change, le cache est purgé avec la nouvelle version… Donc, à moins de trouver une machine éteinte, avec l’ancienne version.

Attention toutefois, car les sous-pages mise en cache, restent valables et peuvent être récupérées. Seule la home page modifiée, et les sous-pages modifiées (de même URL complète, l’adresse longue de la page, dans le navigateur http://monsite.tld/mapage/ma_sous-page) sont écrasés. Les éventuelles pages devenues “fantômes” peuvent être récupérées.


Prévention

Comment éviter cela ?

Typiquement, mes blogs sur Medium, si medium s’arrête, ou décide que je dépasse les bornes à force de dire du mal de la NSA, et me “sucre”… Je perds tout !

Réversibilité ?

Sauf que: Medium propose une fonction d’export, je peux demander un export ZIP… (peut prendre 24h). Certains outils web ne facilitent pas la récupération de vos données ! Cela s’appelle la réversibilité (ou la non réversibilité)…

Autres options ?

Aspirer un site web

Non, cela ne veut pas dire, en faire le ménage ! Mais en faire une copie locale!

J’utilise http://www.httrack.com

Selon la structure du site Web, cela peut plus ou moins bien se passer ! Par exemple, ‘Medium’, n’a pas une structure adaptée pour cela, car c’est un site “dynamique” (les pages sont construites à la volée sur requête, et non posées sur le disque d’un site web statique…)

Il est alors judicieux de disposer d’une copie des pages et textes/images précieusement composées.

Archivage manuel mais facilité avec Evernote

www.evernote.com, assure une sauvegarde du contenu, épurée, ou complète d’une page web.

Cela inclus celles de ton propre site Web, que tu peux ainsi sauvegarder, texte et images, avec toutes les versions…

Un plugin pour le Navigateur permet de faire la copie avec 1 seul click !

Car un site Web, c’est comme un projet de livre !

Ce sont des heures de travaux, alors, comme pour le livre, il ne faut pas se limiter à 1 sauvegarde, mais plusieurs…

Y compris en conservant les versions précédentes, au cas où, tu supprime 60 pages par inadvertance, et mettras 2 semaines pour le réaliser !