Национальный цифровой архив. Статус на 18.06.2017

2 min readJun 18, 2017

Национальный цифровой архив (archive.infoculture.ru) — это проект АНО “Информационная культура” по сохранению веб-сайтов.

В проекте архивируется самые разные сайты и другие цифровые ресурсы объединенные одной ключевой мыслью — они могут исчезнуть в скорое время.

Рапортую о текущем статусе:

всего собрано данных на 5.4 терабайта из которых:
39 гигабайт архивы госсайтов собранные до 2013 года в формате httrack
2 100 гигабайт архивы собранные до марта 2017 вручную с помощью wget в форматах WARC
3 200 гигабайт архивы собранные с марта 2017 автоматизировано с помощью технологий wpull + grab-site.
3,7 гигабайта коллекция вики-архива — дампы проектов на mediawiki
остальное — архивы открытых данных
в общей сложности это 1822 сайта подавляющее число которых относится к государственным сайтам, конкретнее к сайтам федеральных органов власти и их территориальных управлений
все собранное доступно публично через хаб открытых данных hubofdata.ru в специальной группе “Архивы сайтов”. Также на хабе созданы группы позволяющие просматривать архивы по темам:
Группа “Агентство ипотечного жилого строительства” — 20 сайтов
Группа “Арбитражный суд” — 64 сайта
Группа “Олимпиада Сочи” — 18 сайтов
и так далее, несколько десятков групп можно найти на сайте
архивация значительно автоматизирована. Для запуска архивации формируется список сайтов и далее скармливается роботу который последовательно или параллельно выкачивает каждый из них. Функции оператора только в том чтобы отслеживать что краулер не попал в “crawler trap” с бесконечным числом страниц для выгрузки.

И обязательно хочу напомнить о том зачем все это делается и чем национальный цифровой архив отличается от Archive.org к примеру.

Национальный цифровой архив России охватывает только российские и близкие к России по теме сегменты Интернета. Цель в создании максимально полного среза наиболее ключевых, ценных и наиболее находящихся под угрозой ресурсов.
Архивация проводится одним из следующих способов:
“полным слепком” сайта при котором сохраняется все его содержимое — все веб-страницы, изображения и файлы
“полным слепком” FTP сервера если архивируется FTP сервер
специальными инструментами архивации материалов социальных сетей таких как twarc для твиттера
написанием специальных программ “парсеров/скрейперов” с помощью которых сохраняются страницы и файлы скрытые от обычных краулеров поисковыми формами.
Из материалов собранных внешними контрибьюторами, теми кто готов передать в архив какие-либо полезные архивные материалы на хранение.
У цифрового архива на сегодняшний день есть ряд ограничений:
Нет непрерывной архивации веб-сайтов. Для этого требуется дополнительная инфраструктура и настройки специального движка Heritrix с помощью которого запускать краулеры на регулярной основе
Доступ к архивным материалам идет в виде слепков целиком. То есть если Вам надо поднять какой-то конкретный документ, например, из архива сайта ФСКН, то Вам надо будет скачать сайт в формате WARC полностью и уже локально у себя запускать утилиты которые извлекали бы файл из этого архива.

Если у Вас есть идеи и предложения по архивации — пишите мне на Ibegtin@infoculture.ru

Национальный цифровой архив создан АНО “Инфокультура” существует на наши собственные средства и частные пожертвования российских граждан. Если Вы хотите помочь проекту то можете сделать это в форме пожертвования вот тут — archive.infoculture.ru/donate/

Все пожертвования идут на поддержание и развитие инфраструктуры проекта — аренду серверов, оплату трафика и так далее.

Written by Ivan Begtin