Ivan Begtin
2 min readJun 18, 2017

Национальный цифровой архив (archive.infoculture.ru) — это проект АНО “Информационная культура” по сохранению веб-сайтов.

В проекте архивируется самые разные сайты и другие цифровые ресурсы объединенные одной ключевой мыслью — они могут исчезнуть в скорое время.

Рапортую о текущем статусе:

  • всего собрано данных на 5.4 терабайта из которых:
  • 39 гигабайт архивы госсайтов собранные до 2013 года в формате httrack
  • 2 100 гигабайт архивы собранные до марта 2017 вручную с помощью wget в форматах WARC
  • 3 200 гигабайт архивы собранные с марта 2017 автоматизировано с помощью технологий wpull + grab-site.
  • 3,7 гигабайта коллекция вики-архива — дампы проектов на mediawiki
  • остальное — архивы открытых данных
  • в общей сложности это 1822 сайта подавляющее число которых относится к государственным сайтам, конкретнее к сайтам федеральных органов власти и их территориальных управлений
  • все собранное доступно публично через хаб открытых данных hubofdata.ru в специальной группе “Архивы сайтов”. Также на хабе созданы группы позволяющие просматривать архивы по темам:
  • Группа “Агентство ипотечного жилого строительства” — 20 сайтов
  • Группа “Арбитражный суд” — 64 сайта
  • Группа “Олимпиада Сочи” — 18 сайтов
  • и так далее, несколько десятков групп можно найти на сайте
  • архивация значительно автоматизирована. Для запуска архивации формируется список сайтов и далее скармливается роботу который последовательно или параллельно выкачивает каждый из них. Функции оператора только в том чтобы отслеживать что краулер не попал в “crawler trap” с бесконечным числом страниц для выгрузки.

И обязательно хочу напомнить о том зачем все это делается и чем национальный цифровой архив отличается от Archive.org к примеру.

  1. Национальный цифровой архив России охватывает только российские и близкие к России по теме сегменты Интернета. Цель в создании максимально полного среза наиболее ключевых, ценных и наиболее находящихся под угрозой ресурсов.
  2. Архивация проводится одним из следующих способов:
  3. “полным слепком” сайта при котором сохраняется все его содержимое — все веб-страницы, изображения и файлы
  4. “полным слепком” FTP сервера если архивируется FTP сервер
  5. специальными инструментами архивации материалов социальных сетей таких как twarc для твиттера
  6. написанием специальных программ “парсеров/скрейперов” с помощью которых сохраняются страницы и файлы скрытые от обычных краулеров поисковыми формами.
  7. Из материалов собранных внешними контрибьюторами, теми кто готов передать в архив какие-либо полезные архивные материалы на хранение.
  8. У цифрового архива на сегодняшний день есть ряд ограничений:
  9. Нет непрерывной архивации веб-сайтов. Для этого требуется дополнительная инфраструктура и настройки специального движка Heritrix с помощью которого запускать краулеры на регулярной основе
  10. Доступ к архивным материалам идет в виде слепков целиком. То есть если Вам надо поднять какой-то конкретный документ, например, из архива сайта ФСКН, то Вам надо будет скачать сайт в формате WARC полностью и уже локально у себя запускать утилиты которые извлекали бы файл из этого архива.

Если у Вас есть идеи и предложения по архивации — пишите мне на Ibegtin@infoculture.ru

Национальный цифровой архив создан АНО “Инфокультура” существует на наши собственные средства и частные пожертвования российских граждан. Если Вы хотите помочь проекту то можете сделать это в форме пожертвования вот тут — archive.infoculture.ru/donate/

Все пожертвования идут на поддержание и развитие инфраструктуры проекта — аренду серверов, оплату трафика и так далее.

Ivan Begtin

I am founder of APICrafter, I write about Data Engineering, Open Data, Data, Modern Data stack and Open Government. Join my Telegram channel https://t.me/begtin