Ivan Begtin
1 min readMay 11, 2017

Более 200 терабайт государственных сайтов и данных США заархивировано в Интернет-архиве [1] в рамках проекта “End of Term Presidential Harvest 2016” [2].

Из этого проекта более 100 терабайт — это веб-архивы сайтов органов власти и около 100 терабайт — это данные с государственных FTP серверов.

Все ссылки на ресурсы были собраны 393 волонтерами и сохранены [3] в специальном инструменте Nomination Tool для последующего автоматического сохранения.

Сейчас Университет Техаса ведет следующий проект “Government Web & Data Archive” по постоянной архивации вебсайтов и данных правительства США [4].

Напомню что в России в рамках Национального цифрового архива мы ведем проект по архивации всех официальных сайтов. Подробнее о национальном архиве можно прочитать здесь archive.infoculture.ru, а также поддержать проект пожертвованиями или посильной помощью.

Ссылки:

[1] https://blog.archive.org/2017/05/09/over-200-terabytes-of-the-government-web-archived/

[2] http://digital2.library.unt.edu/nomination/eth2016/about/

[3] http://digital2.library.unt.edu/nomination/eth2016/reports/urls/

[4] http://digital2.library.unt.edu/nomination/GWDA/

Ivan Begtin

I am founder of APICrafter, I write about Data Engineering, Open Data, Data, Modern Data stack and Open Government. Join my Telegram channel https://t.me/begtin