«Новейшая история России» :
эксперимент в жанре журналистики данных

В вашем распоряжении есть куча данных, но вы не смотрите на них как на источник ценной информации. Например, статистика посещаемости вашего СМИ. Или статьи по определенной теме, которые накапливались годами. Или недавно опубликованный отчет об использовании бюджетных средств администрацией вашего района. Любые данные могут стать источником для истории в жанре журналистики данных — нужно только понять, как «раскрутить» их.

Мы, например, выяснили, какие люди и события больше всего интересовали россиян в прошедшем десятилетии, обработав базу данных из четырех миллионов документов.


Хрестоматийного определения журналистики данных еще не появилось, и чтобы объяснить суть явления, пользуются эвфемизмами в стиле «это визуализированная информация» или «это журналистика, которая делается на основе данных». И то и другое верно. Если обобщить, окажется, что data-driven — это истории, рассказанные при помощи данных, а также истории, которые возникли из сбора, фильтрации и визуализации статистики.

Если в статье часть информации подается при помощи схем или инфографики — это первый случай. Здесь визуализированные данные подкрепляют и обогащают историю, это инструмент, который помогает журналисту наглядно подать сложные вещи. Во втором случае сам информационный повод, сама история появляется как результат анализа данных.

Отменные примеры новых смыслов, извлеченных из статистики, можно найти у Bloomberg, «How Americans Die» — образцовый проект. The New York Times установили закономерность между тем, в каком штате родился человек и тем, какого потолка в зарплате он может достичь. Свежий пример в рунете — самые употребляемые слова в творчестве Бродского, инфографика-открытка к юбилею поэта.

Команда Новостей Mail.Ru задумалась о собственном эксперименте в области журналистики данных. У нас была груда информации — база новостей, накопленная за последние 9 лет. Но как их обработать и какие данные из этого можно извлечь?

Экран навигации по разделам, russia.mail.ru

Какие данные мы использовали,

или рассказ о том, почему «Новейшую историю» в формате журналистики данных могли сделать только Новости Mail.Ru.

Мы предположили, что чем больше событий связано с политиком, страной или организацией, тем больше о них пишут. Определив, кого российские СМИ упоминали чаще всего, можно понять, кто и что волновало российское информационное поле в том или ином году.

Новости Mail.Ru — агрегатор, который получает от партнеров и сохраняет в своей базе полные тексты статей. Проект сотрудничает более чем со 100 информационными агентствами и СМИ, федеральными и региональными, поэтому новостная картина собирается достаточно полная. А поскольку мы располагаем полными текстами статей, то можем проанализировать их при помощи поискового робота, находя имена и названия, и определить рейтинг упоминаемости персон и стран в российских медиа.

Методика сбора данных

Итак, по четырем миллионам документов мы прошлись поисковым роботом, который анализировал тексты по следующему алгоритму:

Последнее правило мы называли «использование слов-ограничителей». Это нужно было, чтобы очистить статистику от курьезных совпадений в случае с редкими фамилиями (например, Валерий Путин) и избавиться от путаницы в случае с фамилиями распространенными (например, Сергей Иванов и Игорь Иванов).

К этому простому на первый взгляд алгоритму мы пришли методом проб и ошибок.

Например, в первую выгрузку мы включили материалы от информационных партнеров из стран СНГ, поэтому рейтинги Александра Лукашенко и Нурсултана Назарбаева зашкаливали. Осознали, что это искажает российскую информационную картину, и в следующий раз анализировали только материалы российских СМИ — так появилось правило №1. Еще мы упустили из вида, что обычно в статьях имена употребляются по несколько раз, но считать это нужно как одно упоминание. И так далее.

После каждой выгрузки данных, которая сама по себе длилась около 10 часов, мы вручную обрабатывали и фильтровали полученные результаты, перепроверяя себя и алгоритм поиска, чтобы статистика была кристально точной. Всего мы сделали четыре выгрузки, и в результате этих манипуляций получили имена и названия стран, которые чаще всего упоминались в СМИ в 2006–2014 годах — разделы «Люди» и «Страны».

В начале исследования мы опасались, что в результатах выгрузок увидим одни и те же лица из года в год, и никакой data-driven истории у нас не выйдет. Но картина получилась интересной, а, зарываясь поглубже, встречаешь персонажей, о которых «даже не знал, что забыл». В далеком 2006-м, например, «всплыли» Михаил Фрадков, Борис Грызлов и Александр Литвиненко.

Если пристально изучать данные, находишь интересные закономерности — скажем, на первое место по упоминаемости Владимир Путин попадает в годы президентства, а будучи премьером, занимает в информационном срезе второе место. Бессменный лидер в ретинге стран — США, только в 2014 году первое место занимает Украина. А вот, например, Грузия, которая плотно присутствовала в информационном поле с 2006 по 2010 годы (тут и шпионские скандалы, и война в Южной Осетии), затем просто исчезает из рейтинга.

Получается, топ-10 персон и стран отображает долгосрочные новостные темы. Без резонансных событий информационная картина года была бы неполной. Мы запланировали раздел «События», куда должны были войти по шесть громких тем каждого года. Но как объективно оценить, какие новости взволновали нас больше всего?

Так выглядят чрезвычайные новости на графиках посещаемости :

Все по графику: как мониторинг активности пользователей на главной Mail.Ru помогает жить и решать проблемы

А так смотрится всеобщая тревога по поводу будущего:

Все по графику: как мониторинг активности пользователей на главной Mail.Ru помогает жить и решать проблемы

Если событие растянуто во времени, интерес читателей к нему сложнее заметить на графике, но здесь на помощь приходит количество новостей по теме. Например, в декабре 2014 количество новостей в сюжете «Экономический кризис» — в три раза больше, чем во всех других.

Совместив две эти методики — количество публикаций по теме и интерес читателей к ним — мы определили наполнение рубрики «События».

Визуализация данных

Итак, собранная нами информация разделяется на три потока — «События», «Люди» и «Страны». Последние ожидаемо расположили на карте. Размер отметок с номером в рейтинге меняется от большего к меньшему — это наглядно.

Экран раздела «Страны», russia.mail.ru

Такой же принцип использовали, чтобы показать топ-10 персон. Попереключайтесь по годам и последите, например, за Обамой — он постареет или помолодеет на глазах, смотря в каком направлении скроллить. Чтобы получить эффект путешествия во времени, для каждого года мы подбирали фотографии, соответствующие возрасту политика.

Экран раздела «Люди», russia.mail.ru

Раздел «События». Здесь, чтобы сделать навигацию понятной, каждой теме отрисовали по собственной иконке. Символы узнаваемые, легко определить, что скрывается за картинкой.

Экран раздела «События», russia.mail.ru

История вокруг данных

В «Новейшей истории» мы не только выяснили, кто стал самым упоминаемым, но и объяснили, почему. Например, с чем связано появление в рейтинге политиков Хосни Мубарака и Муаммара Каддафи в 2011 году вполне ясно — «Арабская весна». Но по какой причине в топ-10 стран в 2006 году вошла Япония — вопрос не самый тривиальный. Иногда мы обращались к выгрузкам из базы данных и буквально просматривали материал за материалом, чтобы восстановить память.

По клику на портрет политика, название страны или событие, открывается материал c рассказом о них. При написании текстов мы старались ухватить суть явлений, быть краткими и емкими — напомнить, но не перегружать подробностями. Поэтому, если исследовать информационный срез года, у читателя легко выстраивается картина произошедшего. Тексты дополняют фотографии, видео и результаты опросов, которые проводились на «Новостях Mail.Ru».

Результаты опросов стали нашим любимым дополнением к тексту — словно читаешь, как представляли себе будущее в XIX веке, так же занимательно:

Что на выходе?

Наш эксперимент в области журналистики данных стал успешным. Во-первых, проект заметили читатели: с момента запуска он собрал 800 000 уникальных посетителей.

Во-вторых, проект оценили коллеги и пользователи (более 20 000 репостов в соцсетях). Это приятно.

Информация будет обновляться в конце каждого года.

russia.mail.ru

Больше о медиа, форматах, подаче и распространении контента, инструментах и аналитике — в нашей группе на Facebook.

Подготовили Богдана Серебриян, Сергей Паранько, Мика Стецовский и Оля Сидорова.