«Обработка данных — лишь половина дела». Опыт «Ведомостей», ТАСС и РБК в работе с Open Data
Главное из выступлений спикеров секции «Медиа» на московском Open Data Day-2017
Участники: Полина Русяева, заместитель главного редактора журнала РБК; Елена Мязина, экс-руководитель отдела спецпроектов Vedomosti.ru, Эдуард Маас, руководитель Цифровой лаборатории ТАСС.
Господство данных принципиально изменило нашу жизнь, и те медиа, которые этим не пользуются, скоро не будут иметь возможности выжить. Работа с Open Data имеет большое значение особенно в эпоху «пост-правды»: именно она позволяет СМИ занять достойную позицию относительно возможности манипулировать общественным мнением.
В большинстве стран мира нет закона, регулирующего публикацию и доступ к данным о деятельности госструктур. Россия в этом смысле — одна из самых прозрачных стран. Но реальность такова, что открытым данным в России безоговорочно доверять нельзя. И тут в дело вступает журналист.
Настоящее
Источники. В процессе поиска данных важно отдавать предпочтение ресурсам, которые предоставляют данные в первоисточнике: Минфин, портал госзакупок и т.д. Публикации в блогах или на сторонних сервисах не могут служить основой для публикации. Например, на «Горбушке» можно купить базы МВД и ФСБ, но журналист не может на них ссылаться. Работа с непроверенными или неофициальными источниками чревата проблемами для СМИ.
Фактчекинг. Важно уметь компилировать и сравнивать данные из разных источников. Например, главный инструмент делового журналиста СПАРК в последнее время часто дает сбои. У РБК есть рейтинг «500 лучших компаний», и хотя строится он только по одному критерию — размеру выручки — сегодня эта работа занимает до полугода. Приходится все чаще обращаться к традиционным источникам.
Комментарии. Важность их получения никто не отменял. Например, вы обнаружили декларацию депутата, где указан его непомерно высокий доход. Если это окажется ошибкой и цифру поменяют, вы никогда не докажете, что изначально была другая. Журналист обязан позвонить депутату и, если он подтвердит полученную информацию, то это одна история. Если нет — другая.
Расследование Навального о Медведеве — это не журналистика. По форме сбора информации новый фильм ФБК — это классическая работа журналиста с данными. Но все дело в форме подачи контента. ФБК не делало попыток получить комментарий от всех заинтересованных сторон. В итоге, подача сводит на нет всю объективность материала.
Экспертиза. Журналист не может разбираться во всем, поэтому любые данные и полученные на их основе выводы лучше пропустить через экспертов. Кейс «Ведомостей»: редакция готовила публикацию, сравнивая расходы на содержание аппарата в региональных бюджетах. Материал был почти готов, когда эксперт обратил внимание на то, что закон не регулирует эту область расходов и делать выводы на ее основании нельзя.
Инструменты. Когда речь идет об экономии времени и оперативности, даже в редакциях, где есть программисты и дизайнеры, часто пользуются общедоступными веб-сервисами визуализации данных. Студия инфографики ТАСС завела аккаунт в Tableau Public, куда выкладываются проекты, сделанные за 1–2 часа. Аналогичная работа во flash могла бы занять целую неделю.
Пользовательский контент. Огромное количество интересных данных генерируют сами пользователи. Популярный в сегодняшних медиа формат тестов — это тоже работа с Open Data. В этом году РБК сделали проект с Avito: редакция работала с массивом частных объявлений и оценивала стоимость разных категорий товаров в городах России более чем по 30 критериям. К расстройству журналистов, картина получилась схожей с открытыми данными Росстата.
Ничто не заменит работу «ручками». Когда перед вами огромный массив данных, вы рискуете пропустить что-то важное. «Изюминки» из дата-сетов может вытащить только человек, и очень часто именно они составляют основу итоговых публикации, а весь машинный анализ остается в стороне.
Не стоит увлекаться графиками и таблицами. Это формирует избыток информации. Главная идея, которую вы хотите донести, должна быть подана с учетом клипового мышления современных читателей.
Нельзя делать дату ради даты. Количество источников данных неимоверно возросло. Поэтому, прежде чем начинать работать с дата-сетом, нужно понимать, зачем вы это делаете и на какие вопросы собираетесь ответить. От актуальности публикации тоже никуда не деться. Самые просматриваемые дата-проекты ТАСС — те, которые были завязаны на информационный повод, и попали в контекст.
Будущее
Все большее количество редакторов и журналистов научатся самостоятельно делать простую визуализацию, привлекая дизайнера только для крупных проектов.
В ближайшие годы будет нарастать объем данных, обрабатываемых автоматически. Творческую роль человека при этом никто не заменит. Журналист будущего будет уметь давать роботам правильные задания по парсингу и анализу данных, а дальше делать из этого красивый медиапродукт.
Перспективное направление — Design Assistant. Робот может подсказывать дизайнеру, как сделать визуализацию еще лучше.
В ТАСС смотрят в сторону извлечения данных из изображения, звука и других нестандартных источников.
Инфографика как дисциплина в России еще не состоялась. Многие люди, которые могли бы этим заниматься, ушли в рекламу или аналитику. Ситуация может стать лучше через несколько лет, но никто не может гарантировать, что к этому моменту рынок уже не выдвинет новые требования.