Как все устроено. Директор по развитию проекта «СКАН-Интерфакс»
«СКАН» — это база данных и нетипично умный поисковый алгоритм, который умеет анализировать данные медиасреды нетрадиционными способами. Например, понимает разницу между схожими объектами, источниками, тональность публикаций. Мы разработали его в «Интерфаксе».
От WSBB: Редкий случай, когда с нами делится опытом проект с экспертизой в big data. Мы убеждены, что такие данные важны не только для бизнеса, но и для создания уникальных фичеров в онлайн-СМИ. Организация работы «СКАНа» поможет понять, какие данные анализа медиасреды могут быть использованы в редакционных или бизнес-целях.
Что умеет «СКАН»
«СКАН» — это инструмент для анализа публикаций в СМИ. С его помощью можно:
- готовить ежедневные мониторинги СМИ
- готовить аналитические отчеты
- анализировать эффективность копирайта и PR в целом
- мониторить развитие темы
- составлять рейтинги
- составлять отчеты о том, как представлены в СМИ люди, компании, рынки, о распространении информации, влиятельности сообщений
- проводить анализ влиятельности пресс-релизов
- анализировать тональность публикаций
- формировать сюжеты из разрозненных текстов
Что не умеет никто, кроме «СКАН»
«СКАН» едва ли заинтересует читателя онлайн-СМИ, он ориентирован на бизнес. Наши пользователи — это:
- те, кто делают новости: главные редакторы, специалисты мониторингов, отраслевые журналисты и так далее.
Для отраслевых журналистов «СКАН» — находка. Есть вещи, которые не очевидны в потоке general-news, но будут важны узкому специалисту.
Например, объявление об общественных слушаниях по разработке месторождения N в Энском округе может быть для него важным новостным маркером. «СКАН» дает ему возможность легко и просто получать доступ ко всем волнующим его новостям любого регионального издания.
- те, кто занимается анализом медиасферы: PR-специалисты, медиатехнологи, безопасники. Те, кто составляет медийные отчеты, проверяет контрагентов, борется с негативом.
Вот так, например, выглядит простая аналитика по запросу «ТЭК в СМИ». Аналогичное можно сделать по любому сектору, компании, человеку.
Есть и нетипичные пользователи. IT-компаниям и интеграторам мы можем найти компании с неосвоенным бюджетом на IT, рекламу, PR.
Мы работаем и для финансового сектора. Например, трейдерам помогаем не потерять деньги: система с легкостью вычисляет риски.
Нетривиальные возможности: информационные войны и роботожурналистика
«СКАН» умеет раскладывать медиавойны на составные элементы:
- ищем первоисточник
- анализируем накопление и каналы распространения информации
- отслеживаем развитие ситуации в онлайн-режиме
- оцениваем изменение тональности
- следим за динамикой
Каждый дополнительный критерий поиска (а их мы можем настраивать множество) делает картину более детализированной.
«СКАН» делает массу автоматической работы по составлению рейтингов и мониторингов. Это как раз то, что начали делать «Яндекс.Новости» для медиа. Отличие «СКАНа» в том, что мы попытались сделать его максимально разумным «роботом».
Система обучена делать контекстный поиск, где каждый объект прорабатывается вручную, учитывает синонимы, выстраивает связи между объектами, даже если эти связи относятся к глубокому прошлому и в настоящий момент не существуют.
То есть мы не просто агрегируем новости, «СКАН» их читает, причем делает это осознаннее многих из нас: осмысляет содержание, учитывает тональности, все объекты, темы и так далее.
Вот пример рейтинга и его медийного отображения. Нужно выбрать персону, компанию, отрасль, и задать временные параметры.
Получаем все медиаподробности о взлета господина Миллера в 2015 г. — сюжеты, связанные отрасли, организации и действующие лица, список публикаций с анонсами, аналитику по дням, расчет тональности публикаций (нейтральные, позитивные, негативные), прямую речь и контекстные публикации, аналитику по источникам (первоисточникам и тем, кто перепечатывал), а вместе с этим полную информацию о «весе» публикаций.
Как работает «СКАН»
Механизмы поиска и анализа придумывали программисты вместе с работающими в «Интерфаксе» журналистами — теми, кто понимает, как делаются новости и что в них важнее всего.
Получилась уникальная история синергии big data и медиа. Кстати, руководят «СКАНом» журналисты, которые вышли из новостей.
Вот как работает «СКАН». Попробуйте поискать человека по фамилии Иванов в любом поисковике. Можно представить себе, какова будет выдача. А вот «СКАН» отранжирует всех Ивановых, которые успели появиться в новостях, и предложит выдачу, которая будет максимально соответствовать запросу пользователя.
Мы используем два вида поиска: фразовый и объектный. Оба имеют тонкие настройки.
- Фразовый — это поиск словосочетаний, организаций и персон. Интересное: «СКАН» умеет искать новости, в которых про организацию/персону написано нечто позитивное или наоборот негативное. Еще можно искать статьи, в которых организация/персона является главным объектом исследования или, наоборот, упоминается в контексте.
- Объектный поиск базируется на проработанных вручную карточках объектов и учитывает связи между различными объектами системы. Например, «Греф» и «Сбербанк» связаны, и при поиске подобные знания учитываются для уточнения результатов поисковой выборки. Поэтому можно смело говорить, что «СКАН» является умной читающей машиной. И читает она не как ученик начальной школы, а как взрослый человек, у которого уже есть кругозор, есть знания и опыт.
Мы понимаем, как развиваются новости. Система сортирует их на основе журналистского видения: первоисточник, перепечатки, развитие темы.
- собираем публикации
- классифицируем от первоисточника к перепечаткам
- выделяем из них все объекты: действующих лиц, персоны, компании, бренды
- объединяем в сюжеты
- оцениваем тональность (позитивная, негативная, нейтральная)
- классифицируем СМИ по категориям (информационные агентства, телевидение, интернет-СМИ и так далее)
- распределяем по карте России и мира, языкам, уровням (федеральный, региональный).
Один поисковый запрос — и ты получаешь полную картину того, как развивался новостной сюжет. Кто из СМИ им интересовался, кто проявил повышенный интерес, кто и как расширял тему, кто занимался унылым копипастом, а кто делал свою историю.
Пример: популярный новостной сюжет о дружбе козла и тигра в Приморском сафари-парке уже почти месяц увлекает все СМИ России. Смотрим, сколько написано, кто, где, когда, оцениваем вес источников.
Конечно, делаем мы и простые запросы к базе данных, которые востребованы СМИ: считаем рейтинги персон, брендов, организаций, делаем пресс-клиппинг (PR-отчеты), сводки новостей по заданным темам.
А еще мы придумали Spi (scan performance indicator)
Spi (scan performance indicator) — это такой сложно формируемый критерий, определяющий значимость публикации . Когда он анализирует информационный элемент, он учитывает массу историй: значимость источника, положение материала на странице, его положение в новостном кластере, время выхода, количество перепечаток и так далее. Spi различает публикации, которые посвящены объекту целиком или косвенно. Каждый может выбрать принципиально важные ему параметры и сформировать свой собственный Spi.
Другие материалы цикла «Как все устроено»:
- Городской редактор проекта «Новости Mail.Ru». Сима Остапенко
- Главный редактор проекта NewRunners. Ксения Афанасьева
- Управляющий редактор интернет-журнала «Звезда». Сергей Якупов
- Дизайнер Tilda Publishing. Ира Смирнова
- Главный редактор Russia Beyond The Headlines. Всеволод Пуля
Больше о медиа, форматах, подаче и распространении контента, инструментах и аналитике — в нашей группе на Facebook.
Редакционная коллегия We Shall Burn Bright: