Как все устроено. Директор по развитию проекта «СКАН-Интерфакс»

Published in

Как все устроено

5 min readDec 16, 2015

Юлия Михайлова — директор по развитию проекта «СКАН-Интерфакс». Отвечает за то, чтобы базы становились умнее, а клиенты — счастливее.

«СКАН» — это база данных и нетипично умный поисковый алгоритм, который умеет анализировать данные медиасреды нетрадиционными способами. Например, понимает разницу между схожими объектами, источниками, тональность публикаций. Мы разработали его в «Интерфаксе».

От WSBB: Редкий случай, когда с нами делится опытом проект с экспертизой в big data. Мы убеждены, что такие данные важны не только для бизнеса, но и для создания уникальных фичеров в онлайн-СМИ. Организация работы «СКАНа» поможет понять, какие данные анализа медиасреды могут быть использованы в редакционных или бизнес-целях.

Что умеет «СКАН»

«СКАН» — это инструмент для анализа публикаций в СМИ. С его помощью можно:

готовить ежедневные мониторинги СМИ
готовить аналитические отчеты
анализировать эффективность копирайта и PR в целом
мониторить развитие темы
составлять рейтинги
составлять отчеты о том, как представлены в СМИ люди, компании, рынки, о распространении информации, влиятельности сообщений
проводить анализ влиятельности пресс-релизов
анализировать тональность публикаций
формировать сюжеты из разрозненных текстов

Что не умеет никто, кроме «СКАН»

«СКАН» едва ли заинтересует читателя онлайн-СМИ, он ориентирован на бизнес. Наши пользователи — это:

те, кто делают новости: главные редакторы, специалисты мониторингов, отраслевые журналисты и так далее.

Для отраслевых журналистов «СКАН» — находка. Есть вещи, которые не очевидны в потоке general-news, но будут важны узкому специалисту.

Например, объявление об общественных слушаниях по разработке месторождения N в Энском округе может быть для него важным новостным маркером. «СКАН» дает ему возможность легко и просто получать доступ ко всем волнующим его новостям любого регионального издания.

те, кто занимается анализом медиасферы: PR-специалисты, медиатехнологи, безопасники. Те, кто составляет медийные отчеты, проверяет контрагентов, борется с негативом.

Вот так, например, выглядит простая аналитика по запросу «ТЭК в СМИ». Аналогичное можно сделать по любому сектору, компании, человеку.

Есть и нетипичные пользователи. IT-компаниям и интеграторам мы можем найти компании с неосвоенным бюджетом на IT, рекламу, PR.

Мы работаем и для финансового сектора. Например, трейдерам помогаем не потерять деньги: система с легкостью вычисляет риски.

Нетривиальные возможности: информационные войны и роботожурналистика

«СКАН» умеет раскладывать медиавойны на составные элементы:

ищем первоисточник
анализируем накопление и каналы распространения информации
отслеживаем развитие ситуации в онлайн-режиме
оцениваем изменение тональности
следим за динамикой

Каждый дополнительный критерий поиска (а их мы можем настраивать множество) делает картину более детализированной.

«СКАН» делает массу автоматической работы по составлению рейтингов и мониторингов. Это как раз то, что начали делать «Яндекс.Новости» для медиа. Отличие «СКАНа» в том, что мы попытались сделать его максимально разумным «роботом».

Система обучена делать контекстный поиск, где каждый объект прорабатывается вручную, учитывает синонимы, выстраивает связи между объектами, даже если эти связи относятся к глубокому прошлому и в настоящий момент не существуют.

То есть мы не просто агрегируем новости, «СКАН» их читает, причем делает это осознаннее многих из нас: осмысляет содержание, учитывает тональности, все объекты, темы и так далее.

Вот пример рейтинга и его медийного отображения. Нужно выбрать персону, компанию, отрасль, и задать временные параметры.

Получаем все медиаподробности о взлета господина Миллера в 2015 г. — сюжеты, связанные отрасли, организации и действующие лица, список публикаций с анонсами, аналитику по дням, расчет тональности публикаций (нейтральные, позитивные, негативные), прямую речь и контекстные публикации, аналитику по источникам (первоисточникам и тем, кто перепечатывал), а вместе с этим полную информацию о «весе» публикаций.

Как работает «СКАН»

Механизмы поиска и анализа придумывали программисты вместе с работающими в «Интерфаксе» журналистами — теми, кто понимает, как делаются новости и что в них важнее всего.

Получилась уникальная история синергии big data и медиа. Кстати, руководят «СКАНом» журналисты, которые вышли из новостей.

Вот как работает «СКАН». Попробуйте поискать человека по фамилии Иванов в любом поисковике. Можно представить себе, какова будет выдача. А вот «СКАН» отранжирует всех Ивановых, которые успели появиться в новостях, и предложит выдачу, которая будет максимально соответствовать запросу пользователя.

Мы используем два вида поиска: фразовый и объектный. Оба имеют тонкие настройки.

Фразовый — это поиск словосочетаний, организаций и персон. Интересное: «СКАН» умеет искать новости, в которых про организацию/персону написано нечто позитивное или наоборот негативное. Еще можно искать статьи, в которых организация/персона является главным объектом исследования или, наоборот, упоминается в контексте.
Объектный поиск базируется на проработанных вручную карточках объектов и учитывает связи между различными объектами системы. Например, «Греф» и «Сбербанк» связаны, и при поиске подобные знания учитываются для уточнения результатов поисковой выборки. Поэтому можно смело говорить, что «СКАН» является умной читающей машиной. И читает она не как ученик начальной школы, а как взрослый человек, у которого уже есть кругозор, есть знания и опыт.

Мы понимаем, как развиваются новости. Система сортирует их на основе журналистского видения: первоисточник, перепечатки, развитие темы.

собираем публикации
классифицируем от первоисточника к перепечаткам
выделяем из них все объекты: действующих лиц, персоны, компании, бренды
объединяем в сюжеты
оцениваем тональность (позитивная, негативная, нейтральная)
классифицируем СМИ по категориям (информационные агентства, телевидение, интернет-СМИ и так далее)
распределяем по карте России и мира, языкам, уровням (федеральный, региональный).

Один поисковый запрос — и ты получаешь полную картину того, как развивался новостной сюжет. Кто из СМИ им интересовался, кто проявил повышенный интерес, кто и как расширял тему, кто занимался унылым копипастом, а кто делал свою историю.

Пример: популярный новостной сюжет о дружбе козла и тигра в Приморском сафари-парке уже почти месяц увлекает все СМИ России. Смотрим, сколько написано, кто, где, когда, оцениваем вес источников.

Конечно, делаем мы и простые запросы к базе данных, которые востребованы СМИ: считаем рейтинги персон, брендов, организаций, делаем пресс-клиппинг (PR-отчеты), сводки новостей по заданным темам.

А еще мы придумали Spi (scan performance indicator)

Spi (scan performance indicator) — это такой сложно формируемый критерий, определяющий значимость публикации . Когда он анализирует информационный элемент, он учитывает массу историй: значимость источника, положение материала на странице, его положение в новостном кластере, время выхода, количество перепечаток и так далее. Spi различает публикации, которые посвящены объекту целиком или косвенно. Каждый может выбрать принципиально важные ему параметры и сформировать свой собственный Spi.