От предвыборных кампаний до идентичности городов. Как мы делаем исследования, в интерпретации которых не уверены

Alisa Kuznetsova
Humaning is hard
Published in
12 min readMar 22, 2019

Выступление Алекса Шипулина на ежегодном Алисолектории — вечеринке в стиле TED, организованной Алисой Кузнецовой. Алекс Шипулин — социальный психолог (МГУ), сооснователь аналитического проекта Ad:res.

Как мы пытаемся объединить психологию, математику и социальные сети, чтобы научиться узнавать новое о людях и их структурах — и желательно, чтобы от этого была какая-то польза.

Я — сооснователь проекта Ad:res. Мы создали некоторый сервис, который позволяет анализировать социальные связи между людьми, чтобы вытаскивать оттуда какую-то информацию. Сейчас я расскажу об этом подробнее.

Когда несколько человек взаимодействуют друг с другом, они образуют связь. Эта связь может быть очень разной: вы с кем-то дружите, вы подписаны на кого-то в социальных сетях, вы ходите к кому-то в гости — всё это связь. Когда связей много, они образуют между собой сеть, а сеть поддается анализу с помощью математических и некоторых других алгоритмических методов.

Краткий пример. Один из моих любимых ученых, которые работают в области анализа социальных данных, клёвый чувак с еще более клёвой фамилией — Эндрю Папахристос. Это американский ученый, который в какой-то момент решил построить граф всех людей в городе Чикаго, которые вместе привлекались к уголовной ответственности. То есть именно этот параметр — когда два человека арестованы вместе — он выделил за связь между людьми.

Исходя из этой связи он смог построить граф людей, которые были вместе в тюрьме. Потом он сделал достаточно простую вещь — исходя из полицейских отчётов он на этом графе отметил тех людей, про которых было известно, что они были подстрелены. Исходя из этого он смог предсказать вероятность быть подстреленным для всех остальных участников графа.

Как видите, люди и связи между ними образуют некоторую структуру: здесь какая-то более плотная компонента справа и какие-то более разреженные клики* сообществ по сторонам.

*Кликой неориентированного графа называется подмножество его вершин, любые две из которых соединены ребром.

По сути, это большая корреляционная табличка*, вы можете найти её у него в статье. Он смог показать, что вероятность того, что вас подстрелят, если вы находитесь вот в этой плотной кучке в центре, сильно превышает 50%, что, как вы понимаете, достаточно эффективно.

* Имеется в виду, что авторы посчитали корреляции между положением в сети и вероятностью попасть в перестрелку. Также авторы учитывали расовую принадлежность.

“Tragic, but not random: The social contagion of nonfatal gunshot injuries”

Как это относится к нам? Мы используем несколько оснований для того, чтобы делать свои исследования.

Первое — это гипотеза социального мозга Робина Данбара. Возможно, вы слышали про число Данбара. Робин Данбар — это британский антрополог, который в какой-то момент вывел закономерность между числом особей в стабильной группе приматов и собственно видом приматов*. Он смог экстраполировать эту связь и предсказать значение такой оптимальной группы для человека.

* Строго говоря, Данбар нашёл зависимость не с видом приматов, а со средним размером неокортекса у этого вида. И именно зная средний размер неокортекса homo sapiens sapiens, Данбар смог посчитать оптимальный размер группы для людей.

Оказалось, это группа в 150 человек, и все вы можете найти это знаменитое число Данбара и множество доказательств, что люди образуют именно такие группы.

На самом деле это не доказательства, а скорее попытки натянуть на глобус этой теории какие-то наблюдения за нами, но тем не менее, он занимается ее развитием, и, в частности, он изучает то, как устроена для каждого человека эта структура — что это за 150 человек. Есть более близкие среди этих людей, более дальние, как они взаимодействуют, как это связано с конкретными индивидуальными особенностями человека — это то, чем занимается Данбар, и что мы взяли из его работ.

Второе — это теория графов, математические алгоритмы, которые позволяют нам анализировать эту историю. По сути, это очень хороший аппарат для того, чтобы решать задачи в духе: у нас есть какое-то сообщество людей, между которыми есть связи; как за минимальное количество шагов пройти от одной точки до другой, или как за минимальное количество шагов распространить какую-то информацию по всей сети.

Понятно, что это математические абстракции, но когда мы говорим о реальном сообществе, это имеет прямую практическую ценность. То есть мы можем с помощью этих алгоритмов выяснять, к каким людям нам нужно обращаться, чтобы быстрее распространить информацию по сообществу, или для того чтобы переубедить сообщества, убеждённые в необходимости каких-то действий.

Ну и третье, откуда мы сейчас берём данные, но постепенно перестаём, — это виртуальные социальные сети, «ВКонтакте» прежде всего, потому что у нее очень удобный API и потому что мы работаем сейчас в основном в России. Данные, которые позволяют нам строить все эти потрясающие графы, — это прежде всего вся доступная активность: кто у кого в друзьях, кто кого лайкает, кто кого репостит, пишет тексты и так далее.

Сейчас я расскажу несколько конкретных случаев из практики.

Один из таких достаточно важных кейсов, которые мы решали, был связан с выборной тематикой. Накануне выборов мэра, которые проходили в сентябре 2017 года, к нам обратились ребята из небольшого подмосковного города, которые пытались несколько изменить гегемонию, сложившуюся там на протяжении последних 18 лет:

некая правящая партия там засела и никаким образом не менялась.

Ребята хотели выдвинуть своего кандидата, который и нам идеологически был симпатичен, на пост мэра в этом городке. Они обратились к нам со следующим вопросом: они хотели бы повысить информированность жителей о возможным кандидате, узнать о том, насколько каждый из жителей лоялен к нему, знают ли они его вообще и если не знают, то как повысить популярность этого человека.

Если переводить это на язык того, чем мы занимаемся, то

  • первый вопрос — это как эффективно распространить информацию по сети,
  • второй — как предсказать поведение отдельных узлов,
  • и третий — есть ли какие-то пути, по которым внутри этого графа меньшинство, которое поддержит нашего кандидата, может стать большинством.

Что мы сделали — мы скачали все данные из социальных сетей и из открытых источников, которые смогли найти; мы выделили тех людей, которым на момент выборов (через два-три месяца) должно было быть больше 18 лет и тех, чей возраст неизвестен.

Возраст мы, естественно, смогли восстановить: даже если вы скрываете ваш возраст в соцсетях, вы должны знать, что ваш возраст примерно равен среднему арифметическому возрасту всех ваших друзей.*

Это к тому, насколько легко получить ваши данные. Можете скрывать их, но ваши знакомые, ваше окружение могут выдать информацию, которую вы пытаетесь скрыть.

* На самом деле мы используем медиану, это даёт гораздо более точное значение. Вообще есть много способов узнать возраст ещё точнее, но медиана — «грязный, зато дешёвый» (в смысле, требующий минимум вычислений).

Итак, мы получили такую картину: у нас есть граф всего города — много-много тысяч узлов и связи между ними. Затем мы построили граф всех дружеских связей (френды) и всех симпатий (лайки и репосты), которыми обменивались пользователи в сети.

Мы обнаружили большое количество небольших плотных кластеров — людей, которые чаще общаются между собой. В шутку мы назвали их «дворами».

В каждом дворе мы искали:

  • наиболее популярных людей
  • людей, которые «связывали» дворы друг с другом — «мосты».

Мы взяли паблики сторонников нашего кандидата и сторонников других кандидатов и скачали оттуда аккаунты всех участников. Для начала мы выяснили, не слишком ли они перемешаны, но всё оказалось ожидаемо — у сторонников одного кандидата было больше связей между собой и с обычными горожанами, чем с людьми из другого лагеря.

Мы построили огромную матрицу, где для каждого жителя этого города был набор параметров, включая то, сколько его близких друзей хотели бы проголосовать за кандидата, сколько за его противника, ну и все это мы смогли использовать, чтобы предсказать вероятность того, что каждый житель этого города проголосует за того или иного человека.

Мы скачали все тексты этих людей, чтобы помочь нашему кандидату написать избирательную программу.

Мы перевели все слова в векторное пространство с помощью Word2vec и Doc2vec, и это позволило нам выделить, во-первых, кластеры слов и постов, которые писали люди, которые были связаны с проблемами. А главное, эти методы позволяют выполнять математические операции со словами, то есть фактически мы смогли найти все слова и все посты, которые находятся на пересечении векторов «мусор» и «проблемы», и вот так мы складывали какие-то актуальные, как нам казалось, гипотезы о том, что может волновать жителей города. Условно, перемножали вектора «жкх» и «проблемы», и находили информацию из серии «на Комиссарской улице опять прорвало трубу» — это все должно было позволить сформировать избирательную программу кандидата.

Изначально я говорил о том, что мы делаем исследования, в интерпретации которых не уверены.

Это очень важно в контексте всей истории про Cambridge analytica, вообще про всех нас, чуваков, которые говорят — сейчас мы вам скачаем всё с «Фейсбука» и сделаем офигенно, ваш Трамп победит. Это не так.

История про выборы даже теоретически не проверяема, потому что это одна-единственная ситуация. Вы не можете сделать А/В тест, вы не можете сделать ситуацию альтернативной реальности, где есть все то же самое, только вы не проводите эксперимент. Да, на каких-то параметрах, там где мы пускали нашу рекламу, какие-то показатели выросли.

И вот, казалось бы, ваши социальные технологии увеличивают все, что только возможно, и побеждают вашего условного Трампа — но ещё отдельный фактор, который на это влияет, это то, что вы находитесь в России. Я объясню на этом конкретном примере.

Когда мы хотели выяснить, каковы же итоги нашей борьбы, чем закончилась история с этим кандидатом, выяснилось, что все было примерно так: было 10 сентября, единый день голосования по всей стране, но в этом городе примерно к 7 часам вечера трансляция голосования прекратилась, а позже в новостях появилась информация, что в процессе голосования были обнаружены нарушения, поэтому выборы просто откатили, и на месте главы города остался тот же человек, который был там последние 20 лет.

То есть вы можете сделать очень много классных вещей, крутых исследований, но во-первых, вы даже не уверены, что они кому-то помогут, а во-вторых — вы в России.

Я не хочу заниматься выборами, не только потому что мы в России, а потому что там много этических и моральных вопросов и сомнений.

Но есть классные кейсы, с которыми к нам обращаются.

Например, мне позвонили из какого-то города за полярным кругом и сказали — чувак, помоги нам найти идентичность.

И конечно, я согласился, потому что вообще непонятно, что это значит и что от меня хотели.

Но на самом деле, по сути мы сделали всё то же самое: мы скачали все слова и пытались найти какие-то регулярные паттерны, которые используют жители этого города, когда описывают себя, в каких позитивных и негативных терминах они отзываются о своём городе. Найти какую-то идентичность на этом основании особенно не получилось, если честно, но при этом мы нашли людей, которые являются трендсеттерами в этом городе, которые связывают разных людей, отвечают за всю активность — это владельцы местного антикафе, это люди, которые занимаются исторической фотографией города и так далее.

Там был большой социальный форум, я на него приехал рассказать про результаты исследования, и в какой-то момент ребята договорились вызвать всех этих людей — самых-самых связывающих — на сцену. Оказалось, что эти люди, несмотря на то что очень активные, были мало знакомы друг с другом, а главное, администрация города о них ничего не знала. И это мне кажется безумно важным в том, чем я занимаюсь — мы помогаем конструировать сообщества. Мы за счет вот этих технологий, очень опосредованных, связанных с цифровыми следами, конструируем сообщества и помогаем людям быть эффективнее в этих сообществах, делать связи между людьми более насыщенными.

И в завершение: все люди образуют сети.

Люди, которые связаны друг с другом, которые приходят на день рождения Алисы, которые ходят друг к другу в гости, общаются, переписываются — мы все часть сети.

Мы как сервис очень хорошо умеем определять, какие сети эффективны, какие нет, и мы хотим прийти к каждому, кто был бы готов с нами сотрудничать, и помочь вашу сеть сделать эффективной. У вас есть проект с пользователями, которые вам дают информацию и взаимодействуют друг с другом — давайте проанализируем эту сеть, найдём, как распространяется информация по ней. У вас организация, внутри которой есть какая-то корпоративная переписка — нам не нужно знать, что именно вы пишете друг другу, мы можем проанализировать сеть и как в ней распространяется информация.

И наконец, самый последний момент — вопрос об этике. Он очень важный, и о нем много думают все исследователи сетей и цифровых следов. У меня нет прямого ответа, но есть некоторые принципы, которые мы для себя сформулировали.

Вообще-то нам не обязательно воровать или брать через посредников ваши данные.

Нам достаточно получить информацию об анонимизированных данных, и это минимальная очень простая гарантия того, что они не уйдут дальше. Если я анализирую данные о том, как внутри какой-то компании общаются люди, мне не нужно знать, как зовут этих конкретных людей и что именно они друг другу пишут. Мне нужна просто таблица, в которой есть хеш, зашифрованный набор людей и стрелки — кому именно они отправляли данные. Эту информацию я не смогу перепродать.

Вопрос 1: Вот вы приводите пример анонимизированных данных внутри компании. Но ведь если такие данные перепродать, то потом можно провести деанонимизацию, потому что если можно вычислить, допустим, идентичности каких-то конкретных узлов, то потом можно восстановить сеть. Кажется, я слышал о случае, когда компания получила анонимизированные данные о болезнях в какой-то клинике и потом деанонимизировала их через фейсбук, и это был скандал.

А.Ш.: На текущем уровне с какой-то долей вероятности можно восстановить одну сеть на основании данных другой сети. Это работает в том случае, если сети одного типа, то есть условно более-менее по фейсбуку, например, можно восстановить с большими погрешностями картинку инстаграма или твиттера. Сложнее, наверное (но можно), с вконтакте и фейсбуком. Но это не сработает, если у тебя есть одна сеть, которая про рабочие контакты — по ней ты не сможешь восстановить картину, просто взяв их профиль в социальных сетях, где люди общаются и лойсают мемасы. Вот как-то так.

Вопрос 2: Спасибо большое, безумно интересно. Я вот как человек, который занимается активизмом, хочу задать вопрос — а хорошо ли, когда администрация города внезапно знает, какие люди в данном городе являются наиболее активными?

А.Ш.: Ну не всегда, это нужно всякий раз мерить индивидуально. В данном случае я сказал, что речь идет о моногороде за полярным кругом — там было самое важное даже не с администрацией города, а с компанией, которая по сути отвечает за всю экономику этого города, и которая может профинансировать активность этих людей. Это взаимовыгодная ситуация с точки зрения экономики, но, конечно, каждый раз нужно смотреть. То есть, условно, если к нам придут с кейсом «а давайте найдём всех политических левых активистов и либералов, вот будет классно» — мы откажемся, потому что, кажется, все понимают, что это хорошим не пахнет. Вот на уровне местных художников и так далее — по-моему, это классные идеи.

Вопрос 3: А вы рассматривали вопросы к анонимности в вашей сети — когда просто настолько редкое сочетание параметров, что есть только один человек с такими параметрами, и анонимизирован он или нет — всё равно уже ясно, кто это?

А.Ш.: Мне кажется, это не совсем корректно. Каждый раз под каждый кейс строится отдельная индивидуальная сеть. Узел — да, действительно, обладает каким-то набором характеристик, но дальше этих характеристик мы ничего не знаем. Для того чтобы выяснить потом, кто этот человек, нужно найти другую сеть, в которой можно выявить тот же самый набор характеристик. Непонятно, как это сделать.

Другие выступления на Алисолектории-2018

Анастасия Головина — Как рассказывать про архитектуру незрячему человеку
Вячеслав Матюхин — Футархия: как починить демократию
Алекса Тим — Нейросексизм: чем мозг мужчины не отличается от женского

Олеся Авраменко — Жена художника или художница? Гендерная история советского искусства за 10 минут
Мария Буряк — Доказательная кинология. Что мы на самом деле знаем о собаках?
Антон Тихонов — Наследственность и превентивная онкология
Александра Боженова-Сорокина — Семья, друзья и возлюбленные Туве Янссон: кто есть кто в мире Муми-троллей

Александр Али — Уличная эпистемология: план по захвату мира сократовскими диалогами
Дмитрий Толкачев — Когда в России легализуют гей-браки?
Иван Бегтин — Государство в поисках легитимности

Сергей Марков — Altered Carbon: реально ли перенести сознание на другой носитель?
Евгений Гордиенко — Наблюдатели на выборах: переходим от обороны к атаке
Дмитрий Калупин — Прямая обратная связь: как эффективнее ссориться с коллегами

Ксения Романенко — Простите, Лев Николаевич: фанфикшн по русской классической литературе
Жанна Галиева — Не человек для культуры, а культура для человека
Прапион Гайбарян — Как я учу инженеров использовать интуицию и анекдотические свидетельства
Маша Шульчева — Чем бодипозитив отличается от любви к себе

Марина Молчанова — Химиотерапия против рака: вчера, сегодня, завтра
Александр Фенин — Data must flow: кто владеет вашими данными и что с этим делать
Алекс Шипулин — От предвыборных кампаний до идентичности городов. Как мы делаем исследования, в интерпретации которых не уверены

--

--