Культурная дифференциация в цифровом пространстве

Published in

Thesis Notes

5 min readSep 30, 2017

В теоретическом введении речь шла о том, что интересы людей — это не набор произвольных личных предпочтений, а сложная социально обусловленная система, которая играет важную роль в воспроизводстве неравенства. Несмотря на свою важность, интересы остаются недостаточно изученными из-за различных методологических трудностей.

Например, опросные методы обычно предполагают наличие определенных категорий, задаваемых исследовательницей. Неважно, указаны ли эти категории непосредственно в анкете или появляются в процессе кодирования ответов данных свободной форме. Если исследовательница решила, что интересы это только спорт и музыка, то ничего другого она и не сможет увидеть.

При этом задаваемый вопрос может не иметь для респондента смысла. Например, отвечая на вопрос, кто их любимый писатель, юноши чаще всего говорят “Пушкин”. Пушкин, конечно, “наше все”, однако такая популярность этого ответа выглядит несколько нелепо. Вероятно, дело даже не в том, что молодые люди стараются произвести какое-то впечатление, а в том, что у них просто нет никакого любимого писателя и, отвечая на вопрос, они выбирают первое, что приходит в голову. Разумеется, отвечая на другие вопросы, они вполне могут пытаться произвести впечатление или скрывать ответы, которых стесняются. Подобная социальная желательность и цензурированность ответов приводит к тому, что опросам очень сложно доверять. В одном исследовании респондентам предлагалось указать, каких писателей из списка, они знают. Одна из фамилий при этом была выдумана. Что не помешало многим ее выбрать. Эти же люди, если верить опросу, значительно чаще ходят в музеи, чем остальные.

Цифровая среда открывает перед нами новые возможности в изучении интересов. Одним из индикаторов интереса могут служить подписки на сообщества в социальной сети. В этом случае пользователь выбирает не из нескольких категорий, а из практически безграничного числа. Сообщества на ВКонтакте могут быть посвящены любимой компьютерной игре, фильму, книге, актрисе, музыкальному исполнителю или политику. Большинство организаций и брендов — от Мариинского театра до тату-салона — имеют свое сообщество на ВКонтакте. В социальной сети представлены любые интересы и хобби от вышивания до квантовой физики. Сообщества могут быть посвящены сексуальным отношениям, неразделенной любви, определенному образу жизни или настроению («Плед, какао и камин»).

Социальная желательность и цензурированность ответов в случае подписок на ВКонтакте выражена меньше. Хотя, конечно, далеко не все любители эротики будут подписываться на соответствующие тематические группы и, наоборот, в группе любителей театра вполне могут состоять те, кто ни разу там не был.

Ввиду огромного количества различных сообществ, с ходу не совсем понятно, как понять, что именно происходит. Для того чтобы разобраться попробуем представить информацию о подписках в виде карты интересов школьников. Для этого возьмем учащихся одной московской школы и все их подписки на ВКонтакте. Выберем те сообщества, в которых состоит достаточно большое количество школьников. Для этих сообществ посчитаем средний балл их подписчиков, средний возраст и долю мальчиков. Получится такая картинка.

Как и в том случае, когда мы впервые построили сеть дружбы школьников, изначально было сложно предсказать, получится ли что-нибудь осмысленное. Однако мы видим, что мальчики состоят в группах про футбол и компьютерные игры, а девочки в таких группах как “хорошо быть девочкой” и “девочкам это нравится”, старшеклассники состоят в группах, посвященных выпускным экзаменам. То что стереотипы так хорошо воспроизводятся на карте интересов, конечно, печально. Однако это дает основания считать, что подписки на ВКонтакте могут служить инструментом для изучения интересов.

Выделенные таким образом интересы — плодородная почва для всевозможных исследований, но нас интересует конкретный вопрос, а именно дифференциация по академической успеваемости. Мы видим, что наиболее успевающие ученики интересуются “лучшими стихами великих поэтов” и “интересными фактами”, а наименее успевающие — гороскопами.

Это, однако, еще не доказательство, а лишь анекдотическое свидетельство. Для того чтобы показать, что подписки на ВКонтакте действительно связаны с академической успеваемостью, попробуем предсказать успеваемость по подпискам. Это можно считать доказательством от противного: если бы никакой связи между подписками и успеваемостью не существовало, то такое предсказание было просто невозможно сделать.

Для этой задачи воспользуемся нашим набором данных о пользователях Санкт-Петербурга. Возьмем одну когорту пользователей, например, 1997 года рождения. Оставим только тех пользователей, которые подписаны хотя бы на 10 сообществ, и только те сообщества, в которых состоит хотя бы 10 пользователей из нашего набора данных. Всего получится 16 956 пользователей и 24 493 сообщества. Представим эту информацию в виде следующей матрицы, где единица означает, что пользователь подписан на соответствующее сообщество, а ноль, что не подписан.

Так как подписок очень много, то каждому пользователи оказываются сопоставлены десятки тысяч переменных. Это не очень удобно, однако существуют методы, которые позволяют так преобразовать данные, чтобы относительное небольшое количество переменных содержало значительную часть информации из таблицы. Например, можно применить сингулярное разложение матрицы и выделить сто новых переменных — главных компонент. Подобный подход использовался Косински и коллегами в аналогичной работе по анализу интересов в Facebook.

Напомню, что для городского набора данных нам доступна только агрегированная успеваемость на уровне школ. Это вносит принципиальные ограничения на возможность предсказания, так как личная академическая успеваемость конкретной ученицы более сильной школы может быть ниже личной успеваемости другой конкретной ученицы из более слабой школы. Для простоты интерпретации результатов предсказания разделим школы на две группы: X% наиболее сильных школ и X% наиболее слабых школ. В зависимости от X точность предсказания будет меняться следующим образом.

Здесь качество предсказания измеряется с помощью площади под ROC-кривой (AUC). Интуитивно эту величину можно интерпретировать следующим образом. Пусть у нас есть одна стопка, в которой находятся профили учащихся из более сильных школ, и другая стопка, в которой находятся профили учащихся из более слабых школ. Мы случайным образом достаем по профилю из каждой стопки и показываем их нашей модели. AUC будет равно вероятности того, что модель предскажет, что успеваемость ученицы из сильной школы выше, чем ученицы из слабой школы. Разумеется, качество модели оценивается на новых для нее данных, а не на тех, на которых она обучалась.

Сказать, как связаны отдельные интересы с успеваемостью, не так просто, но мы можем взять 5 главных компонент, содержащих основную информацию о подписках на сообщества, и посмотреть на то, какие сообщества вносят наибольший вклад в эти компоненты.

Все компоненты, кроме третьей, положительно коррелируют с успеваемостью. Третья компонента с успеваемостью не коррелирует.

Литература
Поливанова К. Н., Смирнов И. Б. Что в профиле тебе моем: Данные «ВКонтакте» как инструмент изучения интересов современных подростков // Вопросы образования. 2017. № 2. С. 134–152
Kosinski, M., Stillwell, D., & Graepel, T. (2013). Private traits and attributes are predictable from digital records of human behavior. Proceedings of the National Academy of Sciences, 110(15), 5802–5805.

Культурная дифференциация в цифровом пространстве

Written by Ivan Smirnov