В поисках утраченных профилей

Ivan Smirnov
Thesis Notes
Published in
4 min readSep 4, 2017

Основным источником данных для моего исследования будет социальная сеть ВКонтакте. Однако перед тем как использовать ВКонтакте для исследований необходимо убедиться в том, что из социальной сети можно извлекать достоверные данные. Попробуем, например, посмотреть, что ВКонтакте может сказать об учащихся первой английской школы Санкт-Петербурга.

Если верить ВКонтакте, в этой школе учится более трех тысяч девятиклассников. Это, разумеется, не может быть правдой. Невооруженным взглядом видно, что вопреки правилам ВКонтакте далеко не все пользователи используют настоящие имя и фамилию, а на первом месте в списке вообще находится рекламный профиль “Аватария Мир-Мечты”. Это значит, что бездумно скачивать данные и пытаться их интерпретировать не имеет смысла. Попробуем разобраться с тем, что происходит.

Проще всего начать с того, в чем сам хорошо разбираешься. Поэтому я скачал пользователей моего выпуска (ФМЛ №366, 2002 год), отметил тех, кого знаю, и построил сеть их дружбы.

Когда мы оканчивали школу 15 лет назад, никакого ВКонтакте не существовало, однако значительная часть моих одноклассников зарегистрировалась в социальной сети, указала свой выпуск и до сих пор поддерживает общение друг с другом. Полученная картинка — отличная новость, она дает основания считать, что из ВКонтакте действительно можно извлекать осмысленные данные и использовать их в исследованиях образования.

Даже большое количество аккаунтов с ложной информацией уже не выглядит таким пугающим. За небольшим исключением эти пользователи не связаны с настоящими выпускниками, а значит у нас есть эффективный способ их идентификации. Достаточно отбросить тех, у кого нет друзей из той же самой школы. Если же мы оставим только тех, у кого два и больше друга из школы, то вообще ни одного лишнего пользователя не попадет в выборку. Правда, при этом мы потеряем и нескольких настоящих выпускников.

Теперь попробуем систематически повторить ту же процедуру на примере целой школы. Возьмем данные об учащихся одной московской школы и сопоставим им профили на ВКонтакте. Будем искать учащихся не только среди тех, кто указал эту школу в профиле, но и среди их друзей (мы уже видели, что дружба на ВКонтакте обладает хорошей предсказательной силой). Также учтем, что многие школьники используют уменьшительные формы имени (например, Машенька вместо Мария) или записывают свои имена латиницей.

Сопоставление учащихся и их профилей вручную потребовало бы доступа к персональным данным. Вместо этого, напишем программное обеспечение, которое будет получать на вход список учащихся от представителя образовательной организации, автоматически находить профили на ВКонтакте, осуществлять процедуру сопоставления, затем удалять имена, фамилии и идентификаторы ВКонтакте и сохранять только обезличенную информацию. Такая процедура получения данных для исследования была одобрена этической комиссией НИУ ВШЭ.

С помощью прямого сопоставления по имени и фамилии можно обнаружить только 18% из 766 учащихся, однако поиск по друзьям и учет альтернативных форм имени позволяет увеличить это значение до 88%.

При этом не наблюдается каких-либо значимых различий между различными группами пользователей по полу, возрасту и успеваемости.

Аналогичные результаты были получены и для выборки студентов НИУ ВШЭ. Из 15 757 студентов, информация об успеваемости которых выложена на сайте университета, на ВКонтакте удается обнаружить 93%. В зависимости от образовательной программы этот показатель варьируется от 75% до 100%.

Наконец, было проведено исследование на репрезентативной по России выборке молодых людей 1995–1997 годов рождения. Из 4 879 человек на ВКонтакте было найдено 82%. Эта величина не сильно зависит от типа населенного пункта. Единственным исключением является заметно меньшее количество девушек в селах. Девушек существенно меньше и в некоторых регионах, например, в Башкортостане было обнаружено только 69% девушек при 91% юношей. В Северной Осетии на ВКонтакте нашлось 48% девушек, а в Дагестане 32%. Количество юношей в этих регионах 71% и 67%, соответственно.

Стоит отметить, что используемый нами метод не исключает ложноположительных результатов, то есть попадания в выборку профилей, которые на самом деле не принадлежат учащимся. Это возможно в том случае, если имена друзей школьников полностью совпадают с именами их одноклассников, не зарегистрировавшихся на ВКонтакте. Однако с учетом того, что определенная доля пользователей использует ненастоящие имена или имена не попавшие в наш словарь, полученные оценки доли пользователей почти наверняка занижены.

Наши результаты подтверждают, что выборка ВКонтакте обладает практически универсальным охватом среди молодых людей. При этом с помощью небольших технических ухищрений можно идентифицировать значительную часть пользователей. Мы также обнаружили, что информация о друзьях пользователей позволяет эффективно отсеивать поддельные аккаунты. Несмотря на то что по номеру школы можно найти не всех учащихся, нет оснований считать, что эта группа пользователей существенно отличается от остальных.

Опираясь на эти результаты, был собран еще один набор данных, включающий всех пользователей ВКонтакте, указавших, что они учатся или учились в одной из школ Санкт-Петербурга. Из этого набора были исключены пользователи, у которых не было хотя бы одного друга из той же школы.

В следующей части мы изучим структуру социальных связей на этих наборах данных и получим дополнительное подтверждение их достоверности.

Литература
Смирнов И. Б., Сивак Е. В., Козьмина Я. Я. В поисках утраченных профилей: достоверность данных ВКонтакте и их значение для исследований образования // Вопросы образования. 2016. № 4. С. 106–122.

--

--

Ivan Smirnov
Thesis Notes

Computational social scientist. Thinking about science, education and society somewhere between the Neva and the Seine