Социальная дифференциация в цифровом пространстве II

Ivan Smirnov
Thesis Notes
Published in
4 min readSep 26, 2017

В предыдущей части мы выяснили, что внутри одной школы вероятность дружбы между учащимися выше, если они похожи по своей академической успеваемости. Теперь посмотрим, верно ли то же самое для дружбы между школами. В одной из прошлых заметок мы уже строили сеть дружбы для школ Санкт-Петербурга.

Для каждой школы известен средний балл ЕГЭ ее выпускников за несколько лет, такая информация доступна, например, на сайте Школы Санкт-Петербурга. Эти данные позволяют нам перенести анализ с уровня отдельных учащихся на уровень школ. Успеваемостью школы будем называть средний балл ЕГЭ ее выпускников, а друзьями или соседями в цифровом пространстве будем считать те школы, учащиеся которых дружат между собой на ВКонтакте. Как и в случае со школьниками и студентами, мы можем попробовать посмотреть на корреляцию между успеваемостью школы и успеваемостью ее цифровых соседей. Ситуация, однако, осложняется тем, что вероятность дружбы между школами сильно связана с их местоположением.

Чтобы учесть этот факт, будем смотреть не только на связь успеваемости школы с успеваемостью ее цифровых соседей, но и на связь с успеваемостью географических соседей. Географическими соседями будем считать двадцать ближайших школ и для сопоставимости результатов выберем такое же количество ближайших школ в цифровом пространстве (здесь мы считаем, что чем больше друзей между школами, тем ближе они в цифровом пространстве). В данном случае число двадцать выбрано произвольно, однако наш анализ показывает, что полученные результаты остаются верны при любом разумном выборе этого числа.

Как видно на графике, успеваемость школы коррелирует с успеваемостью ее цифровых соседей, несмотря на то, что ничего похожего не наблюдается для географических соседей.

Теперь более строго покажем, что наблюдаемая нами дифференциация школ в цифровом пространстве не связана с географическим расположением школ. Для этого построим случайную сеть связей между школами так, чтобы вероятность связи зависела от расстояния между школами так же, как и в наблюдаемой сети. Это можно сделать, например, используя распределение, изображенное на одном из предыдущих графиков. Посчитаем для случайной сети корреляцию между успеваемостью школы и успеваемостью всех ее цифровых соседей. Повторим процедуру сто тысяч раз. Среднее значение корреляции для таких рандомизированных сетей будет 0.0005, а стандартное отклонение 0.05. Ни в одном из ста тысяч случаев значение корреляции не будет близко к наблюдаемому, а значит наш результат статистически значим: p < 10¯⁵.

Значимость цифрового пространства
В некоторых странах, например в США, успеваемость школы тесно связана с районом, в котором она находится. В бедных районах находятся слабые школы, а в богатых — сильные. Это не типично для Петербурга, в котором хорошие школы можно найти в любых частях города. Физическое пространство в этом случае играет не такую большую роль, как цифровое.

Тепловая карта, построенная на основе стоимости квартир с сайта ЦИАН (слева), и построенная на основе среднего балла ЕГЭ выпускников школы (справа).

Проиллюстрируем значимость цифрового пространства еще одним примером. В сетевом анализе существуют разные способы определения важности или центральности узла сети. Самый простой из них заключается в подсчете количества связей у узла. Чем их больше — тем узел важнее или тем более центральную позицию он занимает. Другая часто используемая величина называется eigenvector-центральностью. В этом случае подсчитывается не просто количество связей, а их взвешенная сумма. Вес связи с неким узлом пропорционален центральности этого узла.

Посмотрим на то, как eigenvector-центральность связана с успеваемостью школы.

Eigenvector-центральность объясняет 30% вариации в успеваемости школ. Эта величина сопоставима с тем, какой процент вариации в баллах ЕГЭ школы объясняет социально-экономический статус ее учащихся (34–41%). Отметим, что если в начале заметки мы смотрели на балл ЕГЭ соседней школы, то здесь мы не используем вообще никакой информации об успеваемости. Центральность определяется лишь структурой сети. И эта величина оказывается обладающей такой же предсказательной силой, как важные социально-экономические характеристики школы.

До сих пор речь шла о социальных связях учащихся. Однако как я отмечал в теоретическом введении, помимо социального капитала значимую роль в воспроизводстве неравенства играет и культурный капитал. Об этом речь пойдет в следующей части.

Литература
Smirnov, I. (2017). School segregation in the digital space (in preparation)
Ястребов Г. А., Бессуднов А. Р., Пинская М. А., Косарецкий С. Г. Проблема контекстуализации образовательных результатов: школы, социальный состав учащихся и уровень депривации территорий // Вопросы образования. 2013. № 4. С. 188–246.

--

--

Ivan Smirnov
Thesis Notes

Computational social scientist. Thinking about science, education and society somewhere between the Neva and the Seine