CSS Actually

Matt Salganik говорит, что computational social science — это “все, что круто” (anything that’s cool). По более традиционному определению CSS — это применение методов компьютерных наук для ответа на вопросы социальных наук. Но это в теории. А на практике computational social science занимаются конкретные исследователи, работающие над конкретными темами. В силу междисциплинарного характера области эти исследователи работают на разных факультетах и публикуются в разных журналах, большинство из которых не посвящено computational social science. Поэтому мы подумали, что лучший способ понять, что же происходит в CSS на самом деле, — это проанализировать доклады, представленные на IC2S2 (International Conference on Computational Social Science) — главной конференции области.

IC2S2 проводится ежегодно с 2015 года. Мы взяли официальные программы мероприятия с сайтов четырех прошедших конференции и посмотрели на представленные на них доклады. Всего в нашей выборке 991 доклад и 1907 авторов. Вначале мы выделили наиболее часто встречающиеся слова в названиях тем.

Даже на такой простой картинке можно увидеть интересные вещи. Например, видно доминирование сетей, связанное с тем, что computational social science стали развивать исследователи, занимавшиеся сетевым анализом. Сети даже были вынесены в название одной из основополагающих статей области: Life in the network: the coming age of computational social science. При этом частота употребления слова “network” падает с 26% в 2015–16 годах до 18% в 2017–18 (это изменение статистически значимо) и не сопровождается аналогичным падением частоты употребления слова “social”. Это косвенное свидетельство тому, что computational social science становится более инклюзивной областью.

На этой же картинке хорошо видны основные источники данных: Twitter, Facebook и Wikipedia. Можно ожидать, что после последних скандалов, использование данных Facebook в исследованиях существенно сократится. Кстати, доминирование Twitter, вызванное доступностью данных, начинает все чаще обсуждаться сообществом как проблема, а новые источники данных, например, ВКонтакте только приветствуются. Отметим, что далеко не всегда загруженные с онлайн-платформ данные оказываются репрезентативны. Подробнее о проблемах с Twitter можно прочитать в статье Морстаттера с коллегами.

Важную роль в computational social science играют различные процессы (см. evolution, diffusion, polarization, contagion и другие). Кажется, что именно здесь заключена основная сила CSS. Традиционные опросные методы позволяют получать статичную картину реальности, но отслеживать какие-либо изменения с их помощью очень сложно. Это требует проведения дорогих лонгитюдных исследований, которые все равно обладают низкой разрешающей способностью. Данные же из социальных сетей и других цифровых источников позволяют изучать поведение человека с точностью вплоть до 1 секунды. Другой сильной стороной CSS является компьютерное моделирование, которое позволяет делать выводы о различных процессах даже не используя эмпирические данные. Можно ожидать существенного прогресса в социальных науках вместе с переходом от изучения фактов к пониманию процессов, которые к ним приводят. Разумеется, процессы обсуждались в социальных науках и до появления CSS, однако чаще всего это были умозрительные теории и отдельные, не связанные друг с другом механизмы. Большие данные и методы компьютерного моделирования могут помочь как проверить существующие теории, так и сформулировать новые.

Интересно, что традиционно важные для социальных наук темы, такие, например, как неравенство, не представлены на картинке. Это может быть связано с тем, что в настоящий момент CSS фокусируется на методах, а не на проблемах. Впрочем, чтобы делать утверждения о недопредставленности тем нужно проанализировать аналогичные названия социологических конференций или журналов, чего мы пока не сделали.

Помимо названий докладов, мы решили посмотреть на их авторов и построили сеть, в которой два исследователя связаны между собой, если у них был хотя бы один общий доклад. Всего в нашей сети 1907 авторов и 3900 связей между ними. Наибольший связный компонент включает в себя 903 исследователя (см. картинку ниже). Если бы мы учитывали публикации, не представленные на IC2S2, то его размер, вероятно, был бы больше. Таким образом, как минимум половина авторов входит в единое CSS сообщество.

С помощью инструментов автоматического определения пола по имени мы изучили гендерный состав сообщества. Женщины (красные узлы на графике) оказались недопредставленны в CSS. Их меньше четверти (23%), что гораздо ближе компьютерным наукам (15% по одной оценке), чем к социальным (больше половины социологов — женщины). Гендерный дисбаланс наблюдается и в том, какую позицию женщины занимают в сети. В среднем у них 3.7 связи, что меньше, чем 4.3 связи у мужчин. Женщины также реже оказываются последним автором (последний автор — это чаще всего лидер исследовательской группы и наиболее авторитетный из соавторов), женщины были последним автором только в 15% докладов, что значимо меньше, чем можно было ожидать, если бы порядок авторов не зависел от пола. Таким образом, computational social science во многом воспроизводят гендерное неравенство свойственное компьютерным наукам.

Так как CSS молодая и активно развивающаяся дисциплина без четких границ, то такие данные особенно интересно изучать. Они также могут помочь обнаружить дисбаланс или пробелы, на которые сообществу имеет смысл обратить внимание.