Новые данные и их значение для социальных наук

Ivan Smirnov
Thesis Notes
Published in
8 min readJul 9, 2017

Инструменты и измерительные приборы всегда играли важную роль в развитии науки. С изобретением телескопа перед учеными открылся огромный новый мир небесных тел. Наблюдения за движением планет легли в основу классической механики и дали начало физике как науке в современном понимании. С изобретением микроскопа перед учеными открылся огромный новый мир микроорганизмов. Это изобретение заложило основы современной биологии и медицины. Благодаря микроскопу была установлена причина инфекционных заболеваний и человечество научилось эффективно бороться с ними.

Сегодня в социальных науках происходят сопоставимые по масштабу изменения. В роли оптических приборов выступают огромные массивы данных, ставшие доступными благодаря развитию информационных технологий, а также современные методы их анализа. Вполне вероятно, что новые данные революционизируют социологию, так же как в прошлом были революционизированы другие области науки.

Увидеть невидимое
Новые данные позволяют увидеть то, что до сих пор оставалось недоступно взгляду исследователей. Социологи давно изучают социальные связи между людьми, однако единственным методом для сбора таких данных долгое время оставались опросы. Опросы позволяют построить сеть связей только для небольшой замкнутой группы людей. В результате социологи хорошо представляют как может выглядеть сеть контактов внутри одной школы, но практически ничего не знают о социальных связях учащихся между школами. Сегодня же Facebook обладает информацией о сети дружбы 2 миллиардов человек, живущих по всему миру от Найроби до Сеула. Информация о социальных связях необязательно должна быть явно указана, как в случае дружбы в социальной сети, ее можно восстанавливать и из других источников, например, по логам телефонных звонков или через географическую близость, определяемую по показаниям GPS.

Сеть дружбы на ВКонтакте студентов НИУ ВШЭ

Данные, собираемые различными устройствами, открывают перед исследователями огромный новый мир повседневной жизни людей: что они покупают, как перемещаются по городу, с кем общаются и как проводят свободное время. Непосредственный доступ к информации о поведении людей решает проблему цензурированности ответов, свойственную опросам. Эта тема подробно обсуждается в недавно вышедшей книге “Everybody lies” Стефенса-Давидовица. Он приводит такой пример. Согласно опросам доля гомосексуальных мужчин в два раза выше в демократичном штате Род-Айленд, чем в консервативном Миссисипи. Однако если вместо данных опросов или информации из профилей в социальных сетях обратиться к поисковым запросам, связанным с однополой порнографией, то окажется, что доля гомосексуальных мужчин примерно одинаковая во всех штатах США. Этот результат гораздо лучше согласуется с биологическими представлениями о гомосексуальности и, скорее всего, свидетельствует о цензурированности ответов в консервативных штатах.

Демократизация исследований
Другим преимуществом новых данных является существенное удешевление — и как следствие демократизация — исследований. Уже упоминавшееся в прошлых заметках международное исследование PISA охватывает 500 000 школьников. Его организация требует огромного количества ресурсов и координации работы команд из разных стран. На национальном уровне крупными считаются исследования с несколькими тысячами участников, многие диссертации защищаются на выборках из сотен и даже десятков респондентов. Данные из социальных сетей позволяют отдельным исследователям работать с гораздо большими выборками. Так, например, Крамер с соавторами опубликовал результаты эксперимента, проведенного в Facebook, участниками которого стали 700 000 человек, а наиболее масштабный эксперимент на платформе Facebook включал 61 000 000 человек.

Разумеется, говорить о равном доступе к информации не приходится. Напротив, наибольшие массивы данных оказываются сосредоточены в крупных частных компаниях. Нет ничего хорошего и в сосредоточении всех данных в руках академического сообщества, однако исследователи хотя бы обязаны придерживаться определенных стандартов и регулярно публикуют результаты своей работы. Когда я анализирую данные ВКонтакте, вы знаете о том, что именно я делаю, в том числе и из этих заметок. Чем занимаются такие компании как Крибрум никому не известно.

Социальные науки как наука
Предсказание всегда лежало в основе научного метода. Даже если не углубляться в философию познания, наше умение делать верные предсказания обладает понятной прагматической ценностью. Если сегодня ученые утверждают, что какие-то две вещи связаны между собой, а завтра оказалось, что это не так, то кому нужны такие исследования?

Социальные науки традиционно делают акцент на интерпретации результатов и построении различных теорий и сильно уступают естественным наукам в предсказательной силе. Есть несколько результатов, в которых мы можем быть уверены, например, в связи между социально-экономическим статусом учащихся и их образовательными достижениями. Эти результаты многократно подтверждались на разных выборках и в разных контекстах. Однако большинство публикаций — это случайно обнаруженные любопытные корреляции, которые не подтверждаются при попытке воспроизвести исследование. Дело не в том, что исследователи в социальных науках глупее, а в том, что социальные науки сложнее.

Одна из причин такой сложности — трудность в получении информации. Новые данные позволяют решить эту проблему. Например, в одном исследовании были проанализированы фотографии с Google Street Views. С помощью современных методов распознавания изображений было подсчитано, сколько автомобилей разных марок встречается на улицах 200 американских городов. Эти данные были затем использованы, чтобы обучить модель, которая позволила предсказать демографические характеристики отдельных районов города с той же точностью, что и дорогостоящая перепись населения. Демографические и экономические характеристики сегодня восстанавливаются по самым разным данным начиная от твитов и заканчивая снимками со спутников.

Другая причина слабой предсказательной силы существующих подходов заключается в том, что социальные системы и законы, которые ими управляют, очень сложны. Они принципиально не могут быть описаны простыми переменными. Между тем в социальных исследованиях до сих регулярно используются такие переменные как уровень образования матери и количество книг дома. Переменная, принимающая всего несколько дискретных значений, даже теоретически не может описать все многообразие поведения людей и их личностных характеристик. Эта проблема была сформулирована еще Фридрихом Хайеком в его нобелевской речи в 1974 году. С тех пор прошло больше 40 лет и благодаря большим данным у нас, наконец-то, появилась возможность конструировать новые переменные, обладающие гораздо большей предсказательной силой. Например, в работе Михала Косински было показано, что информация о лайках в социальной сети позволяет с высокой точностью предсказывать самые разные характеристики пользователей от сексуальной ориентации и уровня интеллекта до развода их родителей. Отдельные лайки не обладают большой предсказательной силой, однако их совокупность складывается в уникальный цифровой след, который — как было показано — позволяет многое сказать о человеке.

Большие данные открывают новые возможности по работе со сложными многомерными данными. Типичным примером таких данных является текст. Кодирование более простых переменных возможно без потери информации. Мы можем легко заменить женский пол в анкете на 1, а мужской на 2 и продолжить анализ. Это неверно для текста. Если обозначить слово кошка за 1, собака за 2, стул за 3 и так далее, то при этом пропадет огромное количество информации, например, о том, что и кошка, и собака — домашние животные и семантически гораздо ближе друг к другу, чем к стулу. До сих пор работа с текстом ограничивалась трудозатратным кодированием, в котором эксперт пытался отнести те или иные слова, предложения или абзацы к одной из нескольких категорий. Затем подсчитывалась частота употреблений отдельных слов или категорий. Такими методами сложно добиться выдающихся результатов. Сегодня ситуация поменялась. Новые методы позволяют представить слово не одним числом, а набором из сотен чисел причем так, что семантически близкие слова окажутся рядом друг с другом, а математические операции над словами будут иметь смысл, например, королеваженщина + мужчина = король.

Будущее

Не все верят, что новые данные приведут к революционным изменениям в социальных науках, потому что не видят мгновенных результатов. Здесь будет полезным снова вспомнить историю микроскопа. Левенгук впервые увидел микроорганизмы через свой микроскоп в далеком 1675 году, но окончательно признано, что именно бактерии ответственны за распространение инфекционных заболеваний, было лишь в конце 19-го века. Тот факт, что Левенгук не смог бы сказать, что именно он обнаружил и какое значение это будет иметь в будущем, не делает его открытие менее великим и революционным.

Движение в будущее требует не только новых данных и методов, но и пересмотра господствующей парадигмы в социальных науках. Господствующая практика в социальных исследованиях заключается в выяснении того, является ли некий коэффициент в идеализированной модели статистически значимым, а его знак согласующимся с теорией. Тот факт, что эта идеализированная модель очень плохо описывает реальность, а значит вычисленные коэффициенты не имеют особого смысла, просто игнорируется. Требуется уделять повышенное внимание тому, насколько хорошо предлагаемая теория предсказывает интересующие нас характеристики и процессы. Построение хороших предсказательных моделей может потребовать отказа от понятных и легко интерпретируемых переменных и результатов. Широкое сообщество исследователей пока не готово к такой смене парадигмы, но будущее, как известно, распределено неравномерно: настоящее прогрессивного меньшинства — это будущее большинства. В среде наиболее прогрессивных исследователей формируется консенсус в отношении того, как должны выглядеть социальные науки в будущем, на эту тему появляется все больше публикаций, в том числе в ведущих научных журналах таких как Science.

В России большим потенциалом как источник данных обладает ВКонтакте. Однако исследований, использующих данные из этой социальной сети, пока не так много. Вероятно, их использование затрудняется тем, что до сих пор недостаточно известно о достоверности данных ВКонтакте и возможных смещениях выборки пользователей сайта. Например, авторы проекта “Виртуальное население России” утверждают, что репрезентативность выборки ВКонтакте в принципе невозможно проверить, а также отказываются от корректировки каких-либо аномалий в своих данных. Такой подход сложно признать удовлетворительным, так что в следующей заметке речь пойдет о достоверности данных ВКонтакте.

Литература
Alexandrov, D., Karepin, V., & Musabirov, I. (2016, May). Educational migration from Russia to China: social network data. In Proceedings of the 8th ACM Conference on Web Science (pp. 309–311). ACM.
Bohannon, J. (2017). The pulse of the people. Science, 355(6324), 470–472.
Bond, R. M., Fariss, C. J., Jones, J. J., Kramer, A. D., Marlow, C., Settle, J. E., & Fowler, J. H. (2012). A 61-million-person experiment in social influence and political mobilization. Nature, 489(7415), 295–298.
Centellegher, S., De Nadai, M., Caraviello, M., Leonardi, C., Vescovi, M., Ramadian, Y., … & Lepri, B. (2016). The Mobile Territorial Lab: a multilayered and dynamic view on parents’ daily lives. EPJ Data Science, 5(1), 3.
David-Barrett, T., Kertesz, J., Rotkirch, A., Ghosh, A., Bhattacharya, K., Monsivais, D., & Kaski, K. (2016). Communication with family and friends across the life course. PloS one, 11(11), e0165687.
Gebru, T., Krause, J., Wang, Y., Chen, D., Deng, J., Aiden, E. L., & Fei-Fei, L. (2017). Using deep learning and google street view to estimate the demographic makeup of the us. arXiv preprint arXiv:1702.06683.
von Hayek, F. A. (1989). The pretence of knowledge. The American Economic Review, 79(6), 3–7.
Hofman, J. M., Sharma, A., & Watts, D. J. (2017). Prediction and explanation in social systems. Science, 355(6324), 486–488.
Kosinski, M., Stillwell, D., & Graepel, T. (2013). Private traits and attributes are predictable from digital records of human behavior. Proceedings of the National Academy of Sciences, 110(15), 5802–5805.
Kramer, A. D., Guillory, J. E., & Hancock, J. T. (2014). Experimental evidence of massive-scale emotional contagion through social networks. Proceedings of the National Academy of Sciences, 111(24), 8788–8790.
Mastrandrea, R., Fournet, J., & Barrat, A. (2015). Contact patterns in a high school: a comparison between data collected using wearable sensors, contact diaries and friendship surveys. PloS one, 10(9), e0136497.
McFarland, D. A., Lewis, K., & Goldberg, A. (2016). Sociology in the era of big data: The ascent of forensic social science. The American Sociologist, 47(1), 12–35.
Mikolov, T., Yih, W. T., & Zweig, G. (2013, June). Linguistic Regularities in Continuous Space Word Representations. In Hlt-naacl (Vol. 13, pp. 746–751).
Palchykov, V., Kaski, K., Kertész, J., Barabási, A. L., & Dunbar, R. I. (2012). Sex differences in intimate relationships. Scientific Reports, 2.
Preoţiuc-Pietro, D., Volkova, S., Lampos, V., Bachrach, Y., & Aletras, N. (2015). Studying user income through language, behaviour and affect in social media. PloS one, 10(9), e0138717.
Salganik, M. J. (2017) Bit By Bit: Social Research in the Digital Age http://www.bitbybitbook.com
Stephens-Davidowitz, S. (2017). Everybody lies: Big data, new data, and what the internet can tell us about who we really are. HarperCollins
Watts, D. J. (2007). A twenty-first century science. Nature, 445(7127), 489–489.

--

--

Ivan Smirnov
Thesis Notes

Computational social scientist. Thinking about science, education and society somewhere between the Neva and the Seine