Urban SML: как посты в соцсетях помогают развивать города

Published in

AI Urbanism

4 min readApr 2, 2021

Команда Strelka AI совместно с Центром городской антропологии КБ Стрелка разработала систему Urban Social Media Listening, которая помогает городским администрациям, градостроителям и девелоперам проводить предпроектные исследования: выявлять потребности жителей и узнавать их мнение о текущих или готовящихся проектах.

Источником информации являются открытые анонимизированные тексты постов и комментариев, собранные с помощью специализированных систем мониторинга социальных медиа. Все тексты мы анализируем с помощью технологий обработки естественного языка: TextRank, Sentiment analysis, top2vec, NER, определение избытка/нехватки, анализ частотности ключевых терминов.

Настроение города

Чтобы быстро определить, о чем говорят горожане и как к этому относятся, мы пользуемся алгоритмом выделения ключевых словосочетаний TextRank. Эта технология — адаптация PageRank, созданной основателями Google в 1995 г. для ранжирования веб-страниц в поисковой выдаче. TextRank работает следующим образом: для начала мы определяем, какие слова можно считать ключевыми в определенном тексте (сообщении). Для этого мы применяем метод скользящего окна, то есть проходим по тексту условной рамкой, чтобы найти наиболее часто встречающиеся слова и понять, с какими словами они употребляются вместе; при этом исключаются все служебные слова, которые не несут смысловой нагрузки. Затем строится модель на графах: вершины графов — это слова, а ребра — их связи — так мы понимаем, как все слова в текстовом корпусе связаны друг с другом. Путем нескольких случайных проходов по графу мы определяем, какие сочетания слов наиболее «популярны» в тексте — эти сочетания и есть те проблемы, которые обсуждаются в городе.

Затем с помощью анализа тональности мы определяем отношение горожан к теме. Все сообщения, содержащие рассматриваемое слово или словосочетание, разбиваются на три категории: позитивные, нейтральные и негативные — из их процентного соотношения можно определить тональность контекста.

С помощью этих технологий, в частности, был составлен индекс туристической привлекательности 82 регионов России. Чтобы исследовать их образ глазами туристов, мы проанализировали 6 300 000 пользовательских текстов из социальных сетей, блогов, форумов и агрегаторов отзывов. В текстах выявили 6 составляющих туристического продукта: материальное (здания, картины, скульптуры, памятники) и нематериальное (музыка, кулинария, язык, традиции, литература) наследие, природа, событийная программа, технологии и производство, инфраструктура.

Что волнует горожан

Мы пользуемся алгоритмом top2vec, чтобы обрабатывать огромные текстовые массивы и выделять основные темы, которые в них поднимаются. Тематическое моделирование в top2vec осуществляется с помощью проекции всех слов и текстов из массива в единое семантическое пространство. Затем его размерность понижается, а тексты кластеризуются в группы. При этом слова, оказавшиеся ближе всех к центроиду каждого кластера, описывают каждую тему-кластер. С помощью этой технологии, например, можно за пару дней проанализировать все новости города за несколько лет — количество рассматриваемых текстов может доходить до сотен тысяч.

Также мы пользуемся словарями ключевых терминов, которые составляются отдельно для каждого проекта. Например, для исследований в Калмыкии это могут быть национальные блюда, буддийские культовые сооружения, особенности местного ландшафта и т.д. Такая элементарная аналитика полезна на этапе предпроектного исследования: она позволяет в текстовом массиве ранжировать интересующие объекты по упоминаемости.

Книга жалоб и предложений

Сообщения горожан о среде, в которой они живут, часто обретают форму жалоб. Они рассказывают, чего в городе не хватает (например, кинотеатра или книжной лавки) или чего слишком много (например, бесполезных заборов и мусора). Мы научились выделять такие объекты в сообщениях жителей при помощи модели, основанной на лингвистических правилах. В будущем мы планируем уйти от rule-based методов и научить нейросетевую модель выделять в текстах информацию о недостатках городского пространства.

Местные знаменитости

С помощью технологии Named Entity Recognition можно понять, какие люди, организации и прочие типовые сущности привлекают наибольшее внимание и чаще всего упоминаются в данном текстовом массиве, городе, или в связи с той или иной темой. Модель NER также позволяет определить географическую привязку сообщения, даже если горожанин по какой-то причине не поставил геотег. Это возможно, если в тексте есть упоминание улицы, района, населенного пункта или ближайшего кафе. Мы используем стороннюю бибиотеку SpaCy с открытым исходным кодом, которая показывает один из лучших результатов по русскому языку на сегодняшний день.

Как это помогает городам

Как видно из примеров, Urban Social Media Listening — это технология, которая позволяет решить одновременно несколько задач градостроителей.

Получить искреннее мнение
Во время опросов, интервью и других традиционных методов получения обратной связи от горожан респонденты находятся в подготовленной среде: они обдумывают заранее поставленный вопрос и стараются дать максимально емкий ответ. Анализ открытых текстов из социальных сетей помогает этого избежать: мы как бы наблюдаем за развитием диалога в его естественном виде.
Учесть интересы разных групп населения
В отличие от все тех же традиционных методов, анализ соцсетей позволяет охватить большую и разнообразную аудиторию. Особенно ценно мнение молодых людей, которые редко готовы тратить время на прохождение опроса или участие в фокус-группе.
Сэкономить время
Анализ текстов при помощи технологий обработки естественного языка позволяет существенно сократить время и затраты на предпроектное исследование и быстрее принимать решения. С момента получения данных до их финальной обработки теперь проходят не месяцы, а считанные дни.