Как цифровые инструменты анализа текстов помогают лучше понять город

Arseniy Plyusnin
AI Urbanism

--

В лаборатории «Искусственный интеллект для городов» КБ Стрелка мы придерживаемся концепции City as a Service (CaaS), в рамках которой город рассматривается как постоянный процесс потребления и производства услуг горожанами и для горожан. Именно благодаря людям города становятся успешными, именно повседневная активность горожан делает их сложными и непредсказуемыми. Горожане постоянно пользуются общественным транспортом, системами связи, публичными пространствами, а потому лучше всех знают, какие проблемы среды требуют решения в первую очередь. Мы видим в «мудрости толпы» огромный потенциал, а в выстроенной обратной связи — инструмент для повышения жизнеспособности и адаптивности городов.

Приложения как источник данных

Современных исследователей-урбанистов интересует, что люди думают о местах, в которых живут, и как их отношения с городской средой меняются во времени? С какими сложностями они сталкиваются ежедневно, и с чем связаны эти сложности? Какие объекты городской среды наиболее часто упоминаются в связи с той или иной проблемой, и где они расположены?

Чтобы дать ответ на эти вопросы в масштабах города, необходимо обработать массив текстовой информации с помощью специального программного обеспечения. Сложность этой работы заключается в природе созданных человеком языков. Когда мы общаемся, мы вкладываем в нашу речь значительный объем смыслов и нюансов, опыта и контекста. И в то же время язык — это крайне ограниченный по своей природе носитель. Поэтому язык многозначен, емок и изменчив, но для человека, как правило, не составляет труда его декодировать, в то время как компьютеры умеют работать лишь с числами, хотя и очень быстро.

Первые шаги

Наша первостепенная задача заключается в том, чтобы представить тексты о городе в численном виде — таким образом, чтобы потери информации были минимальны, а математические свойства создаваемых объектов отражали семантические особенности текстов-прообразов. Существует ряд способов осуществить такой перевод. В частности, для этого используются нейросетевые модели, которые обучаются на коллокациях слов — их совместном употреблении в больших корпусах новостей, записей в блогах, художественной литературе. Этот подход основан на дистрибутивной гипотезе в лингвистике, суть которой еще в 1957 г. изложил англичанин Джон Руперт Фёрс: «Слово узнаешь по его окружению».

После векторизации текстов мы можем пользоваться целым набором инструментов — например, создать модель для автоматической классификации текстов, в частности, определения их эмоциональной окраски. Такой анализ интересно наблюдать в привязке к пространству, чтобы увидеть, какие места в городе вызывают наибольшее недовольство жителей и требуют особого внимания. Существуют и другие применения такого подхода к анализу текстов — например, исследователи из Future Cities Lab в Сингапуре ищут по всему городу локации, где люди чаще всего обсуждают искусство, и получают неожиданные инсайты.

Городские инсайты

Чтобы наиболее эффективно использовать информацию о пространственном распределении сообщений, нужно определить их географическую привязку, даже если горожанин по какой-то причине не поставил геотег. Это возможно, если человек упоминает в тексте улицу, район, населенный пункт или ближайшее кафе. Выделить такое упоминание помогают статистические модели, обученные решать задачу распознавания именованных сущностей (Named Entity Recognition). Здесь мы пользуемся сторонними разработками с открытым исходным кодом, которые показывают одни из лучших результатов по русскому языку на сегодняшний день.

Результаты работы алгоритма NER

В работе над Civic Tech продуктами мы задействуем и более традиционные методы компьютерной лингвистики. Нам хочется посмотреть на физическое состояние районов и улиц глазами тех, кто ходит по ним каждый день. Когда жителей что-то не устраивает, их недовольство часто обретает две формы: либо им кажется, что в городе чего-то не хватает (кинотеатра, детских садов, красивого сквера, стрит-ритейла), либо, наоборот, что-то находится в избытке (глухие заборы, мусор, кричащая реклама). Используя знания о синтаксической структуре текстов и экспертизу КБ Стрелка в проведении краудсорсинговых компаний, мы научились выделять такие объекты в идеях и отзывах горожан. Эта внутренняя разработка заточена под городскую специфику и очень удобна при ранжировании запросов по популярности и анализе пространства на предмет нехватки или избытка тех или иных объектов.

Результаты работы внутреннего инструмента для поиска проблем в городе

Иногда при работе с данными соцсетей мы хотим быстро увидеть, какие процессы, люди, места являются наиболее важными в выгрузке за определенный период, и оценить, в каком контексте они упоминаются. Это осуществляется в три этапа: сначала мы проходим по массиву текстов с помощью графового алгоритма TextRank и выделяем ключевые слова и словосочетания, затем смотрим на тексты, в которых они встретились, и оцениваем эмоции в этих текстах. После этого удаляем смысловые дубликаты, определяя синонимию с помощью дистрибутивно-семантических моделей. Это позволяет автоматизировать значительный объем ручной работы в ходе качественных исследований в рамках проектов КБ Стрелка.

Потенциал

Эти и другие инструменты анализа — например, автоматическое реферирование для получения информационной выжимки или фильтрация «мусорных» сообщений и рекламы — сегодня дают возможность жителям быть услышанными и участвовать в развитии города. С их помощью мы можем на стадии предпроектного исследования определить ключевые запросы жителей района, посетителей парка или набережной, понять, какие ключевые темы обсуждают жители в связи с развитием городской среды. Также мы можем оценить эффект от уже осуществленных изменений на основе данных из соцсетей и анализа тональности. Это огромный шаг вперед по сравнению с точечными опросами общественного мнения и редкими встречами с группами наиболее активных граждан.

Визуализация ключевых словосочетаний. Размер круга указывает на частоту упоминания слова. Красный цвет — на употребление в более негативном контексте. Попарные расстояния между кругами отражают семантическую близость словосочетаний.

Мы возлагаем большие надежды на обратную связь от горожан, потому что они, ежедневно взаимодействуя с городскими системами и подсистемами, первыми замечают сигналы, свидетельствующие о потребности в качественных изменениях. Чтобы в полной мере использовать потенциал существующих технологий, предстоит решить еще много задач: научиться собирать информацию в реальном времени и хранить ее, чтобы впоследствии извлекать временные инсайты, автоматизировать коммуникацию с жителями с помощью диалоговых инструментов, настроить как можно более точные алгоритмы, создать регулятивные рамки и наладить межорганизационное взаимодействие, вести борьбу за открытые данные. Мы надеемся, что существующий потенциал больших данных вскоре будет реализован и поставлен на службу горожанам по всему миру.

Суммаризация

Чтобы продемонстрировать работу инструментов обработки естественных языков, мы подготовили реферат этой статьи с помощью нескольких алгоритмов.

1. Алгоритм KL-Sum добавляет к выжимке предложения, максимально сокращающие расстояние Кульбака-Лейблера между изначальным текстом и рефератом. На наш взгляд, в данном случае он дает наиболее точные результаты:

«Горожане постоянно пользуются общественным транспортом, системами связи, публичными пространствами, а потому лучше всего знают, какие проблемы среды требуют решения в первую очередь. Наша первостепенная задача как разработчиков заключается в том, чтобы представить тексты о городе в численном виде — таким образом, чтобы потери информации были минимальны, а математические свойства создаваемых объектов отражали семантические особенности текстов-прообразов. Когда жителей что-то не устраивает, их недовольство часто обретает две формы: либо им кажется, что в городе чего-то не хватает (кинотеатра, детских садов, красивого сквера, стрит-ритейла), либо, наоборот, что-то находится в избытке (глухие заборы, мусор, кричащая реклама). С помощью таких инструментов анализа у нас есть возможность на стадии предпроектного исследования определить ключевые запросы жителей района, посетителей парка или набережной, понять, какие ключевые темы обсуждают жители в связи с развитием городской среды. Чтобы в полной мере использовать потенциал существующих технологий, предстоит решить еще много задач: научиться собирать информацию в реальном времени и хранить ее, чтобы впоследствии извлекать временные инсайты, автоматизировать коммуникацию с жителями с помощью диалоговых инструментов, настроить как можно более точные алгоритмы, создать регулятивные рамки и наладить межорганизационное взаимодействие, вести борьбу за открытые данные».

2. Latent Semantic Analysis — этот алгоритм способен определять синонимы и выявлять алгебраическим методом скрытые темы, которые присутствуют в документе в неявном виде:

«Наша первостепенная задача как разработчиков заключается в том, чтобы представить тексты о городе в численном виде — таким образом, чтобы потери информации были минимальны, а математические свойства создаваемых объектов отражали семантические особенности текстов-прообразов. Существует ряд способов осуществить такой перевод — в частности, для этого используются нейросетевые модели, которые обучаются на коллокациях слов — их совместном употреблении в больших корпусах новостей, записей в блогах, художественной литературе. Существуют и другие применения такого подхода к анализу текстов — например, исследователи из Future Cities Lab в Сингапуре ищут по всему городу локации, где люди чаще всего обсуждают искусство, и получают неожиданные инсайты.Эти и другие инструменты анализа, как, например, автоматическое реферирование для получения информационной выжимки, фильтрация «мусорных» сообщений и рекламы сегодня дают возможность жителям быть услышанными и участвовать в развитии города.Мы возлагаем большие надежды на обратную связь от горожан, потому что они, ежедневно взаимодействуя с городскими системами и подсистемами, первыми замечают сигналы, свидетельствующие о потребности в качественных изменениях».

3. Метод TextRank был разработан под влиянием алгоритма PageRank, использовавшегося создателями поисковой системы Google для ранжирования выдачи страниц по поисковому запросу. Он строит связи между предложениями и выявляет, какие из них связаны с наиболее важными словами или темами:

«Какие объекты городской среды наиболее часто упоминаются в связи с той или иной проблемой и в каком регионе? Иногда при работе с данными соцсетей мы хотим быстро увидеть, какие процессы, люди, места являются наиболее важными в выгрузке за определенный период, и оценить, в каком контексте они упоминаются. Это осуществляется в три этапа: сначала мы проходим по массиву текстов с помощью графового алгоритма TextRank и выделяем ключевые слова и словосочетания, затем смотрим на тексты, в которых они встретились, и оцениваем эмоции в этих текстах. С помощью таких инструментов анализа у нас есть возможность на стадии предпроектного исследования определить ключевые запросы жителей района, посетителей парка или набережной, понять, какие ключевые темы обсуждают жители в связи с развитием городской среды. Чтобы в полной мере использовать потенциал существующих технологий, предстоит решить еще много задач: научиться собирать информацию в реальном времени и хранить ее, чтобы впоследствии извлекать временные инсайты, автоматизировать коммуникацию с жителями с помощью диалоговых инструментов, настроить как можно более точные алгоритмы, создать регулятивные рамки и наладить межорганизационное взаимодействие, вести борьбу за открытые данные».

4. Алгоритм Reduction осуществляет графовую суммаризацию, где важность предложения определяется суммой весов ребер, связывающих его с другими предложениями. Вес ребра вычисляется так же, как в алгоритме TextRank:

«Какие объекты городской среды наиболее часто упоминаются в связи с той или иной проблемой и в каком регионе? Такой анализ интересно наблюдать в привязке к пространству, чтобы увидеть, какие места в городе вызывают наибольшее недовольство жителей и требуют особого внимания. Эти и другие инструменты анализа, как, например, автоматическое реферирование для получения информационной выжимки, фильтрация «мусорных» сообщений и рекламы сегодня дают возможность жителям быть услышанными и участвовать в развитии города. С помощью таких инструментов анализа у нас есть возможность на стадии предпроектного исследования определить ключевые запросы жителей района, посетителей парка или набережной, понять, какие ключевые темы обсуждают жители в связи с развитием городской среды. Чтобы в полной мере использовать потенциал существующих технологий, предстоит решить еще много задач: научиться собирать информацию в реальном времени и хранить ее, чтобы впоследствии извлекать временные инсайты, автоматизировать коммуникацию с жителями с помощью диалоговых инструментов, настроить как можно более точные алгоритмы, создать регулятивные рамки и наладить межорганизационное взаимодействие, вести борьбу за открытые данные».

5. Luhn является наиболее простым алгоритмом. Он наиболее широко известен и основан на предположении, что наиболее важные предложения — те, которые содержат наиболее важные слова. Важные слова — те, которые чаще встречаются в тексте, но при этом не входят в список стоп-слов (слова вроде «ты», «я», «он», «но» и так далее):

«Сложность этой работы заключается в природе созданных человеком языков. После векторизации текстов мы можем пользоваться целым набором инструментов — например, создать модель для автоматической классификации текстов, в частности, определения их эмоциональной окраски. Такой анализ интересно наблюдать в привязке к пространству, чтобы увидеть, какие места в городе вызывают наибольшее недовольство жителей и требуют особого внимания. Это позволяет автоматизировать значительный объем ручной работы в ходе качественных исследований в рамках проектов КБ Стрелка. С помощью таких инструментов анализа у нас есть возможность на стадии предпроектного исследования определить ключевые запросы жителей района, посетителей парка или набережной, понять, какие ключевые темы обсуждают жители в связи с развитием городской среды».

--

--