ИГРА В СЛОВА

Maya Stravinskaya
JSKT data group
Published in
9 min readSep 5, 2016

Лингвистические визуализации — это космос!

Это работа Stefanie Posavec. Единственная визуализация, которую я решила повесить у себя дома.

Это одна из самых красивых структур, которые я когда либо видела — разобранная на молекулы первая часть романа Керуака “В дороге”. Черточки — это слова, маленькие пучки — предложения, соцветия — параграфы. Это структура литературного произведения, из которой вы можете увидеть, каким темам в какой главе отдается больше места (цвет), где самое длинное предложение или где повествование становится ритмичнее, предложения короче, а стиль более рубленым. Словом, это карта романа (чуть подробнее об этой работе можно прочитать здесь, еще там есть рассказ о проекте визуального приложения Стефани для Стивена Фрая look look look).

Literary Organism/2006/Stefanie Posavec

Из-за художетсвенности кажется, что это, скорее, концептуальный арт-проект, а не исследование, к тому же это не результат машинной обработки, а ручной труд. Но в этой визуализации есть смысл, есть та смена оптики, которая позволяет говорить, что здесь текст это именно данные, визуализация которых даёт нам новую информацию.

Зачем анализировать и визуализировать текст?

Когда можно прочесть. Особенно художественный.

Текст это не только сообщение, это еще и данные.

И как мне кажется, дело не в том, что есть методы исследования больших данных и почему бы не применить их заодно и к тексту. А в том, что текстов стало в разы больше, а значит, почему бы не посмотреть на них иначе? Как говорят евангелисты больших данных, это раньше изучение массивов информации вело к упрощению и поиску среднего. Сейчас — напротив, рассматривая сверху, мы видим прицельнее и четче, не упуская из виду особенностей.

Я не могу согласиться с людьми, которые говорят, что не понимают этих картинок, зачем это все, и крутят в руках айфон, мол, вот это вещь, все понятно. Хочется возразить: “Понятно? Да вы даже не представляете, как сделано это устройство!” Чтобы мы смогли воспользоваться такой простой и удобной штукой, все системы были развиты и доведены до такой сложности, что никто из любителей простоты и ясности даже не понимает, как этот самый аппарат работает. Сложные структуры и новые типы визуализации появляются, потому что мозг наш стал сложнее. И потому я за ясность, но не опрощение.

Для того чтобы подступиться к тексту как к набору данных возникло целое направление в филологической науке, которое получило название digital humanities (цифровые гуманитарные науки). Вот здесь, например, филолог Борис Орехов об этом рассказывает подробнее. А я обещаю об этом поговорить подробно с Анастасией Бонч-Осмоловской, одним из лучших специалистов по digital humanities в России, которая к тому же возглавляет магистратуру по компьютерной лингвистике в Вышке.

Частота

После подсчета количества слов и предложений в тексте, чобы вы сделали? А лингвисты подсчитали частотность словоупотребления. Оказалось, что читать частотный словарь — это настоящее удовольствие. Там все такое большое, важное, монументальное. И глаголы куда лучше вот этих вот всплывающих в памяти: и обидеть, и терпеть, и зависеть, и вертеть.

О. Н. Ляшевская, С. А. Шаров, Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.

Ведь на самом деле это один из самых простых и самых красноречивых показателей — сколько раз вы возвращаетесь к тому или иному слову.

Но даже если убрать все это юнгианство, все равно выходит, что частотность словоупотребления, это то, что мы каждый день анализируем, выделяем и используем. Прописываем в метаданные страницы, когда делаем сайт; подбираем слова, когда формулируем поисковый запрос; подбираем понятные слова, когда объясняем что-то иностранцу; когда пытаемся обойти спам-фильтр, когда стараемся говорить без штампов. Словом, у нас на частотность — чутье. Которое будет с годами совершенствоваться.

И вот тут медиа страшно тормозят! Непростительно, я считаю.

Вот, например, самое простое облако.

Это анализ Послания к федеральному… лень писать целиком, это, короче, Крымская речь Путина.

Вы же хорошо понимаете о чем это?

Здесь размер слова зависит от частотности его употребления. Самые частые слова, как вы можете видеть такие: ЧТО ЭТО МЫ.

К сожалению, этот анализ не помогает понять, о чем эта речь. Но бывают тексты, для быстрого понимания сути которых этот метод бывает очень полезен.

К чему я собственно: к такой демонстрации частотности вы уже привыкли, знаете как ее считывать. То есть это давно привычная форма, для которой уже даже существует масса автоматических визуализатров.

Например: 1. Wordle 2. WordItOut (картинка выше сделана с его помощью) 2. Tagul дает возможность строить фигурные облака тэгов. Я попробовала сделать с его помощью портрет Пушкина из пары строф ЕО, ну и ничего так получилось, кстати.

Конечно, сейчас этими автоматическими конструкторами не пользуется только самый ленивый маркетолог, но еще пару лет назад ими не гнушались и приличные сми.

Слева одна немецкая видео-инфографика, справа — скриншот публикации HuffingtonPost 2011 года

Алгоритм в этих автоматизированных штуках так себе, так что уж слишком полагаться на него в смысле анализа не стоит, особенно, относительно русскоязычных текстов. Сами видите, что “Крым”, “Крыма” и “в Крыму” он не опознает как одно и отделяет их друг от друга.

Но нам важно, что уже в этом формате встречаются визуализация и математические методы исследования текста.

Идем дальше. А что если исследовать не один текст, а несколько? Например, несколько работ по одной тематике?

Вот одна из первых работ, которую мы сделали в Студии инфографики РИА Новости, посвященная анализу нескольких текстов. Мой коллега, аналитик Kats Philipp, с которым мы долгое время работали вместе почти над всеми проектами (эй, лучший в мире аналитик, привет!), собрал все своды законов, которые могли бы быть сопоставлены с Конституцией. Это была пробная работа, которая, однако, позволила нам, к примеру, выяснить, что та Конституция, по которой мы живем, единственная, которая содержит слово Любовь. Что не может не радовать. Тут еще важны, очевидно, зеленые столбцы про слово “гражданин”, которые бы неплохо было объяснить. Но тогда времени на поиск эксперта у нас не хватило, нужно было публиковать, схему рисовали к праздничку. Потом было много работ, про анализ текстов соц.сетей в реальном времени, про твиттер и поздравления. Я постепенно про эти проекты тоже расскажу.

Есть еще отличный интерактивный проект анализа Библии и Корана. Посмотрите его, с ним легко понять принцип.

Или вот, например, очень люблю проект журнала Esquire “Вогнать в краску”. На сайте они его поломали (айайай!), при наведении на пиксель выводилась цитата с упоминанием цвета. Но у меня есть скриншоты. Только посмотрите на “Тихий Дон”, он же закономерно краснеет к концу. А золотая Библия! Это такая простая и такая красивая идея!

Культуромика

Следующий шаг. Что если изучать словоупотребление не в одном тексте, не в нескольких типологически схожих, а во всех текстах за определенный период?

Ок, все взять невозможно, но, скажем, почему бы не взять срез? Как это делают корпусные лингвисты, выявляя изменения в языке.

Действительно, почему бы не. В 2010 году в журнале Science была опубликована статья о новом научном методе Культуромика, который позволяет на основе анализа массива текстов находить подтверждения социальным и историческим явлениям. Находить подтверждения, если они известны, и выявлять их, если они не были замечены.

Подробнее о корпусах текстов можно прочитать здесь, но если коротко, то это массив размеченных xml, в котором равновесно представлены разные жанры, от эпистолярного до публицистического, за определённый период времени. Анализ словоупотребления здесь можно сравнить с анализом крови. Замерил показатель “котики” и сразу ясно, что с организмом.

Давайте нормальный пример. Ищем в русскоязычном корпусе слово “баба” и получаем всплеск на графике в конце пятидесятых годов. Объяснений может быть множество, но если вы лингвист и филолог, то вы понимаете, что это из-за появления “деревенской прозы” в литературе того времени.

И вот тут NB. Зачем? Мы ведь и так знаем, что деревенская проза появилась. Да, но представьте, что нам важно подтвердить расхожее мнение “уликами”. Сейчас, когда историю трактуют кому как вздумается, очень важно получать такие свидетельства. Вы знаете, например, что происходит с графиком по запросу в русскоязычных текстах “блокада Ленинграда”? О, это удивительный график, я вам потом его покажу в посте про Культуромику. Там видна непроработанная травма, яма, падение и дно.

Но вернемся. На основе этого метода мы вместе с Анастасией Бонч-Осмоловской и построили работу над проектом “Слова о России”, который сделали совместно с Вышкой для научного фестиваля Политехнического музея. Это был экспозиционный проект, поэтому в сети его нет, у меня остались базы и картинки.

В “Словах о России” мы исследовали гендерную тему (употребление слов баба, женщина, девушка, девочка и парень, юноша, мужчина, мужик), пытались выяснить, какие проблемы есть у России (дураки и дороги ли? кстати, нет), хотели найти самое счастливое десятилетие двадцатого века. И все это визуализировали.

На этой фотографии я комментирую слайд, где собрано облако эпитетов для словосочетаний типа “10-е”, “20-е”… “90-е”. Здесь отражено то, какими в текстах остались десятилетия XX века. Конечно, обычно, это ретроспективная оценка. То есть девяностые таки “лихие”, потому что их так называли годы спустя, а вот единственные счастливые годы — это 50-е!

Кстати, Ася написала научную работу на основе этого исследования, вот здесь она лежит.

Культуромика хороша еще и своей медийностью. Просто никто еще почему-то об этом не догадался. Представляете?

Интриги, скандалы, расследования: Российские лингвисты доказали. Проблема России не в дураках и дорогах, а…

На самом деле в “ментах” и “бюрократах”. Российские лингвисты доказали, yes captain.

Желтый — бюрократия, синий — мвд, сиреневый — суд, розовый — власть. Все в негативной коннотации.

Или вот, пример анализа текстов новостей. Чего боятся читатели и чем пугают медиа. Вот интерактивная версия. И кстати, дизайнеры, вдруг такие читают, обратите внимание, как решена проблема разрыва в значениях(эбола).

Дальнее чтение

Но если из корпуса текстов мы можем вынимать такие социальные диагнозы, то нельзя ли получить что-то и из художественных произведений? Можно, но не про общество, можно получить информацию о структуре произведения, узнать скрытое об авторе, о ходе литературного процесса, о развитии жанра. Это все в подробностях описал итальянский литературовед Франко Моретти в работе “Дальнее чтение”. Просто запощу здесь аннотацию, по-моему, довольно понятно написано:

В последней книге Франко Моретти собраны работы автора за последние 20 лет (1994–2011). Объединяя под одной обложкой исследования разных текстов (пьесы Шекспира, европейский роман XVIII-XIX вв., викторианская детективная новелла и голливудские фильмы), книга является по сути сводным манифестом ученого. Моретти предлагает новый принцип изучения литературы — “дальнее чтение”, противопоставленный привычному “медленному чтению” (“close reading”), и использует его для работы с большими корпусами текстов, обычно остающихся за пределами внимания (и возможностей) исследований, применяющих более традиционную оптику. Моретти предлагает “читать” большие массивы текстов, объединяя несколько подходов к культурной продукции: количественные методы, эволюционный подход к литературным формам, и миросистемный анализ, позволяющий проследить экспорт культурных открытий в мировом пространстве.

“Экспорт культурных открытий в мировом пространстве” нам все еще предстоит, а вот количественные методы мы с Анастасией Бонч-Осмоловской применили в работе над приложением “Живые страницы” для Samsung по приглашению Феклы Толстой. Я не могу в обзорном тексте описать такой большой проект. Покажу только в качестве анонса скрины веб-версии приложения, которую мы сделали для совместного проекта ВГТРК и Samsung в рамках четырехдневного марафона, когда в прямом эфире вся страна читала “Войну и мир”. Там есть динамический граф связей основных персонажей, карта их перемещений, параллельный исторический и литературный таймлайн и прочее.

Здесь кроме частотности, есть масса показателе, есть работа компьютерных лингвистов, есть иной подход к тексту с точки зрения UX. То есть кроме всего того, что говорит нам Моретти, “дальнее чтение” позволяет нам не только анализировать произведение, но и изобрести для него интерфейс. Сделать текст открытым в каком-то новом смысле слова.

--

--