Буквы

Нам с коллегой Владимиром Терентьевым внезапно показалось любопытным узнать, как и как часто мы в русском языке используем те или иные буквы. Для этого был проанализирован Полный орфографический словарь русского языка.

Какая буква на каком месте?

Первая задача была в том, чтобы показать распределение использования буквы в разных частях слова.

Чаще всего мы начинаем слова с буквы П. Думаю, виной тому бесконечные приставки. Ну а заканчиваем мягким знаком.

В качестве единиц измерения используется коэффициент: полученные данные были пересчитаны так, чтобы оценить положение буквы относительно слова, при этом не учитывая его длину. Кстати чаще всего в словаре встречаются слова из 9 и 10 букв, но попадаются и длиной в 29 знаков.

При этом частота использования букв в словах русского языка очень разная. Соответственно при построении графиков по единой шкале для всего алфавита график А растягивался до небес, тогда как график Ъ оставался прижатым к земле. И решено было использовать для каждой буквы свою собственную шкалу от минимума до максимума. Однако, очень хотелось отразить и абсолютные значения, чтобы подчеркнуть, насколько часто буква используется в словаре в принципе.

Первый вариант красив в своей странности, нечто среднее между графиком и хитмапом, но, увы, совершенно непонятен. Во втором случае была идея разбить буквы на гласные, согласные и вспомогательные. Но я от нее отказалась за бессмысленностью. Третий вариант с хитмапами без графиков остается моим любимым, хоть и меньше всего решает поставленную задачу.

Поэтому в результате я остановилась на сочетании графика колебания относительного для каждой буквы и хитмапа в заливке графика показывающего абсолютные значения в рамках всего алфавита.

Ну и пара глючных вариантов

Как буквы сочетаются?

«Ть, ть, ть», — повторило привычное эхо

Еще нам показалось интересным узнать, как буквы сочетаются с другими, и какие пары используются в словах русского языка чаще.

В данном случае уже можно говорить о буквальной частоте встречаемости пар как о единицах измерения. Однако, я сохранила преемственность в легенде.

Во всех трех наиболее частых парах участвует буква Т

Свой финальный выбор я остановила на хитмапе. Изначально идея была визуализировать размерами букв, получить, фактически, облако сочетаний знаков. Однако, из-за сложности форм она не сработала, читаемость как данных, так и самих букв была очень низкой. Естественно, я попробовала с более простыми формами и сделала пузырьковую диаграмму, но полученный результат эстетически меня не устроил.

В качестве эксперимента я так же попробовала соединить пары букв линиями, а насыщенностью показать силу, получила практически параллельные координаты. Однако, этот подход хорошо работает на узнаваемость лидеров, и совсем не дает представления обо всей остальной картине.

Версия для соцсетей на подходе :)

Like what you read? Give Nadya Andrianova a round of applause.

From a quick cheer to a standing ovation, clap to show how much you enjoyed this story.