Если бы мы читали книги так же, как читаем геномы

Геном организма — его книга жизни, в которой записаны все правила и инструкции, по которым можно построить точно такой же организм. Но насколько хорошо мы понимаем текст, записанный в этой книге?

В последнее десятилетие публикуется всё больше и больше геномных исследований. Ведут ли эти исследования к качественно лучшему пониманию жизни или же по сути яляются бессмысленным накоплением фактов?

Рис.1 — один из томов печатной версии генома человека.

Полтора века домашнего чтения

В середине 19 века учёные впервые обнаружили буквы. Достоверно известно, что буквы встречаются в книгах и необходимы для их печатания.

В начале 20 века мир узнаёт о существовании глав и абзацев. Никто не знает, как именно они устроены, но они точно состоят из букв. Абзацы — минимальный носитель смысла.
Что интересно, в книгах с одинаковой обложкой всегда одинаковый набор абзацев и глав. Если сравнивать много таких книг, то можно понять примерное расположение абзацев в каждой главе.

Только в середине 20 века становится понятно, что любая книга — последовательность букв, разделённых на предложения. Предложения сами по себе не несут смысла — их необходимо объединять в абзацы.
Также становится понятен механизм книгопечатания, при котором новые книги появляются за счёт перепечатывания текста старой. При перепечатывании наборщик делает ошибки, которые обычно замечает и исправляет, но не всегда. Впрочем, даже в уже напечатанной книге буквы могут затираться и меняться на другие, что может привести к потере смысла.

В это же время наконец-то становится более менее понятно, как появляются разные книги — изначально была очень короткая и простая книга, которую так много перепечатывали, что все совершённые при этом ошибки привели к появлению детективов, кулинарных книг, учебников и всех прочих видов книг.

И всё равно ещё 20–30 лет учёные учатся читать по буквам. Появляются книги, которые прочитаны от корки до корки, но содержание по-прежнему малопонятно. Самый простой способ понять смысл — убрать абзац и посмотреть, изменился ли смысл книги. Таким образом становится понятен смысл каждого абзаца. Можно ещё менять текст — вставлять в него новые абзацы, добавлять новые буквы, перемешивать предложения.

И тут учёные понимают, что сами могут печатать книги. Набирать книги побуквенно чересчур сложно — проще вырезать абзацы и предложения из одних книг и вклеивать в другие. Порой получается что-то осмысленное, порой ничего не получается. Оказывается, что помимо точек и пробелов в книгах есть куча других знаков препинания, а некоторые предложения сами по себе смысла не имеют, но создают правильный контекст. Чтобы самим печатать книги нужно правильно расставлять эти знаки.

Последние 20 лет учёные всё больше внимания уделяют роли знаков препинания и сравнению отрывков из разных книг. Открыто много интересных закономерностей, как например то, что «Анна Каренина» и «Война и мир» написаны одним автором и что «Война и мир» частично похожа на «Ярмарку тщеславия». Если выделить из последней ключевые слова, то можно понять, что это книга о Наполеоне, войне, Англии, любви и смерти. Установлена роль в повествовании почти каждого прочитанного абзаца, но порой всё же приходится догадываться о смысле абзаца, находя в других книгах похожие. Абзацы с известной ролью классифицируются по смыслу, и в итоге получаются базы данных, где можно читать и сравнивать абзацы, например, только про любовь к родине или про решение геометрических задач. В ходе работы с отдельными абзацами у учёных появляются всё новые вопросы: по каким знакам можно отличить разные типы абзацев, почему абзацы про лес содержат фрагменты абзацев про птиц, почему запятые всегда стоят перед союзои «а».

Прогресс геномики

За последние полтора века понимание геномов невероятно улучшилось. Всегда новый виток развития шёл за счёт возможности задавать новые вопросы. Новое понимание — новый вопрос — новый метод — новый ответ.

Если опять сравнивать с книгами, то в середине 20 века человечество было на стадии детсадовца, пытающегося достать ответы на вопросы мироздания из букваря. Сегодня же учёные получили доступ к более серьёзной литературе и жадно её проглатывают, не успевая осмыслить. Разработано великое множество методик чтения, каждая из которых позволяет получить ответ на конкретный вопрос, но «Война и мир» настолько многозначны, что задавая конкретные вопросы мы не получаем общего представления об этой книге. Мы можем узнать, жанр, сюжет, автора, год публикации, но мы пока не продвинулись дальше уровня учащегося средней школы, который проскакивает через куски текста и перелистывает книгу в поисках нужного отрывка, потому что ему надо написать сочинение на тему «Сколько раз князь Андрей садился на коня: конь — новый важный элемент повествования».

Возможно, ещё через 30–50 лет учёное сообщество будет больше походить на знатных литературоведов, обсуждающих образы матери в творчестве Толстого и Достоевского. Сейчас уже имеются первые попытки интегрировать разрозненные данные о конях, чепчиках, званых ужинах, винтовках в единую модель.
Прогресс неизбежен, вопрос в том, как скоро мы дойдём до полного понимания книги жизни.