ПОЧЕМУ МЫ ПЛАТИМ ЗА ГИГАБАЙТЫ?

Oleg Kyrmyzy
pochemuzachemkak
Published in
4 min readSep 12, 2020

Ответ, на первый взгляд, очевидный — мы платим за возможность доступа к информации. Формат не имеет значения: будь то аудио, видео или текст, информация любого типа измеряется по одной шкале. Как же так вышло? Устоявшееся к началу 20го века мнение о том, что информацию можно измерить лишь посчитав количество символов в передаваемых сообщениях, не оправдало себя. Пока телеграфные компании брали плату за количество букв в сообщениях, хитрые клиенты смекнули, что можно использовать сокращения (lol, дак вот откуда это пошло). В общем, существующие уже не одно десятилетие телеграфные, а затем и телефонные компании долгое время сами толком не понимали, за что они берут деньги.

Источник

Парадокс был разрешен введением универсальной единицы измерения информации — бит (binary digit), которая принимает всего два значения: 1 или 0, + или -, правда или ложь и так далее. Кодирование информации с помощью двоичного кода можно сравнить с определением минимального количества вопросов, которые необходимо задать для определения состояния системы. К примеру, состояние подброшенной монеты описывается одним битом или одним вопросом “Это орёл?” (или “Это решка?”). Позитивный ответ (1) даст нам “орла”, негативный (0) — “решку”.

Однако при усложнении задачи, к примеру, записи букв в двоичном коде, кодирование не так уж однозначно. В русском алфавите содержится 33 буквы. Значит ли это, что для определения каждой буквы потребуется задать 33 вопроса на подобие “Это буква А (Б,В,Г..?)”? Не совсем. Количество битов для каждой из букв, а значит и количество вопросов, должно быть минимальным. Для алфавита гораздо удобнее задавать вопросы, оставляющие половину ответов. Например: “Эта буква стоит до/после Л?” и так далее. В таком случае потребуется всего 5–6 вопросов, поэтому любая буква в русском алфавите может быть закодирована 5 или 6 битами (например “М” — 010011).

ЗАЧЕМ… ГИППОПОТАМ?

Неожиданный вопрос, не так ли? Наряду с количественной оценкой, то, что можно было бы описать термином “удивление”, также является важной характеристикой информации. Сегодняшняя статья тем информативнее для вас, чем больше её содержание вызывает удивления. В тоже время каждодневное чтение одних и тех же новостей сводит их информативность к нулю, хотя их вес, выраженный в битах, не меняется.

Для описания удивления в теории информации используют понятие энтропии. Чем меньше вероятность встретить слово “Гиппопотам” в тексте про IT, тем больше его энтропия. Как видно, энтропия зависит от контекста. То же слово, но в вопросе “Зачем в зоопарке гиппопотам?” уже вызовет чуть меньше удивления, поскольку его контекст был дополнен. А в тексте про животный мир такой вопрос вообще едва ли бы был неожиданным.

Энтропия как вероятность наступления события имеет и чисто практическое применение. В русском языке намного чаще используются буквы “Е” или “И” и гораздо реже “Э” или “Ъ”. Задавая вопрос “Это буква А (Б,В,Г..?)” мы с большей вероятностью получим положительный ответ на “Е”, чем на “Э”, следовательно для кодирования буквы “Е” можно использовать меньше бит. Этот подход используется программами архивации файлов, а также лежит в основе передачи сообщений азбукой Морзе.

В азбуке Морзе информация передается с помощью дит: длинного (тире) и короткого (точка) сигнала. Самые частые в употреблении буквы кодируются меньшим количеством дит и наоборот. Источник

КАК НАЙТИ ПРИШЕЛЬЦЕВ?

В современной науке существует так называемый парадокс Ферми (парадокс Великого молчания), в основе которого лежит вопрос “Одни ли мы во Вселенной?”. В попытках найти на него ответ в конце 60-х годов прошлого века был запущен проект SETI (Search for Extraterrestrial Intelligence), использующий радиотелескопы по всему миру, чтобы обнаружить сигналы от внеземных цивилизаций. Однако участники эксперимента столкнулись с проблемой: как отличить сигналы, посланные внеземным разумом, от множества других сигналов в космосе, имеющих естественное происхождение?

Группа ученых предложила исследовать характер изменения человеческой речи в период взросления младенцев. Во время гуления младенец зачастую произносит звуки никак не связанные между собой. Эти звуки находятся во всех диапазонах, свойственных любому земному языку. Однако с возрастом ребёнок принимает ряд языковых правил от родителей и этот диапазон значительно сокращается. Гораздо удивительнее то, что ученые обнаружили эту же закономерность , вероятно, у ближайшего к нам на Земле разумного вида — дельфинов!

Группа исследователей обратила внимание на ещё одну закономерность: в разумной речи каждый следующий звук (каждое следующее слово) зависит от предыдущих. Другими словами энтропия каждого следующего звука или слова меньше предыдущего. Вновь обнаружив эту закономерность у дельфинов, ученые сделали вывод, что эта особенность свойственна как человеческим, так и нечеловечиским системам речи. Используя именно эту закономерность, участники эксперимента SETI надеются отличить сигнал, отправленный пришельцами, от множества других сигналов в космосе.

Закономерность уменьшения информационной энтропии при передачи сообщений на разных языках человеческой речи, а также при коммуникациях дельфинов друг с другом. Источник

Ещё больше любопытного в Телеграм-канале:

https://t.me/pochemuzachemkak

--

--

Oleg Kyrmyzy
pochemuzachemkak

Computer vision and electronics engineer | Pochemuzachemkak telegram-channel