Параметрическое оптимальное f при нормальном распределении

Разбор 3 главы книги Ральфа Винса “Математика управления капиталом”

Продолжение краткого изложения книги Ральфа Винса “Математика управления капиталом” с комментариями DTI.

Сегодня разбираем третью главу “Параметрическое оптимальное f при нормальном распределении”. В ней рассматриваются различные виды распределений вероятности и методы их анализа. Также описывается нахождение оптимального f при условии нормального распределения.

Читать обзор 1 | 2 главы

[contents]

Виды распределений

Существуют различные непрерывные и дискретные распределения. Дискретные распределения являются “ячеистыми”, что уменьшает информационное содержание распределения. Однако и на практике приходится жертвовать частью информации, сохраняя при этом профиль распределения.

#важно Сделать непрерывное распределение дискретным можно путем создания ячеек. Однако дискретное распределение превратить в непрерывное невозможно

Непрерывное распределение является серией бесконечно малых ячеек:

Дискретное и непрерыное распределения

Величины, описывающие распределения

Центральная тенденция

Первое, что необходимо знать о группе данных, или первый момент распределения, — его центральное значение. Для его оценки используют различные показатели, наиболее распространенным из которых является среднее арифметическое значение.

Среднее арифметическое — сумма значений, соответствующих точкам распределения, деленная на их количество. Формула:

#важно Среднее арифметическое обычно оказывается плохим выбором, если распределение имеет широкие хвосты, то есть если вероятность получить значение, удаленное от среднего, высока. В такой ситуации средние, рассчитанные по разным наборам случайно выбранных из распределения точек, будут сильно различаться

Могут использоваться также другие спецификации среднего: геометрическое (для положительных значений), гармоническое или квадратическое (среднеквадратический корень). Формулы:

Средние значения всегда подчиняются следующим соотношениям: арифметическое всегда больше или равно геометрическому, а геометрическое больше или равно гармоническому.

Существуют альтернативные показатели центральной тенденции.

Медиана — значение, находящееся посередине расположенного по возрастанию ряда данных. Медиана делит распределение надвое так, чтобы площадь под кривой функции плотности вероятности одной части была равна площади под кривой второй части. В отличие от среднего арифметического величина медианы не искажается крайними случайными значениями.

Мода — наиболее часто повторяющееся значение данных. Данный показатель отражает пик кривой распределения. В некоторых распределениях нет моды, а в других их несколько. Мода никак не зависит от крайних случайных значений, и ее можно рассчитать быстрее, чем среднее арифметическое или медиану.

Распределение также можно разделить

  • тремя квартилями, чтобы получить четыре области равного размера или вероятности;
  • девятью децилями, чтобы получить десять областей равного размера или вероятности;
  • 99 перцентилями, чтобы получить сто областей — при этом 50 перцентиль является медианой, а вместе с 25 и 75 перцентилями — квартилем;
  • N–1 квантилем, чтобы получить N областей.

Разброс значений

Второй момент распределения — это изменчивость данных, или “ширина” относительно центрального значения. Она измеряет разброс распределения относительно первого момента. Чаще всего в качестве оценки разброса используют дисперсию и стандартное отклонение. Также может применяться среднее отклонение.

Среднее абсолютное отклонение, или просто среднее отклонение, — среднее арифметическое абсолютных отклонений значения каждой точки от среднего арифметического всех значений. Иными словами, это среднее удаление от среднего. Формула:

#важно Данная формула позволяет вычислить среднее абсолютное отклонение по всей совокупности данных. Однако его можно рассчитать и по выборке из них. Для этого в формуле необходимо заменить 1/N на 1/(N-1)

Дисперсия — среднее арифметическое квадратов абсолютных отклонений значения каждой точки от среднего арифметического всех значений. Иными словами, это средний квадрат удаления от среднего. Формула:

Стандартное отклонение (сигма, σ) — квадратный корень из дисперсии.

#важно Формулу для дисперсии — а соответственно, и для стандартного отклонения, также можно применять для совокупности данных или для выборки из них. Второй вариант также требует замены 1/N на 1/(N-1)

Асимметрия и эксцесс

Третий момент распределения — асимметрия, описывающая асимметричность распределения относительно среднего значения. В отличие от первых двух моментов является безразмерной — это просто число, показывающее скос распределения. Положительная асимметрия означает, что хвосты толще с правой стороны распределения, и наоборот. Совершенно симметричное распределение имеет нулевой скос.

Различные виды асимметрии:

Асимметрия

В симметричном распределении среднее, медиана и мода имеют одинаковое значение. В ином случае верно следующее равенство: Среднее–Мода = 3(Среднее–Медиана).

Среднее, мода и медиана при асимметричном распределении:

Асимметричное распределение

Есть много способов для расчета асимметрии, и они часто дают различные ответы. Два распространенных варианта:

Четвертый момент распределения — эксцесс. Он показывает, насколько у распределения плоско- или островершинная форма по сравнению с нормальным. Как и асимметрия, это безразмерная величина.

Менее остроконечная, чем нормальная, кривая имеет эксцесс отрицательный, и наоборот. Для вершины, аналогичной пику нормального распределения, эксцесс равен нулю — в таком случае он называется нормальным.

Различные виды эксцесса:

Распределение с эксцессом

Наиболее распространенные методы расчета эксцесса:

Примеры распределений

Нормальное

Нормальное распределение (также называется распределением Гаусса или Муавра) считается наиболее ценным, поскольку моделирует многие явления. Также оно является предельной формой некоторых других типов распределений, например, Пуассона и Стьюдента (t-распределения). Иными словами, при достаточно большом количестве точек (N) эти распределения похожи на нормальное.

Центральная предельная теорема (ЦПТ): средние значения выборок заданного размера с независимыми элементами образуют распределение, близкое к нормальному. Это позволяет получить случайный процесс из средних значений выборочных данных. При этом распределение совокупности, из которой были получены выборки, значения не имеет.

Важным в ЦПТ является количество выборок: для равномерного или унимодального (одновершинного) распределения совокупности, из которой получены выборки, 10 считается с большой вероятностью достаточным их количеством. Если совокупность распределена экспоненциально, может потребоваться 100 выборок.

Нормированное нормальное распределение — это нормальное распределение со средним, равным нулю, и дисперсией, равной единице. Для преобразования нормального в нормированное необходимо из каждой точки вычесть среднее всех значений, а затем разделить на их стандартное отклонение. Формула:

Логарифмически нормальное распределение

Цена любого свободно котируемого инструмента имеет нулевое значение в качестве нижнего предела. Поэтому при приближении к нулю цене инструмента должно быть все труднее понизиться. Нормальное же распределение подразумевает, что вероятность изменения цены на одну и ту же величину не зависит от исходной точки. Получаемое из него логарифмически нормальное (логнормальное) распределение говорит, что вероятности равны не для абсолютных, а для процентных изменений.

Например, представим акцию стоимостью $10. В соответствии с нормальным распределением примерно равновероятны падения цены с $10 до $5 (50% понижение) и с $5 до $0 (100% понижение). При логнормальном распределении примерно равновероятны падения цены на 50% (с $10 до $5) и еще на 50% (с $5 до $2,5).

Нормальное и логнормальное распределение:

Нормальное и логнормальное распределения

Перейти от логнормального распределения к нормальному в случае с динамикой цен, необходимо взять натуральные логарифмы от относительных изменений котировок, то есть от выражения (Цена новая–Цена старая)/Цена старая. Полученный ряд будет подчиняться нормальному закону распределения.

Поиск оптимального f пo нормальному распределению

В первой главе книги была представлена формула Келли для нахождения параметрического оптимального f, где f — функция от процента выигрышных ставок и отношения выигрыша к проигрышу. Однако формула Келли дает оптимальное f только при бернуллиевом распределении выигрышей, то есть когда есть только два возможных результата.

Метод расчета оптимального f при нормальном распределении выигрышей также требует два параметра — среднее значение и стандартное отклонение результатов. Однако для его использования необходимо трансформировать непрерывное нормальное распределение в некоторое дискретное. Для этого нужно ввести ограничивающие параметры.

Выбрать, сколько данных мы отсекаем. Известно, что 99,73% всех точек данных находятся в интервале плюс и минус 3σ от среднего, поэтому рекомендуется сохранять для использования точке в интервале плюс и минус 3–5 сигм от среднего.

Решить, на сколько равноотстоящих точек мы разделим интервал между двумя крайними точками, выбранными на предыдущем шаге. Для интервала плюс и минус 3σ от среднего их должно быть не менее 30, включая крайние, — чем больше, тем ближе к реальному распределению. Они будут образовывать 29 интервалов по (3σ+3σ)/29≈0,21σ. Значит, полученные интервалы будут располагаться от -3σ от среднего до (-3+0,21)σ от среднего и так далее до 3σ.

Для каждой из точек также необходимо рассчитать ассоциированную вероятность. Формула (Z — данные, преобразованные в нормированные нормальные по формуле выше) — подробные пояснения к этой и следующим выражениям можно прочитать в оригинале книги:

Далее рассчитываем действительные вводные параметры: среднюю арифметическую сделку (выигрыш) и ее стандартное отклонение. Если последнее рассчитать затруднительно, можно использовать приблизительную формулу S≈1,253314137M, где S — стандартное отклонение, а М — среднее отклонение.

Дополнительно можно рассчитать два дополнительных параметра, которые позволят увидеть влияние изменения вводных параметров.

Сжатие — множитель средней сделки. Показывает влияние среднего значения на оптимальное f. Сжатие должно иметь такой знак, чтобы при умножении на среднюю сделку получалось положительное значение.

Растяжение — множитель стандартного отклонения. Показывает влияние разброса на оптимальное f. Растяжение всегда должно быть положительным числом.

Таким образом формула цены для стандартной единицы (границы одного из полученных ранее равных интервалов — например, -3+0,21=-2,79) будет выглядеть следующем образом:

D также называется ассоциированным значением P&L. Такие значения необходимо получить для всех стандартных единиц. Далее необходимо найти оптимальное f от 0 до 1 — например перебором.

Оптимальным будет такое f, при котором наибольшим становится среднее геометрическое значение HPR, рассчитанное на основании стандартных единиц по формуле:


Originally published at Блог DTI Algorithmic.

One clap, two clap, three clap, forty?

By clapping more or less, you can signal to us which stories really stand out.