Identificando eventos extremos com teste de Dragon-King (DK)

Bruno Vilela
3 min readJul 25, 2022

--

Como usar o teste estatístico DK-test para identificar eventos extremos

Dragão Rei

INTRODUÇÃO

Podemos definir um outlier como um ponto que distoa da normalidade de uma distribuição. Temos dois tipos de outliers: os gerados por algum erro de medição e os que não são erros. Nosso foco nesse artigo será estudar como identificar esses outliers que não são erros, mais conhecidos como Dragon-Kings.

O TESTE DK

Vamos considerar uma amostra independente e identicamente distribuída x₁, …, xₙ, com varíaveis aleatórias (va) com a função de densidade de probabilidade exponencial (PDF):

f(x) = a ⋅ exp (-ax); a > 0, x ≥ 0. (1)

Vamos considerar também uma distribuição Pareto PDF

f(x) = b ⋅ hᵇ / x¹⁺ᵇ; b > 0, h > 0, x ≥ h. (2)

Podemos ordenar nossa amostra x₁, …, xₙ e obter x₁,ₙ ≥ x₂,ₙ ≥ … ≥ xₙ,ₙ. Aqui podemos suspeitar que existam r DK gerados pelo distribuição de DK: xᵣ,ₙ ≤ xᵣ₋₁,ₙ ≤ … ≤ x₁,ₙ e todo o resto segue uma PDF.

O número de r é fixo a-priori por algum estudo preliminar (r ≤ n-1). Podemos começar com r=1 para testar se temos apenas um evento extremo, e ir aumentando o valor.

Nosso objetivo é construir um teste para a hipótese nula:

H₀: todas observações da amostra são geradas pela mesma distribuição exponencial (1)

A alternativa para H₀ seria a existência de Dragon Kings, gerados por uma outra distribuição com calda pesada.

Vamos considerar os espaçamentos na série como yₖ definidos como:

yₖ = xₖ,ₙ - xₖ₋₁,ₙ , k = 1, …, n-1; (3a)

yₙ = xₙ,ₙ. (3b)

Pode ser provado que (veja em Embrechts et al. Chapter 4, Section 4.1 Order Statistics, exemplo 4.1.5) se x₁, …, xₙ são IID (identicamente e individualmente distribuídos) em uma PDF (1), então y₁, …, yₙ são independentes e exponencialmente distribuídos e yₖ tem média de 1/(a ⋅ k)

Podemos contruir o teste T abaixo. Definindo va:

zₖ = k ⋅ yₖ, k = 1, …, n (4)

podemos propor o seguinte teste:

T = { [1/r]⋅ [z₁ + … + zᵣ] } / { [1/(n-r) ]⋅ [zᵣ₊₁ + … + zₙ] ) (5)

Se y₁, …, yₙ são exponencialmente distribuídos, então zₖ também é. Uma distribuição exponencial nada mais é que uma distribuição qui-quadrado com 2 graus de liberadade. z₁ + … + zᵣ é a soma de DK’s que seguem uma distribuição chi-quadrado com 2 graus de liberadade. De forma parecida zᵣ₊₁ + … + zₙ também segue qui-quadrado, porém com (2(n-r)) graus de liberdade. O p-value para H₀ é dado por:

p = 1- F(T, 2r, 2(n-r)), (6)

onde F(T, 2r, 2(n-r)) denota a função de distribuição cumulativa (CDF) da distribuição f com (2r, 2(n-r)) graus de liberadade.

Obrigado por ler até aqui, no próximo post estarei aplicando nosso teste em dados reais para vermos a utilização na prática!

--

--

Bruno Vilela
0 Followers

Stats, ML/AI, data, technology, game, music, decision science. https://vilelabruno.github.io/