Você já foi enganado por uma “cauda longa”​?

Danilo Steckelberg
Data Hackers
Published in
7 min readFeb 25, 2023
Foto de Matt Stephens em Pexels.

Nosso estudo básico de estatística (ensino médio e superior cujo foco não é matemática ou estatística) falha em um grande aspecto, na minha humilde opinião: nos faz ver toda a estatística como um monte de distribuições normais (as famosas “curva normal”, “gaussiana” ou “curva de sino”), e restringem nossas perguntas aos dados a “qual a média?” e “qual o desvio padrão?”.

As pessoas que conhecem distribuições de cauda longa geralmente conhecem por três referências que são mais bem difundidas:

  • Regra 80/20 de Pareto (80% dos resultados estão associados a 20% das ações, ou alguma variação disso);
  • Livros do Nassim Taleb (A Lógica do Cisne Negro e Statistical Consequences of Fat Tails, por exemplo).
  • Livro “A Cauda Longa — Do mercado de massa para o mercado de nicho”, por Chris Anderson.
Exemplo do princípio 80/20 de Pareto. Fonte: autor.

Enxergar as variações, distribuições e aleatoriedades nos termos que aprendemos (distribuições normais) trazem alguns problemas. Segue abaixo uma lista não extensiva, mas que contém o básico para usos práticos nas áreas de dados:

  1. Compreensão errônea de métricas como média e desvio padrão.
  2. Subestimação de efeitos.
  3. Introdução de vieses modelos de Machine Learning.

A ideia é explicar um pouco mais o que são distribuições de cauda longa, aprofundar cada um desses pontos e trazer alguns exemplos dos estudos que fizemos na Evi.

O que são distribuições de cauda longa

Distribuições de cauda longa são aquelas em que a frequência de ocorrência dos valores mais comuns é muito maior do que a ocorrência de valores extremos, e é caracterizada por haver um grande número de valores extremos. Como exemplos de distribuições, temos a Distribuição de Pareto, Lei de Zipf e Leis de Potência. Alguns exemplos práticos são:

  • Vendas de livros na Amazon: alguns poucos livros têm números muito grandes de venda, enquanto milhões de outros livros têm vendas próximas de zero (somados, os livros de cauda longa vendem mais que os top-sellers).
  • As três regiões metropolitanas mais populosas do Brasil consistem em 19% da população, mas apenas 2% da quantidade de municípios; as 196 maiores cidades (acima de 150 mil habitantes) têm mais população do que as 5374 cidades restantes (dados de 2018).
GIF mostrando a distribuição da população das cidades brasileiras, mais um exemplo de cauda longa. Fonte: Autor.
  • Se você trabalha com marketing digital, provavelmente você tem alguns poucos anúncios com muitas impressões/investimento e uma quantidade muito grande de anúncios com poucas impressões/investimento.
Distribuição de métricas de Impressões, Investimento e Taxa de Conversão como métricas de cauda longa. Fonte: Autor.
  • Desigualdade de renda, em que os 10% mais ricos detêm 90% da riqueza (números não exatos aqui).

Existem algumas grandes implicações destas distribuições:

  • Outliers têm um papel importante, muitas vezes não faz sentido serem descartados como anomalias — pelo contrário, podem ser justamente o que se deseja.
  • O conceito de desvio padrão não faz sentido da mesma forma que faz sentido para uma distribuição normal.
  • Médias e medianas passam a ser bastante diferentes (e significar coisas bastante diferentes entre si).

Retomando os problemas listados no início do texto:

1. Compreensão errônea de métricas

As distribuições normais são caracterizadas por dois parâmetros: média e desvio padrão. Por isso somos tão acostumados a sempre perguntar para qualquer conjunto de dados quais são estes dois valores. Numa distribuição normal, a média e a mediana são praticamente idênticas, enquanto em uma distribuição de cauda longa a média vai ser deslocada para os valores extremos, pois os outliers têm muito peso. Uma forma de compreender fácil dados normalmente distribuídos é: 66% das suas amostras estarão dentro do intervalo média ± desvio padrão.

Imagem esquemática de uma distribuição normal. Fonte: autor.

São Paulo é um outlier dentre as cidades do Brasil, mas não dá para estudar Brasil sem São Paulo. Mas também é errado estudar São Paulo e achar que entende de Brasil, pois as milhares de pequenas cidades representam uma parcela significativa da população.

Por exemplo: a população média dos municípios brasileiros é de 37.400 pessoas, enquanto que a mediana é 11.600. Ou seja, a média é 3 vezes maior. O desvio padrão seria de 220.000 pessoas. Não faz sentido pensar em algo como 37.000 ± 220.000 pessoas. Uma forma mais usual é pensar em quartis, ou seja, qual é a população que 25%, 50% e 75% das cidades são menores do que elas? No caso, 25% das cidades brasileiras são menores que 54.000 pessoas, 50% menores que 166.000 e 75% menores que 253.000 pessoas.

Em alguns casos particulares de distribuições de potência não faz sentido falar em média, desvio padrão e variância pois as definições destas métricas não se aplicam a esta distribuição. Um exemplo é a distribuição de frequência que as palavras aparecem em um idioma, que segue a Lei de Zipf que é, em essência, uma distribuição de potência.

2. Subestimação de efeitos

Como estamos acostumados a ver o mundo pelas leis da distribuição normal, que é regida, conceitualmente, pelo conceito do teorema do limite central, que pode ser visto como uma forma de “retorno à média”.

Entretanto, desta forma, subestimamos o impacto de acrescentar novas amostras aos dados em estudo. Um estudo recente que fizemos a respeito de dois grandes grupos de anúncios que fazemos: aqueles cujo foco é o produto e os que o foco é uma pessoa influencer. A mediana das receitas em cada campanha é 11% menor para os anúncios de influencer, a média é 13.3% maior, mas o mais impressionante é que a chance de um anúncio estar entre o top 1% de maiores receitas dentre os nossos anúncios é 3x maior para os anúncios de influencer.

Isso se deve ao fato de que a maioria dos anúncios com influencers tem uma conversão monetária mais baixa do que os anúncios com foco nos produtos, mas, principalmente devido ao efeito de rede, algumas poucas pessoas influencers podem trazer alcance e argumento de venda muito fortes para o produto. Apenas como ilustração: podemos fazer 1000 anúncios abaixo da média com influencers mas se, por acaso, conseguirmos fazer um anúncio com a Rihanna, com certeza esse anúncio será mais relevante que todos os outros anúncios juntos.

Entender de cauda longa, e onde ela tem maior propensão a ocorrer pode lhe ajudar a se expor a situações que bons outliers podem aparecer, ou, na linguagem do Nassim Taleb, se expor a “cisnes negros positivos”.

3. Introdução de vieses em modelos de Machine Learning

Diversos modelos consideram que os resíduos não devem ter correlação com as variáveis de entrada. Isso implica em dizer que as diferenças que ocorrem entre os resultados preditos e os resultados reais, que foram medidos e que se quer prever, se devem a elementos que não estão contidos no modelo.

Se os resíduos não se comportarem desta forma, os modelos podem estar enviesados. Um exemplo destes vieses é um fenômeno chamado heterocedasticidade. Sem entrar em muitos detalhes, esse erro ocorre quando a variância dos resíduos não é constante em relação às variáveis preditoras, como no exemplo mostrado na figura a seguir (ref: Wikipedia):

Heterocedasticidade. Fonte: adaptado de Wikipedia.

Isso implica que o modelo não captura algum efeito que está presente nos dados. Por exemplo: a relação entre gastos por refeição (eixo y) e renda (eixo x). É esperado que um modelo linear como este apresente heterocedasticidade, uma vez que, com maior renda, haja mais gastos altos com refeições, mas também ocorrerão refeições com preços baixos (uma pessoa diretora almoçando com a equipe em um restaurante que não seja de luxo, por exemplo). Sendo assim, o modelo linear não consegue capturar, sem adição de novas variáveis, o comportamento do preço médio de refeição com o aumento da renda. O modelo estará enviesado em, por exemplo, desconsiderar potenciais refeições de baixo custo associado a rendas mais altas.

Muitos fenômenos associados a cauda longa podem contribuir para que o modelo apresente vieses e façam com que os resíduos fujam da normalidade. Isso não necessariamente inviabiliza o modelo, mas deve-se levar em conta que o modelo pode estar enviesado ao produzir determinado resultado.

O que fazer com caudas longas?

Em geral, não há como fugir delas. Estão em toda parte. Nos artistas mais ouvidos do Spotify, nas suas cidades mais vendidas, nos anúncios com mais impressões, nas palavras mais utilizadas em uma língua, e por aí vai.

As caudas longas não são “melhores” ou “piores”, o único porém é que se pensarmos em distribuições apenas como distribuições normais, podemos estar perdendo oportunidades de ganhos ou estar incorrendo em riscos que não estamos prevendo.

Em relação aos modelos, há algumas tratativas para tentar reduzir os vieses que elas introduzem: aplicar transformações para normalização de variáveis (padronização, transformação logarítmica, transformação box-cox, entre outras).

Histogramas de impressões com e sem transformação logarítmica. Fonte: autor.

Se a intenção for se expor a “cisnes negros positivos”, o que as distribuições de cauda longa ensinam é: não adianta fazer uma vez. Se a ideia e investir em pessoas influenciadoras, deve-se investir na maior quantidade possível, de forma que algumas poucas irão compensar as demais. A mesma lógica se aplica, por exemplo, a investimentos em startups.

Minha recomendação principal é: se familiarize com seus dados. Entenda como eles variam, onde estão os top 50%, 90%, 99% etc. de todos seus dados, se possível. Teste diferentes distribuições e veja se elas persistem em subconjuntos desses dados. Só somos enganados pelas distribuições de cauda longa se estivermos desatentos.

--

--

Danilo Steckelberg
Data Hackers

Pelo hemisfério esquerdo, engenheiro, fã de lógica e explicações. Pelo direito, apaixonado pelo caos criativo, por arte, poesia e mistério.