Não caia em Mentiras com Estatística

Larissa Sayuri Futino Castro Dos Santos
rladiesbh

--

Se mentira tivesse data marcada tava bão demais, né? E o pior é que tem muita balela ‘que passa’ mesmo com dados, números e metodologias.

Bora falar mais sobre isso? Esse post é um tipo de resumão com as impressões que considerei mais relevantes sobre o livro Como Mentir com Estatística, de Darrell Huff. Como disse o Professor Marcelo Menezes Reis do Departamento de Estatística da UFSC esse é “um livro muito importante para a formação intelectual de qualquer pessoa”. Espero assim dar minha contribuição para estimular e formar o raciocínio crítico de todes nós!

Introdução

Lembre-se: Usamos números para informar. Em contextos que pedem assertividade ou reprodutibilidade números são ótimos!

Mas, como já dizia Darrell Huff: ‘a Estatística é tanto uma arte quanto uma ciência.’ Por quê? Pois, “com frequência, o estatístico precisa escolher entre métodos” (Darrell Huff). Ou seja, ela também acarreta processos subjetivos. E neles ‘moram’ as possibilidades de errar. Tem gente que faz de propósito e tem gente que comete deslizes sem nem saber. E isso ocorre tanto para quem gera a informação quanto para quem a consome.

A ideia do livro é explicar e exemplificar como a linguagem estatística pode ser usada para:

  • confundir,
  • apelar,
  • inflar e
  • levar a implicações exageradas

Amostra com Tendenciosidade Embutida

Dizem que nenhum método supera a qualidade do dado. Sendo assim, a primeira coisa que devemos pensar é: a amostra que dispomos é boa?

Por ‘boa’ podemos entender um conjunto de coisas relevantes mas para começar vamos nos ater à principal: a amostra disponível é de um grupo representativo? Ou seja, todas as fontes de tendenciosidade/inclinação foram removidas?

Vou dar um exemplo. Imagine que o Rladies BH está sondando os participantes da comunidade sobre possíveis temas a serem abordados através de uma enquete online. Hoje, a comunidade é composta de pessoas de perfis muito variados no que tange a:

  • ocupação,
  • profissão,
  • idade,
  • como conheceu e
  • como interage com a comunidade.

Digamos que o Rladies BH lance uma enquete sobre possíveis temas de conteúdo e/ou eventos levantando as seguintes opções:

  • coleta de dados,
  • manipulação de dados,
  • deploy,
  • produção de artigos diretamente com o uso do R

Se essa enquete for lançada exclusivamente no Linkedin, por exemplo, é possível que a gente enviese o resultado desse levantamento. Apesar de a rede ser amplamente utilizada, ela é predominante usada por profissionais do mercado sendo possível que menos pessoas respondam a 4ª opção (mais acadêmica). Logo, precisamos dispor o questionário de modos diversos. Assim, damos oportunidade de que pessoas de perfis distintos acessem-no tentando minimizar fontes de tendenciosidade.

A média bem escolhida

Média é um número que resume um conjunto de dados. Então, entenda: o papel da média é ambicioso. Ela vai representar o seu conjunto de dados. E o conjunto pode ser tão variado quanto você possa imaginar. Logo, a escolha da média mais adequada exige: (01) conhecer bem o conjunto de dados bem como (02) conhecer as características de cada média. Vamos a elas:

  1. Média Aritmética:
    A mais comum então tem a vantagem de ser familiar para a maioria das pessoas.
    É influenciada por valores extremos.
    Deve ser preferencialmente usada para representar um conjunto de dados cuja distribuição seja Normal, em foma de sino.
  2. Média Harmônica:
    A indicada quando os elementos são razões (frações ou percentuais).
    Um uso comum da Média Harmônica é a métrica F de um classificador a qual resume em um único número a precisão e a revocação.
  3. Média Geométrica:
    Tipicamente utilizada para conjuntos de dados em que há dependência entre eles ou que são de natureza exponencial. Por exemplo, para taxas de que evoluem no tempo.
    Só se aplica a números positivos.
  4. Moda:
    Útil para dados categóricos.
    Corresponde basicamente a representar o conjunto de dados pelo nível que é mais frequente/comum.
  5. Mediana:
    É o número que divide os dados ordenados em duas metades.
    Tem a vantagem de não ser influenciado por valores extremos.
    Porém, exige a ordenação dos elementos, uma tarefa que pode ser computacionalmente custosa a depender do tamanho do conjunto de dados.

É importante ter ciência que uma métrica pode ser escolhida para “relatar um fato de modo que ele pareça melhor ou mais conveniente para uma situação.”

Deixo aqui uma passagem do livro que descreve um episódio em que a média varia conforme o interesse.

Digamos que você seja um pernóstico (aquele que é presumido, pretensioso), e eu seja um vendedor de imóveis, e que você procure uma propriedade para comprar, numa estrada não distante do vale californiano em que vivo. Tendo avaliado que você é um pernóstico, esforço-me para que saiba que a renda média nessa vizinhança é de 15.000 dólares por ano. Talvez isso faça com que você se decida a viver aqui. De qualquer modo, você compra, e aquele belo número (15.000!) fixa-se em sua mente.
Um ano depois, nos encontramos. Como membro de uma Comissão de Contribuintes estou passando um abaixo-assinado para que sejam mantidas baixas as avaliações dos imóveis, ou as passagens de ônibus, ou outra coisa qualquer. Meu argumento é que não podemos arcar com o aumento: afinal, a renda média nesta redondeza é de apenas 3.500 dólares por ano.
Talvez você venha a aderir: além de pernóstico, você é também um unha-de-fome, mas a pobreza dos 3.500 o surpreende. Eu sou mentiroso agora ou no ano passado?
Eu, não!… Aqui está a beleza essencial de mentir-se com estatísticas! Ambos os números são legítimos, legalmente descobertos. Ambos representam os mesmos dados, as mesmas pessoas, as mesmas rendas.
De qualquer forma, um ou outro deve ser tão enganador que equivale a uma deslavada mentira. Minha mágica foi usar uma espécie diferente de média de cada vez, já que a palavra média tem um significado muito elástico. Quando alguém lhe disser que “em média” isto e aquilo, você ainda estará sem saber quais das espécies normais de médias se trata, isto é, se é o caso de uma “média”, de uma “moda” ou de uma “mediana”.

O número “15.000” que usei quando precisei de um número grande, é uma média aritmética das rendas de todas as famílias da vizinhança. Obtém-se somando todas as rendas das famílias, e dividindo-se o resultado pelo número de famílias. Quando precisei do número menor, usei a mediana, que nos diz que metade das famílias em questão recebe mais de 3.500 e a outra metade recebe menos de 3.500. Poderia ter ainda usado a moda.

Os numerozinhos que não estão ali

Você certamente já viu propagandas de pasta dental que alegam eficácias 20%, 30% maiores que as concorrentes. Em se tratando de um estudo, pode-se dizer que “é uma verdade por aproximação mas a conclusão não procede”.

É importante para a marca divulgar um número expressivo. Afinal, você compraria um produto novo por 1% a mais de eficácia? Então para isso a marca recorre a um artifício conhecido: toma como amostra um grupo pequeno. Assim, a variação de uma unidade corresponde a uma diferença percentual digna de letras garrafais.

Sempre se questione se o fenômeno está acontecendo quando estiver falando de percentuais. Por exemplo, no contexto da incidência de doenças em municípios pequenos. Se a cidade tem 02 casos em um dado mês e 03 casos no mês seguinte o aumento é de 50%!

Logo, guarde no coração: Sempre procure pelo tamanho amostral. Esse é um numerozinho meio esquecido que pode informar muito!

Muito Barulho por Praticamente Nada

Assim como há alarde por mudança de eficácia de uma pasta de dente também há muito estardalhaço por um ponto a mais na escala de QI.

Nesse caso, contudo, a métrica deveria aparecer sempre acompanhada de uma faixa de variação. Ou seja, além da métrica pontual (qualquer tipo de média) trazer também a informação intervalar.

E como o autor nos lembra: “A diferença só é uma diferença quando faz diferença”. Para conclusões a nível inferencial, ou seja, que podem ser extrapoladas para a população diferenças são quantificadas com o emprego de Testes Estatísticos de Hipótese. E nele, um outro numerozinho importante de ser reportado é o nível de significância.

O Gŕafico Exagerado e a Figura Unidimensional

Gráficos são MUITO informativos. Fato. Mas a sua leitura completa exige a especificação dos vários componentes necessárias para o seu bom entendimento.
Você sabe quais são elas? Um gráfico precisa:

  • dos nomes dos eixos/variáveis (e se elas foram transformadas isso precisa ser dito),
  • de um título,
  • explicitar a fonte dos dados, quando houver
  • explicitar a informação contida na legenda, quando houver

Você certamente já viu um gráfico com algum problema de concepção. E não se iluda… Em se tratando de gráficos, as interpretações são cuidadosamente pensadas.
Em geral, mudanças são feitas mas “nada soa falsificado — exceto a impressão que ela dá”. E ainda mais: “sem adjetivos ou advérbios para estragar a ilusão da objetividade”.
Duas formas comuns de provocar uma alteração de percepção:

  • Escala alterada
    Desse jeito, uma mudança pequena se torna, visualmente, uma grande mudança.
    Note esse efeito na Figura a seguir. O gráfico da direita tem a escala começando em 0 e vemos que a variável de interesse oscilou pouco pelos meses de 1937. No gráfico a esquerda, o eixo Y não começa de 0 e efeito visual é muito dramático.
Figura 01: imagem do Capítulo 05 do livro Como Mentir com Estatística de Darrel Huff.

Esses gráficos exemplificam o que temos interesse mas é bom lembrar que eles falham em muitos aspectos e não são, definitivamente, bons exemplos de representação gráfica.

  • Mudar a Proporção entre a ordenada e a abcissa.
    Essa também é uma forma de dar a impressão que uma mudança pequena é, visualmente, uma grande mudança ou vice versa.
    Na imagem abaixo note o efeito de alterar a escala do eixo-y.
Figura 02: imagens do Capítulo 05 do livro Como Mentir com Estatística de Darrel Huff.
  • Cuidado ao usar gráficos pictóricos
    Nessas representações é comum que o incremento de uma unidade de uma variável corresponda a uma mudança visual que não mantém a proporcionalidade. Ou seja, a impressão visual transmite algo muito diferente do informado.
    Observe na imagem abaixo uma representação para o número de vacas leiteiras nos EUA em dois anos diferentes. A ideia era mostrar um aumento no número de animais de 08 milhões para 25 milhões. Mas a área ocupada pela figura da direita parece muito maior que o triplo da primeira.
Figura 03: imagens do Capítulo 06 do livro Como Mentir com Estatística de Darrel Huff.

O número semiligado

Você sabe o que é uma falácia?As palavras do autor Darrell Huff definem muito bem esse tipo de raciocínio: “Se você não consegue provar o que deseja, demonstre alguma coisa e finja que são equivalentes”.

Vamos exemplificar uma falácia com números a partir de um exemplo do livro. Na guerra hispano-americana a taxa de mortalidade dos marinheiros americanos doi de 9/1.000. Já população de civis de Nova York essa taxa foi de 16/1.000. O recrutamento naval alardeou que, nesse período, era mais seguro estar na Marinha do que fora dela. Isso faz sentido?

Não! Afinal, os grupos não são comparáveis. A população de marinheiros é majoritariamente masculina e jovem com rotina de exercício.

Outro exemplo interessante diz respeito ao número médio de banhos tomados por semana na população britânica. Em um estudo conduzido pelo Ministério de Obras, homens tomavam em média 1.7 banhos/semana enquanto mulheres tomavam cerca de 1.5 banhos/semana.
Note que: o interesse era saber sobre o número de banhos dos cidadãos mas… aferir essas quantidade não é razoável a partir de um instrumento auto declarado. O levantamento apontou a notificação ou memória de banho da população por gênero. Não foi a realização do fenômeno de interesse. Questione-se:

  • A variável sendo utilizada de fato quantifica o que é pretendido?
  • A variável utilizada foi coletada em um contexto que se assemelha ao que estamos estudando/ utilizando no momento?
  • Existe outra variável melhor reportada?
Figura 04: imagens do Capítulo 01 do livro Como Mentir com Estatística de Darrel Huff.

Post Hoc está de volta

Arrisco dizer que esse é o tipo de falácia mais comum:

  • se B acontece depois de A, então A causou B

Ou, em outras palavras:

  • um evento é causado por outro que o antecede

Essa é a relação entre educação e renda. Afinal: “as pessoas que cursam faculdade ganham mais do que as que não o fizeram”. Mas não sabemos se é a educação que gera a renda ou se é a condição de uma renda superior que propicia investimento em educação.

“Nesse caso, é bastante evidente que a relação é real mas não é possível saber de fato qual das variáveis é a causa e qual é o efeito.” A correlação observada é real mas foi “usada para sustentar uma relação de causa e efeito não comprovada”. E “é um absurdo supor que há causa e efeito sempre que duas coisas variam juntas.”

Outra conclusão errônea é estender a interpretação de uma correlação para além dos dados com os quais foi demonstrada.

Por exemplo, sabemos que a chuva tem relação positiva com o número de casos de dengue em BH. Todavia, essa relação não é válida para qualquer valor de chuva observada. Até determinado ponto, supondo que seja 100mm/mês temos: quanto mais chuva, mais casos da doença. Quanto mais a chuva supera os 100mm/mês, entretanto, mais define-se um cenário em que as superfícies de acúmulo de água transbordam/ são lavadas não propiciando o desenvolvimento dos mosquitinhos transmissores. Desse jeito, “a correlação positiva se sustenta até certo ponto”.

Conclusões

Como uma parte substancial da informação divulgada hoje em dia se dá com o uso de dados, alfabetização em dados e analytics são processos imprescindíveis para a contínua educação, informação e inclusão de pessoas.

Esse livro traz exemplos reais, com uma linguagem simples de como dados, números e estatísticas podem ser subjetivos.
E mais importante: o livro explicita comportamentos úteis para o desenvolvimento de raciocínio crítico quanto ao uso de dados. Um tipo de must have da informação.

--

--