Somos piores em probabilidade do que pensamos: a falácia da taxa base em Psicologia

Published in

Datapsico

10 min readJan 23, 2024

Imagem gerada pelo Microsoft Bing Image Creator, com o prompt “*Give me an image that represents error in thinking and probability in psychology*”

Matemática não é uma disciplina extremamente intuitiva: eis algo que a maioria de nós pode concordar. No entanto, precisamos tomar decisões precisas quando estamos em face da incerteza. O que nos leva a uma pergunta: o quanto deveríamos acreditar nas nossas intuições sobre probabilidades para tomar decisões importantes?

Antes de responder essa pergunta, vamos lidar com uma situação de probabilidades que pode acontecer na vida real.

Imagine que você foi ao médico, pois já faz muito tempo que você não faz um check-up. Você explica para os seus parentes que não há razão para se preocupar, porque é apenas um exame de rotina — afinal, você não está sentindo nenhum sintoma e se sente perfeitamente bem. Não há motivo para preocupação, então você vai sem muita enrolação.

Chegando lá, o médico passa uma quantidade enorme de exames para você. Você não entende o motivo daqueles exames e o médico não tem nenhuma motivação específica para passá-los para você. Acontece que você cresceu ouvindo que “prevenir é melhor do que remediar”, então não custa nada você fazer os exames prescritos pelo médico.

Uma semana depois, você recebe uma mensagem que os seus exames estão prontos e que foram enviados para o seu e-mail. Você abre o seu e-mail, dá uma olhada nos exames e, de repente, uma informação em um dos seus exames te atinge como um trovão: um teste que retornou positivo. Uma pesquisa rápida no Google revela que esse exame é um teste para uma raríssima doença genética que atinge apenas 0.0001% da população — isto é, 1 a cada 1 milhão de pessoas. Além disso, alguns links te informam que o teste acerta 99,9% das vezes, tendo apenas 0,01% de chance de ser um falso positivo.

Você automaticamentre entra em pânico (eu sei que eu entraria). Se o teste acerta 99,9% das vezes, a chance de você não estar doente é o quê? De 0,01%? Quais as chances de você ser 1 das 1000 pessoas que recebem o falso positivo?

Pois bem. Se você pensou que a chance de você estar doente é 99,9%, tenho uma boa notícia pra você: é muito, muito, MUITO menor do que isso. Na verdade, a chance que você tenha a doença após testar positivo é de apenas 0,1%. O resultado pode ser obtido por meio do Teorema de Bayes.

Mas, calma! Isso não significa que você é terrível em estatística ou que não faz bem o seu trabalho de pesquisa. O meu intuito aqui é mostrar que muitas vezes podemos cair em erros de raciocínio quando pensamos em situações matemáticas. O inimigo da vez, aqui, é um erro conhecido como falácia da taxa-base ou negligência da taxa-base.

Explicando a Falácia da Taxa-Base

No nosso exemplo anterior, a proporção de doentes na população (0.0001% da população) é o que chamamos de taxa-base ou probabilidade a priori. Essa proporção não deixa de existir só porque fizemos um teste — mas tendemos a ignorá-la mesmo assim ao tomarmos conhecimento da precisão do teste ou não sabemos incorporá-la adequadamente na probabilidade final.

A falácia da taxa-base é a tendência das pessoas de ignorar taxas-base em favor de, por exemplo, informação individuada (quando disponível), em vez de integrar ambas. Essa tendência tem implicações importantes para entender fenômenos de julgamento em diversos cenários sociais, legais e sócio-psicológicos. Maya BAR-HILLEL, 1980

Se você, assim como muitos de nós mero mortais, focou completamente na informação da precisão do teste e tirou as suas conclusões apenas em cima disso, você cometeu um erro estatístico muito conhecido: você negligenciou a taxa-base, isto é, a prevalência do que você queria analisar na população inicial.

Resumindo, você provavelmente ignorou ou subestimou o fato de estarmos falando de uma doença extremamente rara, que é um atributo que invariavelmente irá afetar a probabilidade de você ter ou não a doença. Isso porque a probabilidade de você ter a doença após ter feito o teste é uma probabilidade condicional, e deve ser calculada levando em conta a taxa-base.

A negligência da taxa-base foi popularizada inicialmente por Daniel Kahneman e Amos Tversky, uma dupla já conhecida no meio comportamental por estudar extensivamente diversos erros sistemáticos cometidos por nós em resolução de problemas.

Ao fazer previsões e julgamentos em situações de incerteza, as pessoas não parecem seguir o cálculo da probabilidade ou a teoria estatística da previsão. Em vez disso, elas dependem de um número limitado de heurísticas, que às vezes resultam em julgamentos razoáveis e, em outras ocasiões, levam a erros graves e sistemáticos.
Daniel Kahneman e Amos Tversky, 1972

Diante disso, é possível compreender como ignorar a taxa-base é mais um dos muitos vieses cognitivos que podemos cometer — embora sejamos ou não treinados em pesquisa científica e estatística.

Explorando Consequências e Exemplos

Esse erro pode ter consequências devastadoras. Tão devastadoras que, se 10 milhões de pessoas saudáveis fizessem esse mesmo exame do primeiro exemplo, 10 seriam diagnosticadas corretamente com a doença — enquanto aproximadamente 100.000 poderiam ser diagnosticados com a doença erroneamente (o que, é claro, é uma ótima razão para não fazer esse exame fictício na população saudável).

Quando temos mais testes falso-positivos do que testes corretamente positivos, acontece o que chamamos de paradoxo dos falso-positivos. O paradoxo é geralmente um exemplo contraintuitivo de como tendemos a subestimar falsos-positivos.

O paradoxo dos falso-positivos é uma preocupação extremamente real e contemporânea. Marc Sageman, psiquiatra americano e ex-oficial da CIA, recentemente mostrou o efeito desse paradoxo na detecção de terroristas neojihadistas, ilustrando como a raríssima frequência de terroristas na população geral poderia gerar uma grande quantidade de resultados falso-positivos.

Um outro exemplo visual, que se popularizou em algumas redes durante o período da pandemia, pode nos ajudar a ilustrar melhor a ideia da falácia da taxa-base e como isso pode afetar o julgamento em situações reais de tomadas de decisão.

Imagine que um hospital comece a verificar uma frequência parecida entre pessoas vacinadas e pessoas não-vacinadas. Isso poderia indicar, se ignorarmos a taxa-base de prevalência de pessoas vacinadas e não vacinadas na população, que pessoas vacinadas são hospitalizadas com mais frequência que pessoas não vacinadas. Uma pessoa não vacinada, diante dessa informação, poderia se sentir justificada em não tomar a vacina.

Illustratioin By Marc RumillyVectorization: Mrmw — Own work using: https://twitter.com/MarcRummy/status/1464178903224889345 Own work based on: Base rate fallacy with vaccines.jpg:, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=128814785

No entanto, olhando para a prevalência da população, fica claro que a taxa de hospitalização é muito maior em pessoas não vacinadas (no gráfico acima, é possivel ver que é 5x maior), pois a população vacinada é muito maior do que a população não vacinada. Com os dados fornecidos nesse gráfico, uma pessoa aleatória não vacinada tem 5 vezes mais chance de ser hospitalizada do que uma pessoa vacinada.

Muitos dos exemplos da negligência de taxa-base dizem respeito a testes e diagnósticos. A reportagem da BBC Os médicos compreendem resultados de testes?, por exemplo, ilustra como Gerd Gigerenzer, diretor emérito do Harding Center for Risk Literacy em Berlim, iniciou diversos workshops para mais de mil ginecologistas com a pergunta “Quantas mulheres que testam positivo realmente têm câncer de mama?” — e o resultado foi muitas vezes que a maior parte dos alunos cometia a falácia da taxa-base, o que já não é mais surpresa para nós.

O efeito atravessa diversas áreas, como finanças, machine learning e a psicologia (para mencionar apenas alguns).

Por que isso interessa à psicologia?

Em um paper de 1955 chamado Antecedent probability and the efficiency of psychometric signs, patterns, or cutting score, P. Meehle e A. Rosen já lamentavam como seus pares, psicólogos treinados, possuíam uma tendência em avaliar e diagnosticar com base na probabilidade do teste em si sem levar em conta as taxas-base.

Se tratando do psicodiagnóstico e da psicometria, sabemos que hoje, no Brasil, o teste psicológico é privativo do psicólogo (resolução 31/2022 do CFP). Isso significa que muitos de nós vivemos cotidianamente com a aplicação e criação de testes ou então, no caso da clínica, com pacientes em que foram aplicados testes em outros locais.

Pode ser muito importante fugir desses erros probabilísticos na hora de cometer julgamentos clínicos com base em diagnósticos. Por isso, é essencial também que o psicólogo clínico leve em conta a singularidade do caso e outros fatores que podem influenciar nos diagnósticos. Condições muito raras e testes aplicados às pressas devem ser analisados com cautela.

Recentemente, Weis e Waters (2023) ilustraram como a falácia da taxa-base pode afetar julgamentos psicológicos. No estudo, os pesquisadores aplicaram diversos questionários de auto-relato para detectar a presença de dificuldades de aprendizado. A prevalência (ou taxa-base) reportada das dificuldades de aprendizado é de aproximadamente 20% na população, similar ao número obtido ao aplicar o questionário sócio-demográfico.

No entanto, a grande maioria dos estudantes que não tinham dificuldades de aprendizado (90%) também pareciam possuir algum prejuízo significativo no aprendizado acadêmico segundo as escalas aplicadas, mesmo sem ter se identificado previamente como pessoas com dificuldades de aprendizado.

Como o estudo assume que a porcentagem dos alunos com dificuldades de aprendizado é minimamente similar à porcentagem encontrada em outros estudos, é extremamente improvável que 90% dos alunos em questão realmente tivessem dificuldades de aprendizado e necessitariam de toda a aparelhagem fornecida aos alunos com dificuldades.

Caso esses alunos fossem identificados erroneamente como pessoas com dificuldades de aprendizado, isso acarretaria em custos para o próprio estudante, para a instituição e outros estudantes indiretamente envolvidos com o custeio de atividades.

Os pesquisadores concluíram que profissionais que se baseiam apenas nos relatos dos estudantes para decidir se os mesmos possuíam alguma dificuldade de aprendizado estavam mais propensos a erros devido a falácia da taxa-base — pois atribuíam mais peso ao relato do estudante do que à frequência na população.

Psicologia e Aprendizado de Máquina

Um campo fértil e excitante de pesquisa em Psicologia que tem se tornado cada vez mais relevante é a aplicação de algoritmos de aprendizado de máquina (isto é, machine learning) na detecção e prevenção de problemas de natureza psicológica.

O campo do aprendizado de máquina pode ser definido como um conjunto de técnicas utilizadas que utilizam de dados (geralmente em larga escala) para melhorar a performance ou fazer predições. Assim como em inúmeras áreas, o aprendizado de máquina no campo da Psicologia tem se tornado cada vez mais comum. Um exemplo decorrente do aprendizado de máquina hoje conhecido por muitas pessoas é o ChatGPT.

Embora as pesquisa em aprendizado de máquina na área de saúde sejam sobretudo de caráter exploratório, algumas pesquisas demonstraram êxito criando modelos para identificar padrões de fala próprios da esquizofrenia (usando processamento de linguagem natural) e agrupar pessoas com e sem esquizofrenia em grupos a partir de posts do Reddit.

Peguemos portanto a esquizofrenia como objeto de pesquisa. Possuímos a informação de que, em 2020, nós teríamos cerca de 2 milhões da pacientes com esquizofrenia, o que representa 0,9% da população brasileira. Sendo portanto um fenômeno relativamente raro, podemos imaginar que um modelo de aprendizado de máquina que assume detectar esquizofrenia corre o risco de gerar um grande número de falso-positivos.

Agora imagine que um grupo de pessoas muito animado com esses resultados preliminares resolvesse aplicar esse modelo nas redes sociais utilizadas emtodo território nacional, por exemplo, com o objetivo de que essas pessoas recebessem acompanhamento psicológico e psiquiátrico. Isso poderia acarretar em muitos gastos desnecessários, pois existem grandes chances de que fossem gerados um grande número de falso-positivos.

Esse problema, é claro, não está confinado no aprendizado de máquina aplicado à Psicologia. Cientistas de dados utilizam uma ampla gama de métricas para evitar erros como a falácia da taxa-base, considerando a frequência de positivos corretos, falso-positivos, resultados corretos, entre outros.

No entanto, é sempre possível que, com a difusão e facilidade de aplicação de certos modelos de máquina, profissionais de saúde mental ávidos para aplicar esses conhecimentos não levem em consideração erros comuns de julgamento como a falácia da taxa-base. Por isso, esse texto tem o intuito de ajudar com que esses erros não sejam cometidos.

Conclusão

Diante da complexidade das decisões envolvendo probabilidades, quis destacar a importância de considerarmos a taxa-base, ou seja, a prevalência inicial de um fenômeno na população, ao interpretarmos resultados de testes e ao tomar decisões importantes. O exemplo do teste médico ilustra como a negligência da taxa-base pode levar a conclusões equivocadas, ressaltando a tendência humana de focar na precisão do teste em detrimento da probabilidade a priori.

A falácia da taxa-base, popularizada por Kahneman e Tversky, é discutida como um viés cognitivo que afeta julgamentos em diversas áreas, incluindo psicologia, saúde e aprendizado de máquina. O texto destaca as potenciais consequências devastadoras desse erro, como no caso do paradoxo dos falso-positivos, e como ele pode influenciar a tomada de decisões em situações clínicas, psicológicas e em aplicações de machine learning na detecção de problemas psicológicos.

É importante se atentar para a taxa-base ao interpretar dados e fazer julgamentos, especialmente em contextos onde a falácia da taxa-base pode impactar significativamente as decisões. Por essa razão, é essenciais que profissionais na área de saúde mental saibam sobre sobre os riscos associados à negligência dessa taxa-base, enfatizando a necessidade de uma abordagem cuidadosa e contextualizada na interpretação de informações probabilísticas.

Referências

Bar-Hillel, Maya. “The base-rate fallacy in probability judgments”. Acta Psychologica 44, nº 3 (1º de maio de 1980): 211–33. https://doi.org/10.1016/0001-6918(80)90046-3.

Jeong, Lydia, Melissa Lee, Ben Eyre, Aparna Balagopalan, Frank Rudzicz, e Cedric Gabilondo. “Exploring the Use of Natural Language Processing for Objective Assessment of Disorganized Speech in Schizophrenia.” Psychiatric Research and Clinical Practice 5, nº 3 (Fall de 2023): 84–92. https://doi.org/10.1176/appi.prcp.20230003.

Kahneman, Daniel, e Amos Tversky. “On the psychology of prediction.” Psychological Review 80, nº 4 (1973): 237–51. https://doi.org/10.1037/h0034747.

Meehl, Paul E., e Albert Rosen. “Antecedent probability and the efficiency of psychometric signs, patterns, or cutting scores”. Psychological Bulletin 52, nº 3 (1955): 194–216. https://doi.org/10.1037/h0048070.

Sageman, Marc. “The Implication of Terrorism’s Extremely Low Base Rate”. Terrorism and Political Violence 33, nº 2 (17 de fevereiro de 2021): 302–11. https://doi.org/10.1080/09546553.2021.1880226.

Weis, Robert, e Evelyn A. Waters. “Evidence-Based Accommodations for Postsecondary Students with Disabilities: Beware the Base Rate Fallacy”. Psychological Injury and Law 16, nº 2 (1º de junho de 2023): 213–26. https://doi.org/10.1007/s12207-023-09471-7.