O que o p-valor significa?

Desvendando o que p significa.

Published in

Datapsico

7 min readApr 5, 2021

O valor p, ou p-valor, é uma estatística muito conhecida em pesquisa quantitativa. Apesar de incorreto, é comum o pensamento de que o valor p indica se a pesquisa “deu certo” ou “deu errada”.

Para entender o valor p, vamos a um exemplo simples. Você quer avaliar se terapia com duração de seis meses teve efeito na saúde mental de 20 pessoas sofrendo de ansiedade. 20 pessoas são chamadas e seus níveis de ansiedade são avaliados antes de iniciar terapia. Essas mesmas 20 pessoas passam pelo processo terapêutico de seis meses, e seus níveis de ansiedade são novamente medidos. Você realiza um teste t-dependente para avaliar diferenças na ansiedade dessas pessoas antes e depois da terapia.

Sem entender corretamente a lógica do valor p, você poderia supor duas possibilidades:

Se p for menor que 0.05, isso significa que o efeito da intervenção existe. Terapia diminui ansiedade!
Se p é maior que 0.05, não se pode dizer que o efeito existe. Terapia não diminui ansiedade.

Após fazer o teste t-dependente, você recebe o resultado de que p = 0.01. Se p = 0.01, e 0.01 é menor que 0.05, p é menor que 0.05. Ou seja, a situação 1 foi contemplada. Você conclui, logo, que terapia diminui ansiedade.

No geral, essa lógica parece fazer sentido. Entretanto, como já mencionado, ela está errada.

A próxima frase explica de maneira completa o que se pode pensar desse valor de p, e ela será explicada de maneira mais detalhada ao longo do texto.

O correto seria afirmar o seguinte: em um mundo no qual não há diferenças entre ansiedade antes e depois da terapia, há uma probabilidade de 0.01 (1%) de que não haja diferenças entre ansiedade antes e depois da terapia, a partir dos dados que coletamos.

Nesse post, vamos entender exatamente o porquê disso.

O que o p significa?

A estatística p denota o seguinte:

A probabilidade de se encontrar os resultados encontrados em um mundo no qual a hipótese nula seja verdadeira.

Olha a loucura dessa frase. O que era pra ser só um resultado matemático virou uma questão filosófica, praticamente. Guarde bem essa frase, porque vamos voltar a ela logo mais.

Para entender essa frase por completo precisamos compreender o que é a hipótese nula. A hipótese nula é a hipótese inicial que temos em relação aos dados. Geralmente, tentamos desmentir a hipótese nula. Ou seja, a hipótese nula normalmente retrata que não existe uma relação no fenômeno medido. A hipótese nula geralmente recebe o apelido de H0.

Consegue estimar qual a hipótese nula no exemplo já mencionado?

No nosso exemplo, a H0 é de que não há diferenças na ansiedade antes e depois da terapia.

Nesse mesmo exemplo, quando avaliamos diferenças na ansiedade antes e depois da terapia, p foi igual a 0.01. Pois bem, agora podemos finalmente entender o que significa, por completo, o nosso p = 0.01.

Voltando ao exemplo…

Sabemos pela definição de p que o valor 0.01 se refere a uma probabilidade. Nesse caso, 0.01 é igual a 1% (isso porque 0.01 = 1/100).

Ou seja, seguindo a definição que demos acima de p, há uma probabilidade de 1% de encontrarmos o resultado que encontramos em um mundo no qual não há diferenças na ansiedade antes e depois da terapia.

Ao explicar o exemplo, lembra que chegamos a uma conclusão lá em cima a respeito do p = 0.01? A conclusão foi a de que terapia diminui ansiedade. Isso não é verdade por causa do que o p significa.

Qual seria o correto então? Já demos a resposta lá em cima, porém vamos repeti-la.

O correto seria afirmar o seguinte: há uma probabilidade de 1% de que não haja diferenças entre ansiedade antes e depois da terapia, a partir dos dados que coletamos, em um mundo no qual não há diferenças entre ansiedade antes e depois da terapia.

Geralmente, antes de se calcular o p, se estabelece o valor mínimo que vamos aceitar para legitimar a hipótese nula. Esse valor é geralmente 0.05 nas ciências sociais. Ou seja, a partir de 5% de probabilidade, nós temos dados que corroboram a nossa hipótese alternativa (esse valor é chamado de alfa, ou α).

Entendendo a importância da hipótese alternativa

Considerando o 5% anterior, a hipótese alternativa, também conhecida como H1, é a hipótese que desejamos aceitar caso p seja igual ou abaixo desse valor. Nunca se deve confirmar a hipótese alternativa, apenas corroborar, legitimar, respaldar ou apoiar.

Apesar de não ter sido explícito no nosso exemplo, a hipótese alternativa era de que terapia teria efeito na ansiedade. Veja que a hipótese alternativa, nesse caso, é o oposto da hipótese nula. Enquanto a hipótese nula geralmente afirma não haver efeito, na maioria das vezes a hipótese alternativa fala sobre haver efeito.

É importante perceber uma coisa super delicada, que pode ser difícil de compreender a princípio. A probabilidade p refere-se à probabilidade de encontrar o resultado encontrado em um mundo onde a hipótese nula é verdadeira. É por isso que nós não podemos confirmar a hipótese alternativa. Isso porque a estatística p está relacionada ao mundo hipotético no qual essas diferenças não existem. Nós estamos sempre testando a probabilidade de não existir diferenças. Nós não possuímos nenhuma estimativa relacionada ao mundo no qual essa diferença realmente exista.

É por esses motivos que a hipótese alternativa deve ser feita antes de se realizar o teste de hipóteses. Se criamos uma hipótese alternativa antes de realizarmos a análise, quando nosso p é abaixo de 5% (ou do valor estimado de α), nós podemos corroborar a hipótese alternativa. Se criamos uma hipótese alternativa após a análise, é fácil de querer manipular a hipótese alternativa para uma que faça mais sentido aos resultados. Isso é errado e antiético, e possui um nome: HARKing; em tradução livre, hipotetizar após o conhecimento dos resultados.

Para entender p, basta entender a hipótese nula e a alternativa

Com tudo o que foi dito, talvez fique nítido o seguinte: para entender p, basta entender qual a hipótese nula e qual a hipótese alternativa do teste. Por que isso é importante? Porque é simplório e muito limitante pensar “p abaixo de 0.05 é bom e p acima de 0.05 é ruim.”

Essa lógica

Eu havia dito anteriormente que, geralmente, a hipótese nula retrata a falta de efeito. Isso é verdade. Enquanto na maioria dos casos isso acontece, isso não é comum em todas análises estatísticas.

A análise de Shapiro-Wilk, por exemplo, busca entender se há normalidade nos dados. Nesse teste, as hipóteses são as seguintes:

H0. Há normalidade.

H1. Não há normalidade.

Ora, geralmente o que queremos nesse teste é aceitar a H0 para poder utilizar testes paramétricos. Logo, p maior que 0.05 seria “bom”; falando de maneira mais acurada, p maior que 0.05 indicaria a normalidade dos dados.

Outro exemplo ótimo para entender a necessidade de compreender a hipótese nula e alternativa é o caso do teste de equivalência, explicado em detalhes nesse post.

H0. Há uma diferença com tamanho de efeito pelo menos igual a x (x é um número escolhido).

H1. Não há diferença com tamanho de efeito pelo menos igual a x (x é um número escolhido).

Nesse caso, se o resultado é não significativo, temos evidências que apontam para uma diferença que “é significativamente importante para levarmos em consideração, dado o menor tamanho de efeito de interesse”. O teste de equivalência é muito útil quando possuímos, por exemplo, um número amostral pequeno. Isso porque, lembrando, se o número amostral for pequeno, é difícil termos um p muito pequeno ou significativo.

Uma tabela para ajudar

Entender o que o p significa pode ser difícil, especialmente no início dos estudos em estatística. Essa parte de inferência estatística requer, como vimos nesse post, uma imaginação fértil. Isso porque temos que imaginar um mundo no qual a hipótese nula seja verdadeira, para daí testarmos isso e, caso tenhamos uma hipótese alternativa e p for menor que α, corroborar a H1. UFA, QUANTA COISA!

Essa tabela abaixo pode ajudar um pouco mais (nota-se que o alfa escolhido foi de 0.05, mas ele bem poderia ser de 0.1 ou até 0.001).

O problema de p

O grande problema associado ao p é de que o seu valor tende a ficar pequeno com um número amostral grande. Quando temos muitas pessoas e fazemos testes de hipótese, nosso p pode ficar bem pequeninho, indicando uma probabilidade minúscula de obter os resultados obtidos em um mundo no qual a H0 seja verdadeira.

Assim, um valor de p muito pequeno não significa um efeito grande. Já que o cálculo de p é sensível a um número amostral grande, qualquer efeito seria significativo com mais de 1000 pessoas (essa é uma afirmação abrangente, obviamente).

Tamanho de efeito e significância estatística (medida pelo p) são coisas diferentes. Dessa forma, um p menor que 0.05 já é o suficiente para corroborarmos a hipótese alternativa, esquecer o p a partir daí, e ir para o cálculo específico que mede o tamanho desse efeito.

Outra coisa interessante de se fazer é pesquisar sobre testes de hipótese bicaudais e unicaudais. No exemplo dado, se a H1 fosse de que terapia diminui a ansiedade (e esse resultado fosse apontado na análise), poderíamos dividir o valor de p por 2, obtendo p = 0.005. Ou seja, nosso teste seria um pouco mais robusto. Mas isso já é assunto para outro post.

Contato

Espero que tenha gostado! Qualquer dúvida, observação ou comentário são muito bem-vindos! Fique à vontade para se manifestar e vamos aprender juntos 😄

Para falar comigo, é só entrar em qualquer um desses links.