O que é p-valor e quando utilizá-lo

Entenda para que serve o famoso p-value e como usar

Published in

Data Hackers

7 min readFeb 5, 2021

A curva de Gaus — Estatística -Anselmo Alves — A Famosa curva de Gauss — Canva

Você já se deparou com o famoso valor-p — do inglês p-value? Basicamente, p-value “é a probabilidade de se obter uma estatística de teste igual ou mais extrema que aquela observada em uma amostra, sob a hipótese nula” — Wikipedia. Nesse post vamos explicar o que é esse conceito utilizado na estatística e quando usamos o p-valor, conceito fundamental na tomada de decisão.

Primeiro de tudo, você precisa se situar dentro do contexto em que o p-value é utilizado. Portanto, seja bem-vindo à tomada de decisão.

Um pouco de contexto

Na história do povo hebreu, conta-se que duas mulheres contendiam, pois as duas eram mães, moravam sob o mesmo teto e tiveram filhos com apenas três dias de diferença. Ocorreu que uma delas acusava a outra, dizendo que esta deitara-se sobre o próprio filho durante a noite e este veio a falecer. Com isso, astutamente trocou o filho morto pelo vivo que repousava junto ao seio de sua mãe.

Ao Rei Salomão, que era uma espécie de outlier, dotado de extrema sabedoria concedida pelo Divino, que pedira a Deus sabedoria e não riquezas, foi levada a causa dessas duas mães para julgamento. Ao ouvir as mulheres, Salomão decidira passar a espada e dividir o menino em dois, sendo cada parte dada à cada uma das mulheres. Diante de tal decisão a verdadeira mãe, por óbvio, movida pelo extinto materno clama para que viva o menino sob a posse da outra, ao passo que a segunda afirma “nem teu nem meu seja, antes dividi o menino”.

Estava ali clara a decisão a ser tomada pelo Rei: de dar a posse à verdadeira mãe do menino, aquela que pedira pela vida do menino.

In God we Trust, all others bring data. (Willian Deming)

Se você não é dotado de extrema sabedoria divina para tomar decisão, chances muito grandes de que você recorrerá à estatística para tal. Para chegarmos ao valor de p, devemos primeiro passar por alguns outros conceitos úteis que vão nos ajudar a entender o contexto em que é utilizado.

Estamos falando de testes de hipóteses. Tema que ocupa o centro da estatística inferencial.

O estatístico é um dos profissionais que mais erra

Com licensa poética para afirmar isso, por mais contra-intuitivo que seja, o estatístico trabalha com erro. Assim, vamos por um breve momento despir o nobre Rei de toda sua sabedoria e levá-lo a avaliar a situação tal qual fazem os estatísticos.

O que se espera do Rei é que decida corretamente quem é a verdadeira mãe do menino vivo. Consequentemente, o rei estará diante de duas hipóteses, onde não por acaso, vamos chamá-las de hipótese nula (H0) e hipótese alternativa (H1). Assim também é na estatística, por falta de criatividade mesmo. O Rei gostaria de decidir entre:

H0: a mãe 1 é a verdadeira mãe do menino; contra

H1: a mãe 1 não é a verdadeira mãe do menino.

Ora, sem o seu dom divino, como simples mortal, o Rei se sujeitaria a quatro situações:

i) Dizer que a mãe 1 não é a verdadeira mãe do menino quando, de fato, ela é (cometeria o que se chama Erro do tipo I);

ii) Dizer que a mãe 1 é a verdadeira mãe do menino quando de fato ela é (sem erro);

iii) Dizer que a mãe 1 não é a verdadeira mãe do menino quando, de fato, ela não é (sem erro);

iv) Dizer que a mãe 1 é a verdadeira mãe do menino, quando de fato, ela não é (cometeria o erro tipo II);

Note que há duas possibilidades de se cometer erro na tomada de decisão. Caso venha a rejeitar H0 e H0 for de fato verdadeira, comete-se o erro do Tipo I.

Quando não se rejeita H0, e H0 é falsa, comete-se o erro do Tipo II.

estatística-professor-anselmo — Estatística — Canva

Na situação ideal, o Rei gostaria que houvesse uma probabilidade muito pequena de se cometer o erro do tipo I, digamos 1%, apenas para exemplificar.

Observe que os erros do Tipo I e do Tipo II não tem probabilidades complementares. Isto é, essas probabilidades não somam 1. Portanto esses erros não têm uma relação direta. A probabilidade de se cometer o erro do tipo I normalmente é arbitrária. Assim o Rei teria liberdade para controlar essa probabilidade em valores bem baixos.

Esse é um aspecto interessante estabelecido pelos estatísticos. Entretanto nada se pode fazer a respeito da probabilidade de se cometer o erro do tipo II.

Conquanto não seja controlável o erro do tipo II, veja que o evento complementar ao erro do tipo II é bem interessante: dizer que a mãe 1 não é a verdadeira mãe quando, de fato, ela não é. Ou seja, essa é uma decisão correta.

Dizemos que a probabilidade de se cometer o erro do tipo I é alfa; chamamos a essa probabilidade de nível de significância do teste; A probabilidade de se cometer o erro do tipo II chamamos de beta, logo a probabilidade 1-beta é a probabilidade de uma decisão correta que afirmamos anteriormente. Por isso essa probabilidade é chamada de poder do teste.

Normalmente queremos alfa pequena conjugada com um alto poder, isto é, alta probabilidade de se tomar uma decisão correta (nem sempre isso é possível).

Nível Descritivo do Teste (p-valor)

Agora entra em jogo o que tecnicamente se chama de nível descritivo do teste ou, como é conhecido nas altas rodas de samba: o p-value.

Agora que você já conhece algumas probabilidades associadas aos testes de hipóteses, vamos deixar um pouco o Rei de lado e imaginar que suas decisões são baseadas na boa técnica de amostragem.

Em continuidade, você recorre à uma amostra estatisticamente construída para a tomada de decisão por meio de um teste de hipóteses.

Lembre-se de que o nível de significância é um valor arbitrado em valores bem pequenos.

Imagine que você está testando um valor para uma proporção. O seu teste de hipóteses se baseará em uma estatística de teste, obtida a partir de uma amostra.

Vamos recorrer ao famoso exemplo da estação de televisão dos professores Bussab e Morettin.

Uma estação de televisão afirma que 60% dos televisores estavam ligados no seu programa especial da última segunda feira.

Desse modo uma rede competidora deseja contestar essa afirmação e decide usar uma amostra de 200 famílias para um teste. Talvez fosse plausível testar a hipótese de que a proporção verdadeira dos televisores é igual a 60% (H0) contra a hipótese alternativa de que essa proporção é menor (H1).

Para simplificar e não entediar você com os cálculos e a teoria por traz de tudo isso, uma vez fixado o valor de alfa, com base na amostra se estabelece uma região crítica.

Digamos que desconfiamos da afirmação de que a audiência era de 60% dos televisores e afirmamos que essa audiência é menor.

Suponha que a amostra de 200 famílias seja realizada e se verifique que 104 dessas famílias deram audiência ao programa especial. Com isso, ao fixar alfa=5% chega-se à conclusão de que qualquer amostra com proporção inferior a 54% nos leva à rejeição de que a audiência foi de 60%.

Com o valor-p o procedimento prático é calcular a probabilidade de se obter uma proporção muito mais desfavorável à hipótese nula do que aquela observada na amostra.

Desse modo, calculando-se essa probabilidade para a amostra em questão, chegamos à conclusão de que a probabilidade é de apenas 1% de se obter uma proporção menor que 104/200 = 52%, quando se supõe que a audiência verdadeira é de 60%.

Portanto o p-valor em questão foi de 1%, portanto se consideramos que a verdadeira audiência é de 60% é muito raro de se obter uma amostra com audiência menor ou igual a 52%.

Assim temos uma forte evidência estatística de que a verdadeira proporção é inferior a 60%. Logo, rejeitarmos H0 e somos levados em direção da hipótese alternativa.

Conclusão

Pelo todo exposto fica claro que o p-valor é usado no contexto da tomada de decisão. Ao lado do nível de significância, probabilidade de erro do tipo II e do poder do teste é mais uma probabilidade associada aos testes de hipóteses estatísticas.

A estatística se destaca por oferecer ferramentas científicas e metodologias consagradas na tomada de decisão.

É uma ferramenta indispensável para analistas, cientistas de dados, engenheiros e qualquer profissão com orientação à cultura data-driven.

REFERÊNCIA: Bussab W.O. e Morettin P.A., Estatística Básica, Saraiva, São Paulo, 9ed, 2017.

Conheça mais sobre Anselmo https://estatisticaparaconcurso.com