O que é p-valor e quando utilizá-lo
Entenda para que serve o famoso p-value e como usar
Você já se deparou com o famoso valor-p — do inglês p-value? Basicamente, p-value “é a probabilidade de se obter uma estatística de teste igual ou mais extrema que aquela observada em uma amostra, sob a hipótese nula” — Wikipedia. Nesse post vamos explicar o que é esse conceito utilizado na estatística e quando usamos o p-valor, conceito fundamental na tomada de decisão.
Primeiro de tudo, você precisa se situar dentro do contexto em que o p-value é utilizado. Portanto, seja bem-vindo à tomada de decisão.
Um pouco de contexto
Na história do povo hebreu, conta-se que duas mulheres contendiam, pois as duas eram mães, moravam sob o mesmo teto e tiveram filhos com apenas três dias de diferença. Ocorreu que uma delas acusava a outra, dizendo que esta deitara-se sobre o próprio filho durante a noite e este veio a falecer. Com isso, astutamente trocou o filho morto pelo vivo que repousava junto ao seio de sua mãe.
Ao Rei Salomão, que era uma espécie de outlier, dotado de extrema sabedoria concedida pelo Divino, que pedira a Deus sabedoria e não riquezas, foi levada a causa dessas duas mães para julgamento. Ao ouvir as mulheres, Salomão decidira passar a espada e dividir o menino em dois, sendo cada parte dada à cada uma das mulheres. Diante de tal decisão a verdadeira mãe, por óbvio, movida pelo extinto materno clama para que viva o menino sob a posse da outra, ao passo que a segunda afirma “nem teu nem meu seja, antes dividi o menino”.
Estava ali clara a decisão a ser tomada pelo Rei: de dar a posse à verdadeira mãe do menino, aquela que pedira pela vida do menino.
In God we Trust, all others bring data. (Willian Deming)
Se você não é dotado de extrema sabedoria divina para tomar decisão, chances muito grandes de que você recorrerá à estatística para tal. Para chegarmos ao valor de p, devemos primeiro passar por alguns outros conceitos úteis que vão nos ajudar a entender o contexto em que é utilizado.
Estamos falando de testes de hipóteses. Tema que ocupa o centro da estatística inferencial.
O estatístico é um dos profissionais que mais erra
Com licensa poética para afirmar isso, por mais contra-intuitivo que seja, o estatístico trabalha com erro. Assim, vamos por um breve momento despir o nobre Rei de toda sua sabedoria e levá-lo a avaliar a situação tal qual fazem os estatísticos.
O que se espera do Rei é que decida corretamente quem é a verdadeira mãe do menino vivo. Consequentemente, o rei estará diante de duas hipóteses, onde não por acaso, vamos chamá-las de hipótese nula (H0) e hipótese alternativa (H1). Assim também é na estatística, por falta de criatividade mesmo. O Rei gostaria de decidir entre:
H0: a mãe 1 é a verdadeira mãe do menino; contra
H1: a mãe 1 não é a verdadeira mãe do menino.
Ora, sem o seu dom divino, como simples mortal, o Rei se sujeitaria a quatro situações:
i) Dizer que a mãe 1 não é a verdadeira mãe do menino quando, de fato, ela é (cometeria o que se chama Erro do tipo I);
ii) Dizer que a mãe 1 é a verdadeira mãe do menino quando de fato ela é (sem erro);
iii) Dizer que a mãe 1 não é a verdadeira mãe do menino quando, de fato, ela não é (sem erro);
iv) Dizer que a mãe 1 é a verdadeira mãe do menino, quando de fato, ela não é (cometeria o erro tipo II);
Note que há duas possibilidades de se cometer erro na tomada de decisão. Caso venha a rejeitar H0 e H0 for de fato verdadeira, comete-se o erro do Tipo I.
Quando não se rejeita H0, e H0 é falsa, comete-se o erro do Tipo II.
Na situação ideal, o Rei gostaria que houvesse uma probabilidade muito pequena de se cometer o erro do tipo I, digamos 1%, apenas para exemplificar.
Observe que os erros do Tipo I e do Tipo II não tem probabilidades complementares. Isto é, essas probabilidades não somam 1. Portanto esses erros não têm uma relação direta. A probabilidade de se cometer o erro do tipo I normalmente é arbitrária. Assim o Rei teria liberdade para controlar essa probabilidade em valores bem baixos.
Esse é um aspecto interessante estabelecido pelos estatísticos. Entretanto nada se pode fazer a respeito da probabilidade de se cometer o erro do tipo II.
Conquanto não seja controlável o erro do tipo II, veja que o evento complementar ao erro do tipo II é bem interessante: dizer que a mãe 1 não é a verdadeira mãe quando, de fato, ela não é. Ou seja, essa é uma decisão correta.
Dizemos que a probabilidade de se cometer o erro do tipo I é alfa; chamamos a essa probabilidade de nível de significância do teste; A probabilidade de se cometer o erro do tipo II chamamos de beta, logo a probabilidade 1-beta é a probabilidade de uma decisão correta que afirmamos anteriormente. Por isso essa probabilidade é chamada de poder do teste.
Normalmente queremos alfa pequena conjugada com um alto poder, isto é, alta probabilidade de se tomar uma decisão correta (nem sempre isso é possível).
Nível Descritivo do Teste (p-valor)
Agora entra em jogo o que tecnicamente se chama de nível descritivo do teste ou, como é conhecido nas altas rodas de samba: o p-value.
Agora que você já conhece algumas probabilidades associadas aos testes de hipóteses, vamos deixar um pouco o Rei de lado e imaginar que suas decisões são baseadas na boa técnica de amostragem.
Em continuidade, você recorre à uma amostra estatisticamente construída para a tomada de decisão por meio de um teste de hipóteses.
Lembre-se de que o nível de significância é um valor arbitrado em valores bem pequenos.
Imagine que você está testando um valor para uma proporção. O seu teste de hipóteses se baseará em uma estatística de teste, obtida a partir de uma amostra.
Vamos recorrer ao famoso exemplo da estação de televisão dos professores Bussab e Morettin.
Uma estação de televisão afirma que 60% dos televisores estavam ligados no seu programa especial da última segunda feira.
Desse modo uma rede competidora deseja contestar essa afirmação e decide usar uma amostra de 200 famílias para um teste. Talvez fosse plausível testar a hipótese de que a proporção verdadeira dos televisores é igual a 60% (H0) contra a hipótese alternativa de que essa proporção é menor (H1).
Para simplificar e não entediar você com os cálculos e a teoria por traz de tudo isso, uma vez fixado o valor de alfa, com base na amostra se estabelece uma região crítica.
Digamos que desconfiamos da afirmação de que a audiência era de 60% dos televisores e afirmamos que essa audiência é menor.
Suponha que a amostra de 200 famílias seja realizada e se verifique que 104 dessas famílias deram audiência ao programa especial. Com isso, ao fixar alfa=5% chega-se à conclusão de que qualquer amostra com proporção inferior a 54% nos leva à rejeição de que a audiência foi de 60%.
Com o valor-p o procedimento prático é calcular a probabilidade de se obter uma proporção muito mais desfavorável à hipótese nula do que aquela observada na amostra.
Desse modo, calculando-se essa probabilidade para a amostra em questão, chegamos à conclusão de que a probabilidade é de apenas 1% de se obter uma proporção menor que 104/200 = 52%, quando se supõe que a audiência verdadeira é de 60%.
Portanto o p-valor em questão foi de 1%, portanto se consideramos que a verdadeira audiência é de 60% é muito raro de se obter uma amostra com audiência menor ou igual a 52%.
Assim temos uma forte evidência estatística de que a verdadeira proporção é inferior a 60%. Logo, rejeitarmos H0 e somos levados em direção da hipótese alternativa.
Conclusão
Pelo todo exposto fica claro que o p-valor é usado no contexto da tomada de decisão. Ao lado do nível de significância, probabilidade de erro do tipo II e do poder do teste é mais uma probabilidade associada aos testes de hipóteses estatísticas.
A estatística se destaca por oferecer ferramentas científicas e metodologias consagradas na tomada de decisão.
É uma ferramenta indispensável para analistas, cientistas de dados, engenheiros e qualquer profissão com orientação à cultura data-driven.
REFERÊNCIA: Bussab W.O. e Morettin P.A., Estatística Básica, Saraiva, São Paulo, 9ed, 2017.
Conheça mais sobre Anselmo https://estatisticaparaconcurso.com