Estatística para pessoas com pressa

Traduzido por Thomas Chi do original por Cassie Kozyrkov

Você gostaria se alguém te dissesse qual a finalidade da estatística e o que o jargão significa em português simples? Deixe-me tentar realizar esse desejo! Eu abordarei todas as principais ideias em estatística em 8 minutos! Ou apenas 1 minuto, se você se ater aos pontos com fontes grandes.

O que é estatística? É qualquer forma antiga de misturar todos seus dados. Sim. Tecnicamente, definição 100% correta. Agora vejamos tudo o que a disciplina de estatística aborda.

Estatística é a ciência para mudar sua opinião.

Fazer decisões com base em fatos (parâmetros) é difícil o suficiente por si só. Mas — maldições! — algumas vezes, nós não temos nem os fatos que precisamos. Pelo contrário, o que sabemos (nossa amostra) é diferente do que gostaríamos de saber (nossa população). Isso é o que significa ter incerteza.

Estatística é a ciência para mudar sua opinião sob incerteza. O que pode definir sua opinião? Uma ação padrão ou uma crença anterior. E se opinião estiver em branco? Leia este artigo.

Bayesianos trocam de opinião sobre suas crenças.

Estatística Bayesiana é uma escola de pensamento que lida com a incorporação de dados para atualizar suas crenças. Bayesianos gostam de divulgar resultados com base em intervalos de credibilidade (dois números que são interpretados como “Acredito que a resposta está entre aqui e aqui”).

Frequencistas mudam de opinião sobre ações.

Estatística de Freqüência lida com mudar de opinião sobre ações. Você não precisa ter uma crença para ter uma ação padrão, é simplesmente o que você tem compromisso de fazer se você não analisar qualquer dado. Estatística frequencista (conhecido como clássico) é a que você encontrará com mais regularidade por aí e em sua classe de estatística básica, logo, vamos chamá-la de clássica para o resto deste artigo.

Hipóteses são descrições sobre como o mundo deve parecer.

A hipótese nula descreve todos os mundos onde fazer a ação padrão é a escolha mais feliz; a hipótese alternativa é todos os outros mundos. Se eu te convenci — com dados! — que você não vive o mundo da hipótese nula, então é melhor você mudar de opinião e tomar uma ação de decisão alternativa.

Por exemplo: “Nós podemos caminhar para a aula juntos (ação padrão) se, habitualmente, você leva menos de 15 minutos para ficar pronto (hipótese nula), mas se as evidências (dados) sugerem que você leva mais tempo (hipótese alternativa), você pode ir sozinho porque eu estou fora (ação de decisão alternativa).”

Teste em poucas palavras: “Sua evidência torna a hipótese nula ridícula?”

Tudo sobre teste de hipótese é sobre questionar: a sua evidência torna a hipótese nula parecer ridícula? Rejeitar a hipótese nula significa que aprendemos algo e devemos mudar de opinião. Não rejeitar a hipótese nula significa que nada aprendemos de interessante, é igual a sair para fazer uma trilha e não encontrar humanos não prova que não existam humanos no planeta. Isso apenas significa que não aprendemos nada interessante sobre a existência dos humanos. Você fica triste quando você não aprende nada? Isso não deveria te afetar, porque você tem uma adorável apólice de seguro: você sabe exatamente que ação tomar. Se você nada aprendeu, você não tem motivos para mudar de ideia, então continue com a ação padrão.

Logo, como sabemos se aprendemos algo interessante, algo diferente do mundo no qual queremos manter a ação padrão? Para obter a resposta, podemos olhar o valor-p ou o intervalo de confiança.

O valor-p está na tabela periódica: é o elemento surpresa.

O valor-p diz, “Se estou vivendo em um mundo onde eu deveria tomar a ação padrão, quão esperada é a minha evidência?” Quanto menor o valor-p, mais você pede por dados. “Opa, isso é surpreendente, talvez você deveria mudar de ideia!”

Para fazer um teste, compare o valor-p com um limite chamado nível de significância. Este é um recurso que você pode usar para controlar quanto risco você quer tolerar. É sua probabilidade máxima de deixar de forma estúpida a sua confortável ação padrão. Se você define o nível de significância a zero, isso significa que você se recusa cometer erro de sair da ação padrão incorretamente. Anote isso! Não analise os dados, apenas tome a ação padrão. (Mas isso significa que você pode terminar de forma estúpida SEM tomar uma ação padrão ruim.)

Como usar valores-p para obter o resultado do seu teste de hipótese. (Ninguém suspeitará que meu xkcd é falso.)

Um intervalo de confiança é uma forma simples de relatar seus resultados do teste de hipóteses. Para usá-lo, verifique se ele sobrepõe-se à hipótese nula. Se ele se sobrepor, nenhum aprendizado. Se negativo, mude de ideia.

Apenas mude de ideia se seu intervalo de confiança não se sobrepor à sua hipótese nula.

Enquanto o significado técnico de intervalo de confiança é um pouco estranho (Eu explicarei em um post futuro, não é definitivamente simples como intervalo de confiança que conhecemos anteriormente e ter esperança não ajuda), ele tem duas propriedades úteis que os analistas acham prestativas na descrição dos dados: (1) o melhor chute sempre estará nele e (2) é mais restrito quando há mais dados. Atenção que ambos e o valor-p não foram projetados para serem bons para se comentar, logo não espere uma definição enérgica. Eles são apenas formas de resumir resultados de testes. (Se você assistiu aulas e achou que as definições eram impossíveis de lembrar, esse é o motivo. Em nome da estatística: não é você, sou eu.)

Qual é o ponto? Se você faz seus testes da forma como descrevi, a matemática garante que seu risco de cometer um erro é limitado no nível de significância que você escolher (que é o motivo pelo qual você deve escolhê-lo… a matemática está lá para garantir que você escolheu o nível de risco, que é sem sentido se você não se importa em escolhê-los ).

A matemática é sobre construir um modelo do universo da hipótese nula. É assim que você obterá o valor-p.
A matemática é sobre fazer e examinar universos (quão legal que é isso, amigos megalomaníacos? Muito legal!) e ver quão provável eles resultam em bases de dados como as suas. Se seu modelo do universo de hipótese nula é improvável de trazer dados como os dados que você obteve do mundo real, seu valor-p será baixo e você terminará rejeitando a hipótese nula… mude de ideia!

O que é isso com todas aquelas fórmulas malucas, aquelas probabilidades e distribuições? Eles nos permitem expressar as regras que governam o universo de hipótese nula para que possamos identificar se aquele universo é um tipo de lugar que expele dados similares aos vistos na vida real. E se não for, você gritará: “Ridículo! Sai fora!”. E se for o caso, você dá de ombros e nada aprendeu. Mais sobre isso em um post futuro. Por agora, apenas pense na matemática de como construir um pequeno mundo para podermos atiçar de forma que possamos ver se os nossos dados parecem razoáveis. O valor-p e o intervalo de confiança são formas de resumir tudo que para você não precisa fechar rapidamente em uma descrição do universo muito prolixa. Eles são o final do jogo: utilize-os para ver se você mantém ou não a sua ação padrão. Trabalho concluído!

Você fez sua lição de casa? Essas são as medidas poderosas.

Espere um pouco, nós fizemos a lição de casa para assegurar que nós coletamos evidências suficientes para darmos um bom chute para trocarmos de opinião? Esse é o conceito de medidas poderosas. É muito fácil não encontrar nenhuma evidência para mudar de ideia… apenas não vá procurar por ela. Quanto mais poder você tem, mais oportunidades você dá para mudar de ideia se é a coisa certa a fazer. Poder é a probabilidade de corretamente deixar sua ação padrão.

Quando nada aprendemos e mantemos o que estávamos fazendo, nós podemos nos sentir melhores sobre nosso processo se acontecer com muito poder. Pelo menos, fizemos a lição de casa. Se nós tivermos quase nenhum poder, nós sabíamos que não iríamos mudar de opinião. Talvez, nem vale a pena gastar tempo analisando dados.

Use análises poderosas para verificar se você obteve dados suficientes antes de começar.

Análise poderosa é uma forma de verificar quanto poder você espera de uma certa base de dados. Você pode usá-la para planejar seus estudos antes de começar. (É bem fácil também; em um post futuro, mostrarei que bastam alguns for loops.)

Incerteza significa que você pode chegar à conclusão errada, mesmo que você tiver a melhor matemática do mundo.

O que não é estatística? Mágica que traz certeza da incerteza. Não há mágica que pode fazer isso; você ainda pode cometer erros. Falando de erros, aqui temos dois erros que você pode cometer na estatística de freqüência. (Bayesianos não cometem erros. Brincadeirinha! Bem, mais ou menos. Fiquem ligados para o meu post sobre Bayesianos.)

Erro do tipo I é manter sua ação padrão de forma estúpida. Você disse estar confortável com a ação padrão e agora, graças à sua matemática você deixou assim. Ai! Erro do tipo II é não manter sua ação padrão de forma estúpida. (Nós, estatísticos, somos muito criativos em nomear as coisas. Adivinhe qual erro é pior. Tipo I? Sim. Muito criativo.)

Erro do tipo I é mudar sua ideia quando você não deveria.
Erro do tipo II é NÃO mudar sua ideia quando você deveria.

Erro do tipo I é como condenar um inocente e o Erro do tipo II é como falhar em condenar um culpado. Estes dois erros de probabilidades estão em equilíbrio (fazer mais fácil condenar um culpado também faz mais fácil condenar um inocente), a não ser que você consiga mais evidências(dados!), cujo caso ambos erros se tornam menos prováveis e tudo se torna melhor. Por isso que estatísticos querem que você tenha muito, muito, MAIS dados! Tudo se torna melhor quando você tem mais dados.

Mais dados significa mais proteção contra chegar a conclusão errada.

O que é a correção das comparações múltiplas? Você precisa fazer seus testes de uma forma diferente e ajustada se você sabe que planeja fazer múltiplas perguntas para a mesma base de dados. Se você continuar a manter inocentes suspeitos no julgamento de forma contínua (se você continuar pescando em seus dados), eventualmente algo parecerá culpado por um acidente aleatório. O termo estatisticamente significante não significa que algo importante aconteceu no ponto de vista do universo. Isso significa apenas que mudamos de ideia. Talvez de forma incorreta. Maldita incerteza!

Não gaste seu tempo vigorosamente respondendo a pergunta errada. Aplique estatística inteligentemente (e apenas quando necessário).

O que é o Erro do tipo III? É um tipo de piada em estatística: se refere à rejeição correta de uma hipótese nula errada. Em outras palavras, usar a matemática correta para responder a pergunta errada.

Um remédio para perguntar e responder a pergunta errada pode ser encontrado em Engenharia de Inteligência na Decisão, uma nova disciplina que olha para ciência de dados aplicada para resolver problemas de negócios e tomar boas decisões. Ao dominar inteligência na decisão, você cria imunidade para os erros do tipo 3 e análises inúteis.

Em suma, estatística é a ciência de mudar de ideia. Há duas escolas de pensamento. A mais popular — Estatística de Freqüência — é sobre verificar se você deve manter sua ação padrão. Estatística Bayesiana é sobre ter uma opinião anterior e atualizar a opinião com dados. Se sua ideia está indefinida antes de começar, olhe para seus dados e siga seu instinto.

Aprenda mais sobre ciência de dados e inteligência artificial em português.