Análise de Variância (ANOVA) one-way e Tukey usando R

Amanda Munari Guimarães
omixdata
Published in
5 min readAug 18, 2019

A Análise de Variância (ANOVA) é um teste estatístico chave e muito útil para análise de datasets em diversas áreas do conhecimento, principalmente nas áreas que intersectam as biológicas. A análise visa, fundamentalmente, verificar se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente. A verificação da existência de uma diferença significativa permite que vários grupos sejam comparados a um só tempo. Ou seja, a Análise de Variância é utilizada quando se quer decidir se as diferenças amostrais observadas são reais (causadas por diferenças significativas nas populações observadas) ou casuais (decorrentes da mera variabilidade amostral).

Portanto, essa análise parte do pressuposto que o acaso só produz pequenos desvios, sendo as grandes diferenças geradas por causas reais. Para determinar se existe diferença entre as médias, utiliza-se o teste hipótese, no qual temos duas possibilidades: (1) Hipótese nula, ou seja as médias populacionais são iguais: (2) Hipótese alternativa, as médias populacionais são diferentes, ou pelo menos uma das médias é diferente das demais. Além disso, existem dois tipos de análises por ANOVA: (a) One-Way ANOVA; e (b) Two-Way ANOVA. Nesse tutorial iremos abordar a análise por One-Way ANOVA.

Pressupostos ou condições do método

Assim como outros testes de hipóteses, a Análise de Variância também se estrutura sob algumas suposições ou pressupostos para que seja aplicável, sendo estes:

  1. Todas as observações devem ser independentes;
  2. As observações em cada grupo devem possuir uma distribuição, aproximadamente normal;
  3. As variâncias em cada grupo devem ser aproximadamente iguais;
  4. A variável dependente é contínua.

One-Way ANOVA

A One-Way ANOVA deve ser utilizada quando a sua variável resposta é contínua (Y) e a sua variável explanatória é categórica (X). Além disso, normalmente, a One-Way ANOVA é usada para testar diferenças entre pelo menos três grupos, uma vez que a comparação entre dois grupos pode ser obtida através do teste t.

Existem diversos softwares e formas de realizar a análise por One-Way ANOVA, no entanto esse tutorial terá como foco demonstrar como essa análise pode ser feita usando a linguagem R. A linguagem R é largamente usada entre estatísticos e analistas de dados para desenvolver software de estatística e análise de dados. Portanto, o R apresenta diversas funções e pacotes específicos para análises estatísticas e para criação de gráficos. A partir de agora vamos ver exemplos de como aplicar as funções do R para a análise por One-Way ANOVA, bem como para testes Posthoc.

Exemplo

Um experimento com um fator (X) com três tratamentos (T1,T2,T3) e uma variável respota contínua (Y). Você pode utilizar a One-Way ANOVA para verificar se os tratamentos possuem efeitos diferentes na variável resposta (Y). Importante lembrar: a Hipótese nula diz que as médias são iguais entre os grupos, ou seja as médias entre T1, T2 e T3 devem ser iguais, em outras palavras essa hipótese nos diz que não existe diferença entre os tratamentos.

Dataset

Como estamos usando dados fictícios para demonstrar as funções do R, eu usei a função rnorm, a qual permite gerar variáveis ​​aleatórias normais multivariadas. Lembre, esses dados aleatórios não tem qualquer relevância, são apenas dados demonstrativos para exemplificar a One-Way ANOVA.

Para verificar se nossas variáveis estão corretas, uma ótima opção é usar a função str. No nosso caso, podemos observar que nosso dataframe, ou seja nosso banco tem 30 observações e duas variáveis, sendo Y uma variável numérica, e X uma variável fator (categórica). Portanto, está tudo certo. Lembre-se sempre de verificar a classe das variáveis!

Teste One-Way ANOVA

Para criar o modelo vamos usar duas funções, a lm e aov. As duas permitem chegar ao mesmo resultado, no entanto o modelo com a função lm nos permite extrair informações adicionais com a utilização da função summary. Por outro lado, a função aov permite realizar o teste de Tukey. Por isso, vamos utilizar as duas funções a fim de termos um alto detalhamento da nossa análise.

Se olharmos para a tabela do ANOVA gerada, podemos observar que existe diferença significativa entre os tratamentos (T1,T2 e T3). Para testar estatisticamente quais tratamentos são diferentes vamos realizar o teste de Tukey.

Calculo da média e do erro padrão para cada tratamento

Nesse caso, vamos usar a função tapply para o cálculo desses valores.

Como gerar gráfico de barras

Para gerar nosso gráfico vamos usar os valores das médias e do erro de forma a representar o erro padrão de cada tratamento.

Teste Posthoc

Nesse caso, vamos usar a função TukeyHSD para o teste posthoc de Tukey.

O teste posthoc de Tukey demonstrou que os tratamentos T2 e T1; e T3 e T1 são diferentes. No entanto, não existe diferença entre os tratamentos T3 e T2. Este resultado se confirma ao observar o gráfico acima.

Gráficos de diagnóstico do modelo

O gráfico (Scale-Location) serve para indicar a distribuição de pontos no intervalo de valores previstos. A variação deve ser razoavelmente igual em todo o intervalo do preditor, no nosso caso existe uma variação mínima nos intervalos.

O gráfico (constante de Leverage) pode ser útil para detectar a presença de pontos influenciantes. No nosso caso, não temos presença de infuenciadores, umas vez que a linha vermelha, a qual indica essa presença, tem como valor de resíduo igual a zero.

O gráfico (Residual vs. Fitted) mostra indícios sobre o comportamento da variância dos resíduos com relação aos valores ajustados, sendo ideal para analisar a presença de não-linearidades no modelo. Nesse caso, nosso modelo é linear.

O gráfico Q-Q dos resíduos padronizados, é usado para verificação da normalidade dos resíduos. No nosso caso, tomamos como hipótese nula a normalidade dos resíduos.

--

--