Surpresa, ou não: as pesquisas não falharam mais do que o normal nos EUA

Avaliação da associação dos pesquisadores de opinião aponta que o menor desvio esteve onde não havia pesquisador humano

Saiu hoje um estudo da American Association of Public Opinion Research (AAPOR) sobre o resultado das pesquisas eleitorais nos Estados Unidos na campanha de 2016. Desde que Trump venceu no colégio eleitoral, porém, virou meio que um mantra dizer que era um caso em que as pesquisas erraram. O estudo, porém, diz que não foi bem assim.

Difícil não lembrar daquele dia. Em 8 de novembro de 2016, eu precisava dar uma aula da minha disciplina de jornalismo de dados na ESPM às 8h30 da manhã. Às 7h, peguei o celular e lá estava o resultado da eleição dos EUA: Trump havia ganho, apesar dos modelos preditivos mostrarem o contrário. Embora pesquisas eleitorais não fossem um dos temas da disciplina, me obriguei a alterar o programa e montar uma aula sobre pesquisas de opinião no caminho. Foi bem OK, mas fui pego no susto.

Em parte foi por causa daquele sobressalto que resolvi fazer neste ano uma especialização em opinião pública. E desde novembro, por uma dica de um mestre, eu vinha esperando essa avaliação da AAPOR. A anterior, claro, ocorreu em 1948, com a participação de Fred Mosteller (escrevi sobre ele e esse estudo em seu centenário, em dezembro) e gerou esta foto histórica:

Segundo a AAPOR, as pesquisas nacionais não erraram em 2016 mais do que o normal e inclusive estiveram entre as mais corretas desde 1936, ano em que a amostragem científica de George Gallup tirou vantagem sobre os formulários enviados pelo correio pela Literary Digest. Se você tem curiosidade sobre como ele fez isso, recomendo este texto.

Como mediram o erro das pesquisas? Para cada pesquisa publicada em cada ano, calcularam quanto foi o desvio para além do resultado. Cada ponto errado para um lado cancela um ponto errado para o outro, e quanto mais equilibrados forem os erros, mais próximo de zero fica o erro. Sendo diferente de zero, ele vai pender para algum lado.

No gráfico abaixo, que mostra os resultados desde 1936, as barras azuis representam vantagem democrata, vermelhas representam vantagem republicana e a linha laranja representa o erro médio das pesquisas. Observe que a partir de 1952 os erros baixaram muito.

Alguns pesquisadores que respeito muito, no Brasil e lá fora, já falavam mais ou menos isso há meses: os resultados do voto popular nacional não ficaram fora da margem de erro das pesquisas.

As pesquisas estaduais, porém, que estimam os votos do colégio eleitoral, erraram um pouco mais do que nos últimos 16 anos, em favor de Hillary. Ainda assim, o erro médio absoluto não é muito pior do que o normal, e em 2012 (quando Obama venceu) essas pesquisas estaduais erraram a favor dos adversários. Desta vez, porém, essas pesquisas “claramente subestimaram a votação de Trump no meio-oeste superior”, região onde ele venceu de longe.

Por que isso aconteceu? O relatório aponta três motivos determinantes e dois mais duvidosos. Os determinantes:

  • Houve mudança real de preferência de votos na reta final da campanha. Isso chegou a cerca de 13% dos eleitores em alguns Estados e isso deu uma margem grande a Trump. Isso pode indicar que, como avaliou Nate Silver anteontem, a carta do chefe do FBI ao Congresso, informando sobre e-mails de Hillary Clinton armazenados em servidor pessoal, pode de fato ter derrubado votos da candidata na última semana.
  • Muitas pesquisas falharam em ajustar o peso relativo de pessoas com ensino superior, que ficaram sobrerrepresentadas. Em Estados-chave, houve uma forte correlação entre escolaridade e voto para presidente. Os mais escolarizados preferiam Hillary e têm mais interesse em responder a pesquisas. Esse ponto cego subestimou resultados.
  • Alguns eleitores de Trump que participaram de pesquisas não revelaram sua verdadeira preferência — muito mais do que eleitores tímidos de Hillary. Os dados não são conclusivos sobre se eles decidiram tarde ou se tinham certo pudor de dizer seu verdadeiro voto. Há algumas semanas, saiu um levantamento mostrando que os eleitores tendiam a votar menos em Trump em pesquisas em que falam com uma pessoa pelo telefone — a alternativa é algo como o método IVR, em que há telefonemas automatizados e os entrevistados digitam opções pedidas por uma gravação. A pesquisa mostra que o IVR deu erros menores nos Estados conflagrados. Os maiores erros estavam nas pesquisas completamente feitas pela internet, em que os participantes se autosselecionam.

Para uma pesquisa estar certa, todos os eleitores precisam ter chance semelhante de serem ouvidos, proporcional à sua representação social. Por melhor que seja o desenho amostral, se um grupo de pessoas consistentemente deixa de participar da pesquisa (por qualquer motivo), há uma introdução forte de erro não-amostral.

Os duvidosos:

  • Houve mudança no comparecimento às urnas em relação a 2012, mas ainda não estão disponíveis os melhores dados a respeito. Num país onde o voto não é obrigatório, o índice de comparecimento é uma variável importante. No ano passado, o comparecimento cresceu mais em localidades mais republicanas do que nas mais democratas. Várias pesquisas foram ajustadas levando em conta o comparecimento relativo a 2012, mas desta vez o padrão foi diferente. Com isso, algumas pesquisas podem ter sobrerrepresentado os negros e sub-representados os brancos das zonas rurais. Sem os melhores dados à mão, o máximo a que chega a AAPOR é à afirmação de que os efeitos parecem pequenos.
  • A ordem dos nomes na cédula pode ter confundido eleitores em alguns Estados, mas isso não explica os erros. Em alguns lugares onde Trump aparecia em primeiro na cédula, a vitória dele foi apertada. Geralmente, isso dá 0,33% de vantagem. As pesquisas geralmente evitam colocar candidatos em qualquer ordem, usando discos. Esse, porém, parece um problema menor.

ROLETA-RUSSA

Desde a eleição, o jornalismo de dados vem sendo criticado por “falhar” na previsão. Talvez um pouco menos do que as pesquisas.

Desde 2008, ficaram famosos os “modelos preditivos”, como o do Nate Silver e o do New York Times, que procuram estimar o quanto de probabilidade os resultados da média das pesquisas têm de estar certos ou errados.

A variação das chances no modelo do New York Times no dia da eleição, conforme os votos eram contados, chegava a dar desespero:

O FiveThirtyEight tem uma coisa semelhante.

Numa disputa bastante apertada (como foi), esses modelos preditivos tendem a ampliar com microscópio a diferença, com isso magnificando o seu peso.

Nas palavras da AAPOR:

“Por mais bem-intencionadas que tenham sido essas previsões, elas ajudaram a cristalizar a crença de que Clinton estava com a presidência ganha, e as consequências no comparecimento às urnas são desconhecidas. Embora a mesma crítica possa ser feita contra as pesquisas — ou seja, elas podem indicar que uma eleição não é competitiva, talvez reduzindo a motivação de algumas pessoaas para votar — , as pesquisas e os modelos preditivos não são a mesma coisa. (…) Os pesquisadores e repórteres de pesquisas astutos procuram ter o cuidado de descrever seus dados como uma fotografia de um momento, medindo a opinião pública quando abordada (…). Modelos preditivos fazem algo diferente — tentam prever um evento futuro. Como a eleição de 2016 provou, isso pode ser um exercício frágil, e o benefício ao país é pouco claro.”

Nate Silver, diga-se, foi quem menos errou, embora tenha ido para casa com um olho roxo depois da apuração.

Ele manteve em seu site o modelo e toda sua cobertura de 2016. Excelente repositório para pesquisa. Lambidas as feridas, ele fez uma excelente série de textos avaliando “A Verdadeira História de 2016”. Vale ler.

Consultei em novembro um velho mestre meu, pioneiro do que hoje se chama jornalismo de dados e antigo membro da AAPOR. Perguntei sua opinião sobre os modelos preditivos. Ele fez uma belíssima comparação.

O Nate Silver não previu que a Hillary ganharia. Ele só disse que era provável. Mas eventos de baixa probabilidade acontecem todo dia. Por isso é que a roleta russa não é um passatempo popular.
One clap, two clap, three clap, forty?

By clapping more or less, you can signal to us which stories really stand out.