Por que migrar sua análise de dados do Excel para uma linguagem de programação?

Thiago Victorino
Data Hackers
Published in
4 min readAug 31, 2020

Parte 1

No primeiro artigo dessa série, discuto um pouco da minha experiência com análise de dados em Excel, dois casos famosos de erros que invalidaram conclusões importantes e porquê abandonei essa ferramenta.

Teste
Fonte: https://unsplash.com/photos/Wpnoqo2plFA

Antes de mais nada, acho o Excel um software incrível, dos mais intuitivos e fáceis de usar, principalmente porque não necessita de extenso treinamento para aperfeiçoar suas principais funcionalidades. Talvez por isso seja o programa mais usado em ambiente corporativo. Mas será que ele realmente é a melhor ferramenta quando se trata de análise de dados?

Vindo de uma formação acadêmica em engenharia, uma hora ou outra você acaba caindo no universo da análise de dados, e quase como instinto básico, buscamos o Excel como nossa salvação. Começamos com uma análise simples, as vezes apenas a manipulação rápida de poucos dados e a criação de uma visualização para submetermos a alguém. Dessa análise simples, logo nascem perguntas e a necessidade de alterações na planilha, mais visualizações, mais dados e quem sabe, aplicação de testes estatísticos.

O que antes era uma análise simples, começa a ganhar complexidade, e rapidamente nos perdemos em células contendo fórmulas que dependem de outras células contendo fórmulas, PROCV pra lá, PROCH pra cá. De repente a planilha tem 15mb!

Não precisamos de uma pesquisa científica para saber a complicação que é encontrar a origem de um erro e ter que reajustar toda a planilha enquanto o Excel fica 15 minutos sem responder para terminar todas as operações que estão encadeadas.

Mas se você não acredita em mim, Raymond Panko, professor da Universidade do Havaí e uma sumidade na área de boas práticas em planilhas, em seu artigo What We Don’t Know About Spreadsheet Errors Today: The Facts, Why We Don’t Believe Them, and What We Need to Do nos traz três importantes conclusões:

  • erros em células individuas de planilhas são bastante raros, mas em programas grandes existe uma probabilidade considerável de um dos valores finais estar errado;
  • erros em planilhas são extremamente difíceis de encontrar e corrigir; e
  • desenvolvedores e grandes empresas tem um excesso de confiança em suas planilhas.

Para além dessas conclusões, Raymond Panko afirma ainda haver forte evidência de que erros em planilhas ocorrem a uma frequência que empresas deveriam considerar inaceitável. Em sua análise, Panko indica que tendemos a acreditar que nossas planilhas possuem poucos erros materiais e que qualquer pessoa é capaz de identificá-los, basta dedicação.

Será que a quantidade de erros em nossas planilhas é realmente tão baixa quanto acreditamos ser?

Dois dos exemplos mais clássicos, que confirmam as observações de Raymond Panko, vêm de áreas do conhecimento bastante diferentes. Na genética, em uma extensa revisão bibliográfica, Ziemann, Eren e El-Osta concluíram que cerca de 20% dos artigos publicados em revistas relevantes, em que parte da análise foi realizada em Excel, possui erros de interpretação do software, em que nomes de genes são transformados em datas ou outros formatos sem que o usuário saiba, invalidando parte da pesquisa.

Já na economia, um dos mais relevantes artigos já publicados sobre a relação dívida e crescimento econômico, que fundamentou grandes políticas de austeridade fiscal no início da década passada, está permeado de erros por má utilização de planilhas, colocando em dúvida os resultados obtidos. Sem querer, os autores não selecionaram todas as linhas de uma coluna, e apenas quinze países foram considerados em uma análise que deveria incluir vinte.

A conclusão, que indicava uma redução do crescimento econômico da ordem de 0,1% quando a dívida de um país ultrapassava 90% do PIB, ao ser reavaliada, incluindo os cinco países que foram ignorados, indica crescimento de 2,2%. O artigo saiu de uma recessão para crescimento econômico por má utilização do Excel.

Isso nos leva de volta à pergunta principal desse artigo e o motivo pelo qual utilizo cada vez menos o Excel. Será que ele realmente é a melhor ferramenta quando se trata de análise de dados?

Fica evidente que, quanto maior a relevância e complexidade do que avaliamos, menos apropriado é o Excel. Facilmente perdemos o rastro do que fazemos e, além de dificultar uma posterior revisão, abrimos nossa análise a uma série de possíveis erros.

Qual a alternativa, então? No próximo artigo dessa série, apresentarei algumas das vantagens de se utilizar linguagens de programação e softwares livres para análise de dados.

Links relevantes:

Artigo do Raymond Panko;

Artigo de Ziemann, Eren e El-Osta;

Artigo sobre os problemas da publicação “Growth in a Time of Debt”

--

--

Thiago Victorino
Thiago Victorino

Written by Thiago Victorino

R | Python. De transportes terrestres à ciência de dados. Thoughts are my own.