Importância de Variáveis: O que é? Para que serve?

Big Data Brasil
Big Data Blog
Published in
5 min readSep 10, 2020
Photo by Morgan Housel on Unsplash

por Marcelo S. Menegol, Cientista de Dados na Big Data.

Introdução

Boa parte dos projetos desenvolvidos na Big Data envolve alguma etapa de regressão, algum tipo de inferência de determinada grandeza alvo com base em outras grandezas. Por exemplo, podemos querer inferir o faturamento anual das lojas de uma rede de supermercados usando características da região onde cada supermercado está situado, tais como: renda per-capita, idade média da população, número de antenas de telefonia celular, número de mercados concorrentes, etc. Essas grandezas são o que normalmente chamamos de variáveis.

Para realizar a inferência da variável alvo, treinamos algum modelo nos dados para que ele aprenda a relação entre as variáveis de entrada e a variável alvo. Muitas vezes, o principal interesse prático desse modelo é fazer previsões acerca de outros lugares ou datas para os quais não temos o valor da variável alvo. No exemplo dos supermercados, podemos usar o modelo construído para obter uma estimativa de faturamento de uma nova loja, de forma a direcionar melhor o processo de expansão da rede.

Um exemplo do que seria este modelo pode ser representado pela equação abaixo:

A Importância de Cada Grandeza

Existe, no entanto, um segundo caso de uso deste modelo treinado. Se mergulharmos um pouco em como o modelo funciona e como ele faz previsões, talvez possamos traduzir este conhecimento adquirido pelo modelo para outras pessoas. Este conhecimento pode até mesmo ser transferido para alguma outra área, além daquela para a qual o modelo foi construído. Se esta rede de supermercados tem uma equipe dedicada a procurar novos pontos comerciais, eles podem aprender com o modelo a como selecionar pontos melhores, e perder menos tempo procurando pontos em regiões que o modelo descartaria imediatamente. Mais ainda, entender a interação entre o faturamento e determinada variável pode fornecer insights acerca dos públicos que frequentam cada loja, direcionando outras ações relevantes para o negócio. Este tipo de conhecimento normalmente é obtido avaliando-se o que se chama de importância das variáveis.

No exemplo fornecido , temos um modelo linear simples. Conforme os coeficientes a, b, c, d aumentam, mais o faturamento previsto aumenta para um mesmo valor que a respectiva variável assume. Assim, o coeficiente indica o quanto aquela variável é importante para a previsão de faturamento. Valores de coeficientes muito altos, positivos ou negativos, indicam que aquela variável tem uma contribuição alta para o faturamento. Por outro lado, valores próximos a 0 indicam que a importância é pequena.

Portanto, no modelo apresentado acima, se c é o valor mais alto, isso significa que o número de antenas de celular na região é a variável mais importante e de maior impacto positivo. Locais com mais antenas de celular, no geral, seriam preferíveis aos que tem poucas antenas. Locais sem antenas deveriam ser evitados.

É importante ressaltar que as outras variáveis também tem sua própria contribuição. Um local sem antenas de celular poderia ter valores excelentes em outras variáveis, como renda e idade, compensando assim sua falta de antenas. Além disso, normalmente um modelo focado em gerar previsões acuradas não representa adequadamente relações causais. Em outras palavras: pressionar as empresas de telefonia a instalar mais antenas em um determinado local não faria o faturamento da loja aumentar magicamente. Uma variável deste tipo tipicamente serve como um termômetro de outras variáveis mais difíceis de se medir, como fluxo de pessoas.

Importância Local e Importância Global

Com modelos lineares, a importância da variável é muito simples de ser obtida, apesar de ter uma interpretação não tão trivial quanto gostaríamos. No entanto, quando usamos modelos mais complexos, extrair esta importância se torna muito mais difícil.

Como um exemplo simples, digamos que o modelo usado encontra diferentes fatias de renda per-capita e cria um modelo linear para cada fatia. Assim, bairros nas faixas superiores e inferiores de renda teriam em seu modelo linear coeficientes diferentes para cada variável. Extrair um único valor de importância de variáveis para um modelo deste tipo já não é mais tão trivial, principalmente a importância da própria variável de renda per-capita.

Perceba também que, neste último caso, bairros mais nobres teriam importâncias de variáveis diferentes de bairros menos nobres. Estas importâncias condicionadas ao caso que é avaliado é o que se chama de importância local de uma variável, em contraste com a importância global.

A importância global de uma variável é um valor que tenta resumir a importância daquela variável para vários exemplos, enquanto que a local é a importância da variável para apenas um exemplo ao qual o modelo é aplicado. No modelo linear, essas importâncias são as mesmas. Em outros modelos, isto não necessariamente ocorre.

No último exemplo, regiões com alta e baixa renda teriam importâncias locais de variáveis diferentes. Uma possível forma de se obter a importância global é fazer a média das importâncias locais, mas isto nem sempre funciona muito bem. Se uma variável tem um impacto muito positivo em um caso e muito negativa em outro, sua média pode ficar próxima de 0. Neste caso, por mais que a variável pareça ser irrelevante na importância global, ela pode ser muito relevante na importância local e não deveria ser ignorada.

Há ferramentas que conseguem (ou tentam) extrair importâncias de variáveis dos mais diferentes modelos, mas os valores obtidos vêm com suas próprias peculiaridades e desafios de interpretação. No geral, a critério de se extrair conhecimento a partir de importâncias de um modelo, é mais seguro se ater à ordenação das variáveis e se o impacto de cada uma é positivo ou negativo do que tentar interpretar valores exatos. Em outras palavras, é mais valioso saber quais são as 5 ou 10 variáveis mais relevantes de um modelo e se elas tem impactos positivo ou negativo do que tentar interpretar valores exatos de importâncias.

Conclusão

A importância de variáveis é um conceito muito útil de ser explorado em um projeto de ciência de dados por permitir que se extraia mais valor do modelo, além do valor como ferramenta de previsão. Por outro lado, a importância das variáveis muitas vezes são difíceis de serem interpretadas, podendo levar a conclusões e decisões errôneas. De forma geral, quando o intuito é tentar extrair conhecimento do modelo, é mais seguro trabalhar com uma noção geral e resumida de como as variáveis impactam as previsões do modelo do que tentar interpretar os valores de importância diretamente.

--

--