Uma Breve História Sobre Modelos Preditivos e Como Avaliá-los

Big Data Brasil
Big Data Blog
Published in
11 min readFeb 25, 2021
Photo by Andy Kelly on Unsplash

por Ruan Nogueira, Cientista de Dados na Big Data.

A predição por associação

Reconhecer padrões é uma habilidade útil à sobrevivência e ao desenvolvimento de indivíduos e de grupos. É uma habilidade que possibilita inferir a existência de um evento futuro a partir de informações do presente e do passado. Humanos, animais e, recentemente, máquinas, possuem diversos mecanismos que possibilitam este reconhecimento de padrões. Um exemplo destes mecanismos é a detecção e a interpretação de som, que permitem a um indivíduo ou máquina associar eventos e maximizar a chance de sobrevivência e de sucesso. Exemplos:

  • Uma pessoa que escuta um barulho de buzina, associa que há um carro e recua de volta para a calçada antes mesmo de confirmar a existência deste.
  • Uma presa na selva que escuta um barulho e corre sem ao menos visualizar o seu predador.
  • Um celular que detecta um certo comando e ativa o modo de assistência.

Para que essas associações (buzina-carro, barulho-predador e comando-assistência) fossem formadas, os indivíduos (ou seus antecessores) tiveram que vivenciar eventos muito semelhantes no passado, aprender com eles e de alguma forma armazenar o aprendizado até o atual momento. Portanto, pode-se dizer que eventos e informações históricas são a matéria prima dessa habilidade indispensável de reconhecer padrões. Apesar de indispensável, essa habilidade não é infalível. O barulho de uma buzina pode, por exemplo, ser somente um carro do outro lado da rua; o barulho escutado por uma presa pode ser somente um galho e; o comando de voz detectado por um celular pode ser uma fala sem a intenção de ativar a assistência. Nestes casos, as predições por padrões podem falhar. Já vimos que nem sempre a recorrente associação de dois eventos implicam em uma relação de causa e efeito, de modo que dois eventos podem estar relacionados no passado mas não necessariamente possuem uma dependência direta entre si. Em outras palavras, a coexistência histórica de eventos não é prova absoluta de que estes mesmos eventos sempre estarão juntos. O livro “The Book of Why”, de Pearl e Manckenzie, é uma excelente fonte para essa discussão.

Um bom exemplo de eventos relacionados mas, claramente, sem relações de dependências diretas, e portanto passível de exceções de coexistência, é a relação entre tamanho do pé e a capacidade de escrita de um humano:

  • Estes dois eventos são, normalmente, fortemente associados: um bebê que tem um pé pequeno não sabe escrever; uma criança de 5 anos com um pé um pouco maior, frequentemente, está aprendendo a segurar um lápis e; um jovem adulto com um pé maior ainda, frequentemente, já sabe escrever. Desta forma, há uma relação de quanto maior o pé maior a capacidade de escrita. Há um padrão neste caso. Entretanto, é evidente que aumentar o pé não estimula as habilidades de escrita, um adolescente não vai virar o próximo Machado de Assis pelo fato de seu pé ter crescido além da média. O que explica essa coincidente associação são variáveis ocultas nessa relação, como a idade, tempo de escola, ganho de experiência, entre outras. Assim, apesar da recorrência dos fatos, há exceções que proibiriam assumir como verdade absoluta a frase “Quanto maior o pé, maior a capacidade de escrita”.

Todavia, a ausência de conhecimento da relação de causa e efeito não é impeditivo para associar os eventos e maximizar as chances de prever corretamente. Por exemplo, se o objetivo não fosse fazer as crianças aprenderem a escrever, mas simplesmente o de prever sua capacidade de escrita, o tamanho do pé poderia sim ser uma boa métrica para estimar o nível desta habilidade de um indivíduo. Haverá exceções, e consequentemente predições erradas, mas se a associação dos eventos for forte o suficiente pode-se utilizá-la a favor.

Máquinas e os modelos preditivos

Agora, imagine ter o poder de encontrar diversas associações entre diversos eventos e aquele que deseja-se prever. Como se, ao invés de simplesmente saber o tamanho do pé, estivessem disponíveis também, o tempo de escola, o nível de investimento em educação e outras variáveis que parecessem relevantes. A capacidade preditiva poderia aumentar e haveria uma chance ainda maior de sucesso na predição. É isso que bons modelos preditivos fazem: através de um treinamento (reconhecimento dos padrões), procuram relações entre um evento alvo, que deseja-se prever, e as diversas informações das quais ele é alimentado.

Entretanto, independente da complexidade e do poder computacional disponível, modelos preditivos baseados em associações erram. Alguns mais do que outros, a depender das características do sistema. Assim, fez-se necessário criar estratégias de avaliação de desempenho de modelos preditivos, a fim de compará-los. A seguir são apresentadas algumas das metodologias, métricas e pontos de atenção usuais do processo de avaliação utilizados em aprendizado de máquina.

Metodologias e preocupações usuais do processo de avaliação de modelos preditivos

Já vimos brevemente que para avaliar modelos preditivos, os dados históricos, que são utilizados para encontrar as associações, são também úteis para o processo de validação. Quando há disponível na base histórica de dados tanto as condições ou eventos (tomando como base no exemplo anterior, os tamanhos dos pés) associados ao objeto que deseja-se prever, como a própria grandeza alvo de interesse associada a estas condições (a capacidade de escrita), pode-se usufruir destes dados para testar o modelo e estimar uma assertividade teórica. Ou seja, antes mesmo de ter em mãos o valor real futuro da grandeza prevista pode-se estimar uma qualidade teórica do modelo. E o processo é simples: usualmente são selecionadas algumas amostras da base histórica e realizam-se as estimativas das grandezas alvo a partir do modelo treinado. Em seguida, comparam-se a partir de alguma métrica os valores alvos preditos pelo modelo com os valores alvos históricos reais e assim tem-se um valor de assertividade da técnica utilizada. De forma sucinta, treina-se o modelo e faz-se a comparação do valor predito e real, dos dados históricos.

Um ponto muito importante de atenção nesse processo, é o de ter ciência se essa assertividade foi calculada com amostras que participaram da etapa de treinamento do modelo ou não. Pois, algumas técnicas apresentam baixíssimos erros quando testadas com amostras também utilizadas no processo de aprendizagem, mas possuem baixo poder preditivo de fato, ou seja, erram muito com dados nunca vistos pelo modelo. Estes baixos erros gerados com amostras que foram utilizadas no treinamento significam somente que o modelo se ajustou demais aos dados históricos. E não há interesse em se ter um modelo que só saiba repetir os resultados passados, usualmente deseja-se ter a capacidade de prever a grandeza de amostras em condições inéditas. Portanto, o recomendado para se estimar o erro teórico de predição do modelo é realizar o treinamento com uma parte da base disponível, chamada de base de treino, e realizar os testes com o restante, chamada de base de teste. Esse processo está exemplificado na Figura 1.

Figura 1: Processo de validação de um modelo preditivo.

Podemos ser ainda mais criteriosos e realizar este processo de teste várias vezes, sorteando em cada realização um conjunto de amostras diferentes para compor cada grupo. Desta forma minimiza-se as chances de haver um impacto na avaliação devido a um viés da base de treino e de teste.

Figura 2: Processo de validação de um modelo preditivo com múltiplas seleções de treino e teste.

Consistência das condições

Outro ponto importante é que a assertividade teórica, calculada com os dados históricos, é uma boa representação daquela vista na prática (ou seja, quando comparam-se os valores preditos com os reais futuros), somente quando as relações entre as variáveis utilizadas no modelo e a grandeza de interesse não sofrerem extremas variações ao longo do tempo. Uma situação exemplo, na qual o assertividade teórica iria se diferir da real devido a uma mudança das relações, seria:

  • Deseja-se prever o faturamento de lojas de uma rede de mercados com base no tamanho D das lojas. Numa situação hipotética, na qual nos primeiros anos de funcionamento a rede oferecia seus produtos somente via lojas físicas, a variável D apresentava uma associação forte com o faturamento. Ou seja, lojas menores tinham faturamentos menores e lojas maiores tinham faturamentos maiores. Portanto, a variável D era relevante e o modelo garantia uma certa assertividade durante este período. Porém, a partir de um determinado mês as lojas passaram por um processo de modernização e começaram a oferecer também seus produtos via e-commerce. Neste instante a variável D perde parte de sua relevância e deixa de ter uma relação forte com o faturamento. Nessa transição, de plataformas de vendas, a observação do erro teórico obtido pelos dados do período pré e-commerce não representaria mais o erro real do modelo, pois as relações que eram verdadeiras no passado, deixariam de ser. Olhando para o histórico o erro esperado seria pequeno enquanto na prática a assertividade estaria bem aquém do desejado.

Para minimizar situações como esta, pode-se incluir novas variáveis no modelo (no exemplo, incluir um indicativo de presença de e-commerce nas lojas, quantidade de acesso nas páginas e etc.), adicionando um pouco mais de informação e diminuindo as dependências com a variável inicial. Mas ainda assim, a mudança no padrão das variáveis influenciaria na estimativa final, dado que o modelo ainda seria alimentado com dados passados. Portanto, para ter mais efetividade na solução deste problema, deve-se na medida do possível atribuir ao modelo o efeito do tempo, ponderando eventos recentes por um valor maior do que aqueles mais distantes, ou assumindo que há um efeito sazonal e etc. De todo modo, veja que exatamente no período de transição e sem informações extras, dificilmente o erro teórico traria grandes garantias. Assim, é extremamente relevante ser crítico à própria avaliação e estar atento às possíveis mudanças de cenário.

As métricas de avaliação

Após ter dado atenção aos pontos levantados anteriormente, parte da avaliação está garantida. O que resta para realizar a avaliação consiste em definir uma métrica de desempenho para medir a assertividade teórica do modelo preditivo, ou seja, determinar uma função que compare o valor predito com o real. Cabe dizer desde já, que não existe uma métrica perfeita, a escolha deve ser feita analisando o sistema em questão e principalmente a natureza da variável predita.

Variáveis contínuas

Se a variável predita for numérica e contínua, por exemplo o faturamento de uma loja em reais, deve-se analisar métricas que aceitam variáveis desta natureza. Entre elas estão:

  1. O MSE (do inglês, Mean Squared Error) que indica a média dos erros ao quadrado. Sendo um erro de uma amostra i, a qual pertence a um conjunto de N amostras, definido como a diferença entre o seu valor predito (yi) e o seu valor real (ỹi). Nesta métrica, erros menores são menos relevantes, enquanto grandes erros recebem mais peso.

2. O MAE (do inglês, Mean Absolute Error) que indica a média dos erros absolutos. Neste caso os erros têm pesos iguais independente de suas magnitudes.

3. O MAPE (do inglês, Mean Absolute Percentual Error) que indica a média percentual dos erros absolutos. Nesta métrica há a normalização dos erros pela magnitude de seus valores.

Variáveis categóricas

Agora, se a variável for de natureza categórica, ou seja, ela é definida em classes, deve-se utilizar métricas condizentes com esta natureza. Algumas dessas métricas derivam da matriz de confusão, a qual consiste em uma tabela que classifica os erros e acertos das amostras que foram preditas. No caso de haver somente duas classes (positivo e negativo) a predição de uma amostra pode ser:

  • Verdadeiro Positivo, caso a predição como classe positiva esteja correta
  • Verdadeiro Negativo, caso a predição como classe negativa esteja correta
  • Falso Positivo, caso a predição como classe positiva esteja errada
  • Falso Negativo, caso a predição como classe negativa esteja errada

Assim, cada predição de uma amostra pertence a uma dessas 4 classificações. Por fim contabilizam-se o total de cada uma desses 4 grupos e monta-se a tabela.

Matriz de confusão: VP (Total de amostras classificadas como Verdadeiro Positivo), VN (Total de amostras classificadas como Verdadeiro Negativo), FP (Total de amostras classificadas como Falso Positivo) e FN (Total de amostras classificadas como False Negativo.

Algumas das métricas derivadas dessa tabela são:

  1. A Acurácia, a qual indica o percentual de predições corretas no total, ou seja a quantidade de acertos sobre a quantidade total de previsões.

Perceba que esta é uma boa métrica para se analisar caso as classes (positivo e negativo) sejam bem balanceadas, caso contrário um valor alto para ela não terá grandes significados. Exemplo: numa situação de desbalanceamento, como por exemplo na detecção de comando por voz, onde a maior parte dos sons detectados são palavras sem intenção de ativação, um modelo que sempre diz que a classe é negativa apresentaria uma acurácia extremamente alta. Porém, erraria todas as vezes que houvesse de fato a intenção de ativar, não sendo portanto um modelo útil mas com uma acurácia alta.

2. A Precisão, a qual indica a razão entre o número de classificações corretas de uma classe e o número total de classificações feitas pelo modelo para aquela classe.

Como exemplo, no caso da detecção de voz, se o modelo classificar 100 sons como sendo os de ativação, mas apenas 30 das classificações estão corretas, então o modelo terá uma precisão de 30%. Ou seja, 70% das vezes que o modelo acionou o comando, não havia de fato intenção de ligar, havendo então 70 falsos positivos.

3. O Recall, o qual indica a razão entre o número de classificações corretas de uma classe e o número total de exemplos que pertencem a esta classe de fato.

Por exemplo, se o modelo classifica 40 sons como sendo o de ativação mas houve de fato 100 comandos ele terá um recall de 40%. Ou seja, 60% das vezes que há o comando de voz, não há a ativação da assistência.

4. O F1 Score, que é a média harmônica entre precisão e recall. Geralmente utilizada em situações com classes desbalanceadas e em situações que deseja-se monitorar ambas as métricas.

Estas são algumas das inúmeras funções que podem ser utilizadas para medir a assertividade teórica de um modelo preditivo. E é dever daquele que avalia o modelo, entender qual delas mais se adequa a situação.

Conclusão

No passado, a habilidade de associar e inferir eventos era restrita à humanidade e aos animais, porém com o advento da computação a capacidade de reconhecer padrões foi reforçada. Prever tornou-se uma das habilidade mais necessárias para a forma de vida da sociedade atual. Saber avaliar as ferramentas que impulsionam esta capacidade é fundamental para o avanço contínuo. Há distintas metodologias, métricas e preocupações relacionadas com a avaliação destas ferramentas. Conforme citado, cada situação, modelo e técnica apresentam peculiaridades e não devem ser tratados de forma genérica. Cabe aos indivíduos que utilizam a ferramenta, procurar a melhor forma de avaliar os seus resultados.

--

--