Conhecendo o modelo linear
Um artigo sobre regressão linear
Quando falamos de Machine Learning (ML), é necessário ter em mente qual o modelo melhor se adequará ao problema, em casos aonde quereremos prever valores numéricos (contínuos), uma das abordagens amplamente utilizadas dentro da aprendizagem supervisionada são os modelos de regressão. Hoje existem diversos modelos capazes de realizar uma regressão para nós, o presente artigo discutirá os fundamentos de um modelo linear simples, e múltiplo, explicando também a otimização dos parâmetros e medidas de avaliação.
A regressão linear faz parte dos modelos de aprendizagem supervisionada, quando falamos nesse tipo de aprendizagem, deve-se ter em mente que o algoritmo terá conhecimento tanto dos dados como de seus respectivos resultados, a fim de que, ao ser exposto a dados nunca antes vistos, o modelo consiga gerar previsões com acurácia.
Um modelo de regressão linear é um dos mais simples existentes no mercado, por conta da facilidade de seu uso e de bons resultados obtidos em algumas situações, é amplamente utilizado. Algoritmos mais complexos como Redes Neurais são capazes de conseguir resultados ainda mais expressivos, porém acabam tendo uma demora muito grande para treinar seus modelos, talvez esse seja a grande vantagem em utilizar modelos simples, uma vez que modelos mais complexos conseguem encontrar relacionamentos distintos entre os dados.
A Regressão Linear
Um modelo de regressão linear, explicando de forma bastante simples, é uma reta, traçada entre a variável dependente e a independente, capaz de dizer o quão forte é essa relação, quanto mais ajustada a reta for, menor o erro, e o erro sendo menor, melhores são as previsões. Existem 2 tipos principais de regressão linear, a simples e a múltipla, dizemos que um modelo é simples quando possui apenas uma variável independente, e múltipla, quando possuímos duas ou mais.
A reta de regressão é calculada a partir de um cálculo de reta simples, dado pela fórmula:
y’ = b0 + b1x + e
Aonde:
y’ é o valor que deseja-se prever, b0 é o coeficiente intercepto, esse é o valor de y quando o valor de X é igual a 0, ou em casos de regressão linear múltipla, quando todos os valores de X forem iguais a 0. O b é o valor de y quando o valor de X é incrementado em uma unidade e os valores das ouras variáveis independentes (regressão múltipla) são mantidos constantes. X é a variável independente e e é o valor do erro.
Para casos de regressão linear múltipla, a fórmula é a seguinte:
y = β0 + β1x1 + β2x2 + ··· βkxk + e
A única diferença entre a fórmula da regressão simples é que são inseridas mais variáveis independentes.
A reta da regressão busca sempre otimizar os parâmetros dos coeficientes, diminuindo o valor do erro, para isso, existem fórmulas capazes de otimizar essa equação, buscando assim, o menor erro possível. Um dos métodos mais utilizados é o dos Mínimos Quadrados Ordinários (MQO).
Otimização dos parâmetros
Quando trabalhamos com modelos de ML, sempre haverá uma função de custo, no caso da regressão linear, utiliza-se como função de custo o Erro Quadrático Médio, popularmente conhecido como Mean Squared Error (MSE). A função de custo nos diz o quanto o modelo está errando em suas predições, para que a regressão possa diminuir o valor desse erro, é necessário realizar a descoberta e otimização dos parâmetros, a fim de que a reta encontre o menor erro possível, o erro é a diferença entre o real e o valor previsto, é o quanto o seu modelo está errando nas previsões.
A partir da descoberta dos parâmetros da equação a partir do método MQO, torna-se possível predizer novos valores de X. Um outro método bastante conhecido e amplamente utilizado no mundo de ML para otimização de parâmetros é o Gradient Descent, esse método possui o mesmo intuito do MQO, porém funciona de forma diferente.
Parâmetros do modelo e avaliação
Com os parâmetros em mãos, o modelo torna-se capaz de predizer novos valores. A partir das predições, é possível utilizar métricas para descobrir o quão bem o modelo está se ajustando aos dados, no caso da regressão linear, é utilizado o coeficiente de determinação (R²) para dizer se o modelo está prevendo novos valores de forma acurada.
O coeficiente de determinação é uma medida que determina o quanto da variável dependente é explicada pela variação da variável independente e, em casos de regressão múltipla, pela varição total das variáveis independentes. Quanto mais próximo de 1, mais o modelo se ajustou aos dados.
O valor do R² pode ser obtido a partir de 2 valores, o primeiro SSR (Sum of Squares due to Regression), é a soma da diferença entre o valor previsto e o valor médio da variável dependente e o segundo é o SST (Sum Squared Total), esse valor leva em consideração a variação total de y, a diferença entre cada um de seus valores reais e a sua média geral, esses valores são todos somados e elevados ao quadrado.
Nos próximos artigos buscarei falar sobre os pressupostos que o seu conjunto de dados precisa cumprir para que um modelo de regressão possa de fato ser aplicado.