A Matemática por trás da Tecnologia: O Papel da Combinação Linear em Algoritmos de Aprendizado de Máquina

Matheus Vasconcelos
6 min readJul 29, 2023

--

Certamente já nos deparamos com algumas pessoas desconhecem a utilidade de certos aparatos matemáticos na prática, e acreditam que tais ferramentas sejam objetos de uma mera ilustração no âmbito escolar.

Tendo isso em vista, o intuito dessa série de posts é clarificar o entendimento da matemática que aprendemos no decorrer da vida no cotidiano dos profissionais que trabalham com diferentes tecnologias, como algoritmos de aprendizado de máquina, uma realidade indiscutível no mercado atual.

Como se sabe, o requisito básico pra entender bem a área é ter um conhecimento em álgebra linear, vetores, lógica, etc. E nesse post, vamos abordar mais sobre as combinações lineares, e exemplificá-la em apenas dois modelos simples, um de regressão, e o outro de classificação:

  • Regressão Linear
  • LDA (Análise de Disciminante Linear)

Combinação Linear:

Para entender o porquê de modelos de Machine Learning utilizarem combinação linear, vamos entender o conceito. Imagine que você precise preparar um jantar caseiro para alguns amigos, e queira comprar apenas três alimentos e decide que estes serão: Carne ( C ), Macarrão ( M ) e Arroz ( A ).

Sendo assim, você tem que decidir as quantidades (kg) de cada alimento que irá comprar. Note que você tem inúmeras combinações lineares possíveis (dependendo do seu bolso, claro!). Segue abaixo dois exemplos de como poderíamos distribuir o cardápio:

  1. 3C + 2M + 5A (3kg de carne, 2kg de macarrão e 5kg de arroz)
  2. 2C + 3M + 5A (2kg de carne, 3kg de macarrão e 5kg de arroz)

Pronto! Isso é uma combinação linear, das mais simples. O resultado dela seria a resposta de modelos ou equações que procuram prever ou descrever um sistema. Entraremos nisso em um instante.

Note que evidentemente poderíamos sofisticar o problema e pôr preços em cada alimento e uma quantidade limite que poderíamos gastar. Caíriamos em um sistema linear, por exemplo.

Mas uma definição bem elementar e suficiente é: a combinação linear nada mais é do que o processo de ajustar a quantidade de várias instâncias (variáveis) ou componentes e, em seguida, somar suas contribuições para criar uma nova solução ou resultado. Um simpes 2x + 2y = 4 representa bem essa definição, mas generalizando:

  • Y = A1X1 + A2X2 + A3X3 + A4X4 +…AnXn

E isso é a combinação linear dos Xi

Observações:

  1. Por fazer uso do termo “linear”, tendemos a acreditar que não há fatores quadráticos ou polinomiais, mas a linearidade da combinação linear diz respeito à conexão entre coeficientes e variáveis e não ao grau do polinômio em questão.
  2. Claro que o leitor mais experiente deve saber que o assunto se extende além do que abordaremos aqui. Qualquer livro mais ou menos completo de álgebra linear trata dos tópicos de dependência linear e combinações lineares de maneira completa.

Regressão Linear Simples

Talvez, o modelo mais queridinho dos cientistas de dados, justamente por sua facilidade e fácil adequação, desde que o comportamento dos dados tenha um padrão linear, ou seja, quando podemos utilizar uma simples reta pra descrever o conjunto de dados

A regressão linear simples é o processo de traçar essa reta através dos dados em um diagrama de dispersão. A reta resume esses dados, o que é útil quando fazemos previsões.

Pense nela como uma simples equação para se estimar a condicional de uma variável Y, dados os valores de algumas outras variáveis X. E aí que aparece a nossa combinação, pois a reta de regressão linear é do tipo:

Y = AX+ B

  • Y = Variável Target (a variável que queremos prever)
  • X = Variável Preditora (tudo que usaremos para prever Y)
  • A = Intercepto (o valor no qual a linha ajustada cruza o eixo Y)
  • B = Declive (é igual à correlação entre Y e X seja corrigida pela relação de desvios padrão destas variáveis)

Essa regressão é o exemplo mais claro de como a combinação linear é utilizado. Pense nesse X como a quantidade de um certo alimento, como na nossa analogia.

Exemplo de uma um gráfico que relaciona x e y e traça uma reta de regressão linear que descreve a relação entre as variáveis. A partir dessa reta, fazemos previsões para dados futuros

Regressão Linear Múltipla

Melhor ainda: Imagine que você tem uma decisão (numérica) a tomar. Digamos que você não saiba como precificar um produto de uma loja sua. Para isso, você considera várias variáveis, não apenas uma única (X).

Podem haver problemas relacionados à mão de obra (X1), tecnologia para produzir (X2), média de preço no mercado (X3), clientela da sua loja(X4) e assim por diante.

Se quisermos traçar uma reta de regressão linear para essa situação, essa seria na verdade uma regressão linear múltipla, que nada mais é do que a extensão da regressão linear simples, só que para mais de duas variáveis.

Nela, mantemos a combinação linear, a diferença é que ela se adapta em diferentes dimensões (quantidade de variáveis para o problema) e busca um modelo linear para descrever essa relação em n dimensões. Ela é do tipo:

Y = A1X1 + A2X2 + … + An*Xn + B

Análise Discriminante Linear — LDA

Perceba que os modelos de regressão tradicional (linear, multivariada, polinomial, etc) procuram traçar uma reta para explicar o conjunto de dados e, portanto, são usados para prever valores numéricos contínuos. Uma técnica diferente é a Análise de Discriminante Linear (LDA).

Ela se distingue deles por resolver problemas de classificação, ou seja, quando nossa variável alvo (Y) que queremos prever não é contínua, e sim separada em classes.

No fim das contas, em problemas de regressão estamos interessados em prever um valor numérico; já em problemas de classificação, estamos interessados em prever uma classe, seja categórica ou um atributo binário que significa algo.

Imagine que você é dono de um provedor de internet e precisa prever se um cliente vai atrasar o pagamento (digito binário 0) ou se ele não irá atrasar o pagamento (digito binário 1). Evidente que não há uma continuidade nos valores de Y, pois eles são separados em classes:

  • 0 (atraso no pagamento)
  • 1 (pagamento em dia)

Onde entra a Combinação Linear? (redução de dimensionalidade)

Mas aí podemos pensar: “Se problemas de classificação se preocupam em separar as classes, onde entraria a combinação linear nesse processo?”

A LDA busca encontrar uma combinação linear das variáveis preditoras (X) que maximize a separação entre as classes binárias (0 e 1) ou categóricas. Por isso que a LDA é usada na verdade como uma técnica de redução de dimensionalidade. E para isso, a combinação linear é fundamental.

Perceba que o uso da combinação aqui tem um objetivo diferente do que na regressão linear. Lá, combinávamos as variáveis de modo que fosse gerado uma reta que descrevesse o conjunto de dados.

Aqui, usando a LDA, buscamos uma combinação linear entre as n variáveis preditoras de modo que reduzimos a dimensão, e consequentemente separamos melhor as classes

Em tese, essa combinação procura um hiperplano (entenda como se fosse um muro) que separa melhor as duas classes. O resultado da combinação linear entre as variáveis que vão prever as classes da variável (Y) é um “vetor discriminante”.

Em outras palavras, o resultado é a direção pra onde esse “muro” deve ser estendido e modo que separe do melhor jeito possível as classes, e delimita um padrão para o algoritmo entender de qual classe pertence o dado em questão.

O que a LDA quer com isso é: aumentar a diferença entre grupos e diminuir a diferença dentro dos grupos.

Isso é até intuitivo se pensarmos com a nossa cabeça. Reconhecemos melhor, por exemplo, pessoas de culturas bem distintas da nossa e bem parecidas entre elas.

Os grupos A e B separados e um “hiperplano” representado por esse vetor, apontando para a direção Essa reta ajudaria o modelo a discriminar melhor as classes

Vamos pensar num exemplo onde queremos decidir se vamos ou não viajar para um determinado destino. Temos n variáveis preditivas que influencia em nosso veredito e uma variável alvo (vamos chamar de “decisão”: 0 para não, e 1 para sim).

Estamos num espaço de n dimensões para usar. A técnica da LDA reduz esse número de dimensões, usando uma combinação linear entre as n variáveis preditivas, e o resultado é a direção que o “muro” (hiperplano) separa melhor a classe “vou viajar” da classe “não vou viajar”.

Pronto. Esse hiperplano seria uma dimensão única que descreve, através da combinação linear, o comportamento das n variáveis, só que de uma forma bem mais simples para o processamento computacional.

Assim, o algoritmo consegue discriminar (diferenciar) melhor os grupos

De certo modo é o que fazemos mentalmente. Procuramos reduzir os problemas de decisão traçando um “muro” na nossa mente que resuma nossas variáveis juntas e já nos forneça um modo de separar as decisões possíveis que podemos tomar.

Em suma, essa é a forma da máquina fazer o que muitos humanos fazem: ponderar e separar os prós e os contras para uma decisão.

--

--

Matheus Vasconcelos

A Telecommunications Engineering student, passionate about science, programming, and data analysis.