Reinforcement Learning: lições para algoritmos, bots e para nós

Published in

Bots Brasil

6 min readJan 20, 2021

Paradigma do Machine Learning encontra cada vez mais aplicações tangíveis e tem de tudo para trazer mais precisão e um toque a mais de humanidade para a interação entre usuários e máquinas

2021 vai ser o ano da Inteligência Artificial, conforme aponta uma pesquisa do Institute of Electrical and Electronic Engineers. Parece bem clichê dizer isso, já que os anos anteriores tiveram marcos importantes em Machine Learning — assim como terão os próximos 20.

O que quero dizer é que, em 2021, algumas aplicações da IA poderão atingir um grau de escalabilidade completamente novo.

Afinal, a pandemia trouxe uma certa afobação para o uso de tecnologias emergentes e abriu os olhos das empresas para a urgência de adotá-las.

De acordo com o Gartner, cerca de 37% das empresas estão utilizando algum tipo de Machine Learning em seus negócios, e estima-se que cerca de 80% dos avanços nos negócios serão baseados em IA até 2022.

Minha aposta para 2021, porém, é o aumento do uso de Reinforcement Learning em interfaces conversacionais, aplicações corporativas, e por que não nas nossas próprias vidas?

Um gif com uma frase “você não consegue lidar com os algoritmos!”

O momento atual do Reinforcement Learning

Modelos de Processamento de Linguagem Natural aliados à Reinforcement Learning (em português com tradução livre “Aprendizado Reforçado”) tiveram aplicações interessantes em 2020.

Por exemplo, tivemos a apresentação do surpreendente modelo de linguagem GPT-3, desenvolvido pela Open AI, que provou que, quando bem “alimentados”, algoritmos podem criar mensagens e diálogos orgânicos e muito convincentes.

Você provavelmente já está familiarizado com o conceito de Reinforcement Learning, mas vamos relembrá-lo por via das dúvidas. O Reinforcement Learning é um dos três paradigmas básicos do Machine Learning.

Supervised learning, ou aprendizado supervisionado — É quando você alimenta uma rede neural com dados rotulados, ou seja, você informa à máquina exatamente o que ela está processando
Unsupervised learning, ou aprendizado não supervisionado — É quando você não fornece dados rotulados ao algoritmo e não tem nenhum objetivo específico para que ele alcance. A máqina aprende aspectos estruturais dos dados à medida em que aprende.
Reinforcement learning — É quando você fornece à máquina apenas parte da informação, sem apontar qual é a ação ou resposta correta. É uma forma de aprendizado supervisionado.

Fonte da imagem: https://towardsdatascience.com/reinforcement-learning-brain-and-psychology-part-1-introduction-b5f79a0475ab

A imagem acima resume bem o funcionamento do Reinforcement Learning, comparando o aprendizado da máquina ao de um humano.

Imagine que um bebê está sentado, em seu “estado natural”, e então recebe uma recompensa a cada vez que consegue levantar, e um feedback negativo (a dor) a cada vez que cai. Ele não sabe andar, mas aprende por tentativa e erro. Simplificadamente, esse é o processo de Reinforcement Learning.

Por que empresas vão apostar mais em Reinforcement Learning em 2021?

Na era do “multitask” e da melhoria contínua de processos, empresas podem usar o RL para encontrar padrões em uma tonelada dados, deixando que a máquina rapidamente escolha as melhores soluções para um problema, sem tanta análise e revisão humana. Parece uma maravilha, não?

Você pode se beneficiar de Reinforcement Learning quando:

Sua empresa usa simulações em modelos de IA porque seu sistema ou processo é muito complexo, mas gostaria de usar informações reais.
Você sabe o que quer que um sistema faça, mas deseja automatizar ou otimizar um processo específico.
Você precisa otimizar o trabalho de analistas humanos, aumentando a eficiência operacional e dando mais suporte à tomada de decisão.

Reinforcement Learning aplicado aos bots

No mundo dos bots, o Reinforcement Learning tende a ser cada vez mais usado através da combinação de técnicas de aprendizado supervisionado e não-supervisionado, para que o modelo descubra não apenas o caminho certo ou errado para um diálogo, mas a resposta mais pertinente para cada interação.

Quem trabalha com bots e assistentes virtuais para larga escala sabe que é difícil, senão quase impossível, escrever um programa que possa responder de forma orgânica e precisa a todas as combinações possíveis e cenários de interação com humanos.

É por isso que muitos chatbots que cobrem uma ampla gama de intenções do usuário vêm enfrentando desempenho ruim, por conta da confusão e sobreposição de intenções.

Com o uso de Reinforcement Learning, bots de autoaperfeiçoamento poderão ser treinados de forma autônoma, levando em consideração o feedback em simulações em fases de teste e na interação ao vivo com usuários reais. Em consequência, a performance do bot só melhora.

Para os times de produto e curadoria de bots, as técnicas de Reinforcement Learning são especialmente úteis, uma vez que esses modelos não exigem muito conhecimento ou dados pré-existentes para fornecer soluções assertivas.

Em 2021, as tendências de RL aplicados à Natural Processing Learning incluem o uso em resumo e tradução de textos, análise de discurso e traduções automáticas, apenas para citar algumas aplicações.

No TIVIT Labs, por exemplo, combinamos o Aprendizado de Máquina e curadoria humana para criar as melhores jornadas para a nossa colaboradora virtual, a IVI Virtual Employee.

Gif uma pessoa falando e com uma frase em destaque “chatbots são tão inteligentes quanto as pessoas que constroem essas soluções.”

Se você quer incrementar o Reinforcement Learning para bots em 2021, aqui vão algumas dicas:

Escolha um bom modelo de recompensa para essa abordagem, com uma boa estrutura de elementos que representem penalidades e recompensas para cada turno de diálogo.
Realize o treinamento do RL offline, e, em seguida atualize a política de Natural Language Understanding (NLU) do seu bot quando níveis satisfatórios de desempenho forem alcançados.
Priorize muito bem as métricas de avaliação de desempenho do chatbot, pensando nos objetivos que quer alcançar com o RL.

Deep Reinforcement Learning

Acredito também no crescimento exponencial do Deep Reinforcement Learning, uma forma de aprendizado supervisionado, mas onde o algoritmo só é alimentado com parte da informação.

Esse modelo também pode ser usado para geração de diálogos, recompensando sequências de diálogo que apresentam maior coerência, informatividade e simplicidade de respostas.

Imagine que, em vez de ter que fazer uma curadoria humana e programação de bot com todos os enunciados possíveis para uma mesma intenção do usuário, o próprio RL do bot consegue entender sinônimos e afins, e ir aprendendo por sua conta.

Outras aplicações do Reinforcement Learning para ficar de olho neste ano

Sistemas de Recomendação

Os sistemas de recomendação (RecSys) de produtos digitais, quando potencializados por Reinforcement Learning, têm mais chance de serem bem-sucedidos nas recomendações ao incorporar novos atributos para gerar a recomendação — além dos tradicionais critérios de causalidade e filtros de interesse.

Notificações Push

Notificações Push são uma tática bastante mainstream para convidar usuários a se envolverem com mensagens, conteúdos e produtos. Porém, elas podem ser bastante irritantes quando enviadas no momento errado.

Hoje já é possível usar Reinforcement Learning para prever o comportamento do usuário e determinar o momento certo para enviar uma notificação através de um aplicativo ou plataforma de mensagens, por exemplo.

Gif apresenta uma esteira de treinamento de aprendizagem de máquina, onde várias imagens são classificadas como cachorro ou gato.

Humanos, façam como as máquinas de RL — e aprendam com os erros em 2021!

O que diferencia nós, humanos, dos agentes da RL é que as recompensas dadas pelo ambiente aos humanos não são tão claras e compreensíveis quanto aos feedbacks dados às máquinas.

Humanos nem sempre têm tanta clareza sobre quais ações são boas ou más, e quais ações nos levarão ao sucesso ou fracasso.

Por isso, considerando a incerteza que ainda paira sobre 2021, os desafios da pandemia e do mundo dos negócios, minha dica para esse ano é pautarmos nossas decisões em fatos, dados e nossos erros passados, para que não sejam repetidos pelo nosso bem e de toda a humanidade.

Quem sabe, ao final de 2021, podemos ter uma recompensa positiva.

Imagem com “duas pessoas se divertindo e ensinando um braço robótico a repetir os gestos de uma das pessoas” e o título deste artigo em destaque “Reinforcement Learning: lições para algoritmos, bots e para nós”. Foto por ThisisEngineering RAEng no Unsplash.

Este artigo faz parte da série 21 em 2021 do Bots Brasil ✨

Compartilhe com pessoas da sua rede, deixe um like, um comentário e para conferir os outros 20 textos da série da comunidade, acesse: https://bit.ly/2021botsbrasil