Aprendizagem de Maquina: Supervisionada ou Não Supervisionada?

O uso aprendizagem de máquina abrangem desde jogos passando pela detecção de fraudes até a análise estatísticas da bolsa de valores. É utilizada para construir sistemas como os do Netflix e Spotify que recomendam músicas e/ou vídeos aos usuários com base no seu histórico de acesso, seus favoritos e outros dados, ou sistemas que encontram todos os artigos de notícias similares em um determinado dia. Também pode ser usada para categorizar páginas de Web automaticamente conforme o gênero (esportes, economia, política, bem-estar e daí por diante) ou marcar mensagens de e-mail como spam. Os usos da aprendizagem de máquina são mais numerosos do que eu posso abordar neste post e diversas abordagens de aprendizagem por máquina são utilizadas para solucionar os mais diversos problemas. Nesse post me concentrarei nas duas mais utilizadas comumente — aprendizagem supervisionada e não supervisionada.

Para contextualização do assunto irei começar pela definição de Aprendizado de máquinas:

Arthur Samuel descreveu-a como: “campo de estudos que da aos computadores a capacidade de aprender, sem ser explicitamente programados”, que é uma definição informal mais velha.

Já Tom Mitchell fornece uma definição mais moderna: “Um programa de computador é dito para aprender com a experiência E com a relação a alguma classe de tarefas T e medida de desempenho P, se o seu desempenho em tarefas em T, medida pelo P, melhora com a experiência E”

Exemplo: Jogando damas

E = A experiência de jogar muitos jogos de damas

T = A tarefa de jogar damas.

P = A probabilidade de que o programa irá ganhar o próximo jogo.

APRENDIZAGEM SUPERVISIONADA

Nos é dado um conjunto de dados rotulados que já sabemos qual é a nossa saída correta e que deve ser semelhante ao conjunto, tendo a ideia de que existe uma relação entre a entrada e a saída.

Problemas de aprendizagem supervisionados são classificados em problemas de “regressão” e “classificação”. Em um problema de regressão, estamos tentando prever os resultados em uma saída contínua, o que significa que estamos a tentando mapear variáveis ​​de entrada para alguma função contínua. Em um problema de classificação, estamos tentando prever os resultados em uma saída discreta. Em outras palavras, estamos tentando mapear variáveis ​​de entrada em categorias distintas.

Exemplo 1:

Dado um conjunto de dados sobre o tamanho de casas no mercado imobiliário, tentar prever o seu preço. Preço em função do tamanho é uma saída contínua, de modo que este é um problema de regressão.

Poderíamos também transformar esse exemplo em um problema de classificação, e em vez de fazer a nossa produção sobre se a casa “é vendida por mais ou menos do que o preço pedido.” Aqui estamos classificando as casas com base no preço em duas categorias distintas.

Exemplo 2:

(A) Regressão — Dada uma imagem de homem/mulher, temos de prever sua idade com base em dados da imagem.

(B) Classificação — Dada um exemplo de tumor cancerígeno, temos de prever se ele é benigno ou maligno através do seu tamanho e idade do paciente.

Exemplo de Classificação e Regressão.

Outro exemplo de Classificação muito utilizado pelos bancos é a decisão do aceite do empréstimo para algum cliente com base no seu histórico de crédito.

Muitos algoritmos são utilizados para criar aprendizes supervisionadas, sendo os mais comuns as Redes Neurais, Máquinas de Vetor de Suporte (SVMs), e Classificadores Naive Bayes.

APRENDIZAGEM NÃO SUPERVISIONADA

A Aprendizagem não supervisionada, por outro lado, nos permite abordar problemas com pouca ou nenhuma idéia do que nossos resultados deve ser aparentar. Podemos derivar estrutura de dados onde nós não necessariamente saberiamos o efeito das variáveis.

Podemos derivar essa estrutura, agrupando os dados com base em relações entre as variáveis ​​nos dados. Também pode ser usada para reduzir o número de dimensões em um conjunto de dados para concentrar somente nos atributos mais úteis, ou para detectar tendências.

Com aprendizagem não supervisionada não há feedback com base nos resultados da previsão, ou seja, não há professor para corrigi-la.

Exemplo 1:

Clustering: Dada uma coleção de 1000 pesquisas de uma universidade encontrar uma maneira de agrupar automaticamente estas pesquisas em um grupos que são de alguma forma semelhantes ou relacionadas por diferentes variáveis, tais como a frequência das palavras, frases, contagem de páginas, etc.

Exemplo 2:

Outro, exemplo não Clustering, é o “Algoritmo Cocktail Party”, que pode encontrar em uma estrutura de dados desorganizada como identificar as vozes individuais e música.

Abordagens comuns de aprendizagem não supervisionada incluem armazenamento em Cluster K-Médio, Hierárquico, e Mapas Auto-organizadores.

Exemplo das diferentes abordagens de aprendizado.

Um exemplo de projeto que implementa aprendizado de máquina de uma maneira simplista é o Apache Mahout que tem por objetivo a construção de um ambiente para a criação rápida de aplicações escaláveis de aprendizado de máquina de alta performance.

Para fechar esse post com chave de ouro deixo a seguinte frase do Daniel Chaves Moran:

“Você pode ter os dados sem informações, mas você não pode ter informações sem dados”.

Bom por hoje é só pessoal, deixem seus comentários e até a próxima!!!