DEZ MITOS SOBRE APRENDIZADO DE MÁQUINA

Published in

Data Science Brigade

6 min readOct 27, 2016

Aprendizado de máquina costumava a acontecer nos bastidores: a Amazon minerava seus cliques e compras para recomendações, a Google minerava suas buscas para posicionar ads, e o Facebook minerava sua rede social para escolher quais posts te mostrar. Mas agora aprendizado de máquina está na capa de jornais, e é o assunto de uma discussão que dá o que falar. Algoritmos de carros que dirigem sozinhos e traduzem texto por conta própria. O que eles não conseguem fazer? Eles são o início do fim da privacidade, do trabalho e até da raça humana? Essa preocupação crescente é bem vinda. O aprendizado de máquina é uma força enorme que está moldando o nosso futuro, e precisamos enfrentá-lo. Infelizmente, muitas ideias erradas apareceram em torno do assunto, e dissipa-las é o primeiro passo para isso. Vamos passar rapidamente pelas principais:

APRENDIZADO DE MÁQUINA É APENAS RESUMIR DADOS

Na realidade, o propósito principal de aprendizado de máquina é prever o futuro. Saber os filmes que você assistiu no passado é só uma maneira de descobrir quais você gostaria de assistir em seguida. Seu registro de crédito é um guia para saber se você vai pagar suas contas até o vencimento. Como cientistas robóticos, algoritmos de aprendizado formulam hipóteses, as refinam e só acreditam nelas quando suas predições se mostram reais. Algoritmos de aprendizado não são ainda tão inteligentes quanto cientistas, mas são um milhão de vezes mais rápidos.

ALGORITMOS DE APRENDIZADO APENAS DESCOBREM CORRELAÇÕES ENTRE PARES DE EVENTOS

Essa é a impressão que você tem da maioria das menções sobre aprendizado de máquina na mídia. Em um exemplo famoso, um aumento de buscas no Google por “resfriado” é um sinal inicial de que existe uma epidemia. Isso é bem ok, mas a maioria dos algoritmos de aprendizado descobrem formas muito melhores de conhecimento, como a regra de que se uma pinta no seu corpo tem um formato e cor irregulares e está crescendo, pode ser câncer de pele.

APRENDIZADO DE MÁQUINA PODE APENAS DESCOBRIR CORRELAÇÕES, NÃO RELAÇÕES DE CAUSA

De fato, os tipos mais populares de aprendizado de máquina consistem em tentar diferentes ações e observar as suas consequências — a essência da descoberta de causa. Por exemplo, um site de e-commerce pode tentar diferentes maneiras de apresentar um produto e escolher o que mais gera vendas. Você provavelmente já participou de centenas desses experimentos sem nem saber. E uma relação de causa pode ser descoberta mesmo em algumas situações onde experimentos estão fora de questão, e tudo que o computador pode fazer é olhar em dados passados.

APRENDIZADO DE MÁQUINA NÃO PODE PREVER EVENTOS QUE NÃO ACONTECERAM ANTERIORMENTE, TAMBÉM CONHECIDOS COMO "CISNES NEGROS"

Se alguma coisa nunca aconteceu antes, a probabilidade de ser prevista é de zero porcento. O que mais poderia ser? Bastante pelo contrário, aprendizado de máquina é a arte de prever eventos raros com precisão alta. Se A é uma das causas de B e B é uma das causas de C, A pode levar ao C, mesmo se nunca vimos esse caso acontecer antes. Todo dia, filtros de spam marcam corretamente novos emails maliciosos. Cisnes negros como a quebra do mercado imobiliário nos EUA em 2008 foram de fato amplamente previstos — apenas não pelos modelos de risco datados que os bancos estavam usando na época.

QUANTO MAIS DADOS VOCÊ TER, É MAIS PROVÁVEL QUE VOCÊ CRIE PADRÕES VICIADOS

Supostamente, quanto mais dados a NSA analisar, a chance de marcarem um cidadão inocente como um terrorista se torna maior, porque ela pode acidentalmente o ter cruzado com uma regra de detecção de terroristas. Minar mais atributos da mesma entidade pode de fato aumentar o risco de vícios, mas experts de aprendizado de máquina são muito bons em mante-los a um mínimo. Por outro lado, minar mais entidades com o mesmo set de atributos diminui o risco, porque as regras aprendidas vão ter um suporte maior. E algoritmos de aprendizado podem achar padrões envolvendo entidades múltiplas, que os fazem ainda mais robustos: uma pessoa gravando a prefeitura de Nova York pode não ser suspeita, e outra comprando nitrato de amônio também pode não ser; mas se as duas estiverem em contato próximo por telefone, talvez o FBI devesse investiga-los para garantir que não há uma tentativa de bombardeio.

APRENDIZADO DE MÁQUINA IGNORA CONHECIMENTO JÁ EXISTENTE

Experts em muitas áreas olham com certo desdém para o “estado em branco” em que um algoritmo de aprendizado que eles conhecem inicia. Conhecimento real é o resultado de um processo longo de estudo e experimento, que você não pode copiar rodando um algoritmo genérico em um banco de dados. Mas nem todos algoritmos de aprendizado iniciam “em branco”; alguns usam dados para refinar um corpo de conhecimento pré existente, que pode ser bastante elaborado, partindo do princípio que está documentado de uma forma que um computador pode entender.

OS MODELOS QUE COMPUTADORES USAM PARA APRENDER SÃO INCOMPREENSÍVEIS POR HUMANOS

Isso é naturalmente uma causa de preocupação. Se o algoritmo de aprendizado é uma caixa preta, como podemos confiar nas suas recomendações? Alguns tipos de modelos são de fato muito difíceis de serem entendidos, como redes neurais responsáveis por alguns dos sucessos mais notáveis de aprendizado de máquina (como reconhecer gatos em vídeos no YouTube). Mas outros são bastante compreensíveis, como a regra para diagnosticar câncer de pele que vimos antes.

Todos esses mitos são pessimistas, de uma maneira que eles assumem que aprendizado de máquina é mais limitado do que realmente é. Mas também existem mitos otimistas:

MODELOS SIMPLES SÃO MAIS PRECISOS

Essa crença é relacionada a tesoura de Occam, mas a tesoura apenas diz que explicações simples são melhores, não o porquê. Elas são melhores porque são mais fáceis de serem entendidas, lembradas e discutidas.
Em alguns casos a hipótese mais simples com os dados é menos precisa para predição do que uma mais complicada. Alguns dos algoritmos de aprendizado de máquina mais poderosos produzem modelos que parecem ser mais elaborados que precisariam ser — algumas vezes até continuando a melhora-los depois de terem encaixado perfeitamente os dados — mas essa é a maneira que eles vencem dos menos poderosos.

OS PADRÕES QUE COMPUTADORE DESCOBREM PODEM SER TOMADOS COMO CERTEZAS

Se um algoritmo de aprendizado produz a regra para câncer de pele que falamos sobre mais cedo e é muito preciso (no sentido de que quase todas as pintas que ele sinalizada como problemáticas são de fato tumores), isso não significa que necessariamente nós devemos acreditar nele. Uma pequena mudança nos dados pode ser a causa para que o algoritmo comece a induzir uma regra muito diferente. Apenas regras que se mantém consistentes apesar de variações aleatórias dentro dos dados podem ser confiáveis.

APRENDIZADO DE MÁQUINA EM BREVE VAI DAR NASCIMENTO A INTELIGÊNCIA SUPER HUMANA

Das notícias diárias sobre o avanço da área de inteligência artificial, é fácil ter a impressão de que computadores estão a alguns passos de ver, falar e pensar tão bem quanto nós pensamos, em um cenário de que em breve nos deixarão para trás. Nós certamente já percorremos um caminho muito grande nos primeiros cinquenta anos da inteligência artificial, e aprendizado de máquina é o principal motivo para o seu recente sucesso, mas nós ainda temos um caminho muito maior pela frente. Computadores podem fazer pequenas tarefas muito bem, mas eles ainda não tem senso comum, e ninguém realmente sabe como ensinar isso a eles.

Então aí está. Da mesma maneira que aprendizado de máquina é mais poderoso do que nós geralmente imaginamos, também é menos. O que faremos com ele cabe totalmente a nós — partindo da ideia que saibamos exatamente o que ele faz.

Post original escrito por Pedro Domingos, traduzido de https://medium.com/@pedromdd/ten-myths-about-machine-learning-d888b48334a3#.1fmtoskeo