Estatística e Machine Learning: uma coisa é uma coisa e outra coisa é outra coisa. Será?

Você não precisa ser uma pessoa técnica para ler este post.

Qual a diferença entre Machine Learning e Estatística?

Nos posts anteriores eu falei sobre Machine Learning e como tal área está intrinsicamente relacionada com dados.

Perdeu os posts anteriores? Não se preocupe. Eu listo eles aqui pra você:
* Afinal, o que Machine Learning e Redes Neurais fazem?
* Deep Learning: nunca vi, nem comi, mas já ouvi falar

Entretanto, a utilização de dados para predições ou inferências não é exclusividade de Machine Learning. Qualquer pessoa que já tenha feito uma aula introdutória de estatística provavelmente já ouviu uma definição similar. E isso, por si só, já levanta uma questão:

Qual a diferença entre Estatística e Machine Learning?

Situação

Nada melhor do que começar qualquer explicação através de exemplos, certo? Vamos considerar a seguinte situação: vamos supor que você está procurando apartamento para alugar (e essa é a história da minha vida nos últimos anos).

Podemos entender um apartamento como um conjunto de características, tais como: número de cômodos, bairro em que está localizado, tamanho em metros quadrados, condomínio com lazer (possui churrasqueira, piscina, quadra poliesportiva?), proximidade com metrô, e inclusive, valor para locação.

Imagine agora que você foi convidado por uma amiga para conhecer um apartamento que ela visitou e está sugerindo que você o alugue. Mas, pelo calor da emoção, ela ainda não te informou qual é o preço do aluguel. Será que, baseando-se nas características do apartamento, você consegue chutar um valor?

Abordagens

Eu consigo pensar em pelo menos 3 abordagens diferentes para estimar o valor de locação de um apartamento:

  1. Definindo regras para fazer uma estimativa. Podemos escrever um código de programação a partir de algumas regras condicionais, tais como:
    * Se o apartamento possui 2 quartos E está localizado em um bairro nobre, a locação de tal apartamento deve valer mais que R$ 3.000,00 (valor totalmente esotérico e não se baseia em nenhum estudo real);
    * Se não, o preço não deve ultrapassar R$ 3.000,00.
  2. Baseando-se em outros apartamentos similares a esse, os quais você conhece o preço, é possível extrair a média de valores e estimar um valor para o apartamento em questão. Neste caso, você está aplicando Estatística!
  3. Você também pode coletar informações de milhares de apartamentos e ensinar algum algoritmo. O objetivo deste algoritmo é aprender qual é o valor de locação através de dados de outros apartamentos similares. Neste caso, estamos utilizando Machine Learning, onde o algoritmo é treinado a partir de casos reais e, quando chegarem características de um novo apartamento, tal algoritmo também é capaz de estimar razoavelmente um valor.

Provavelmente você consegue pensar em outras abordagens e eu ficarei feliz se você quiser compartilha-las através do espaço disponível para comentários ao final deste post =)

Mas, voltando ao assunto, neste momento, você deve ser capaz de entender a sutil diferença entre aplicação de estatística em contrapartida com Machine Learning, não? E dessa forma, eu te convido a entender um pouco mais. Vem comigo?

Podemos também diferenciar os termos procurando suas origens:
Machine Learning é considerado um sub-campo de Inteligência Artificial. Enquanto Estatística, por sua vez, é um sub-campo da Matemática.

Legal Andressa. E daí?

E daí que compreender (ou pelo menos observar) a origem de cada área nos leva a entender qual o interesse delas. Quer ver?

De maneira bem simples (e os matemáticos me perdoem), por pertencer a um sub-campo da Matemática, a Estatística está fundamentalmente preocupada com o comportamento dos dados. Em outras palavras, ela está preocupada com média, desvio padrão, variância, co-variância, correlação, e inúmeras outras medidas que eu prometo desmistificar em um próximo post.

Por outro lado, Machine Learning está principalmente preocupado em resolver problemas existentes no mundo real (polêmico isso), o que implica em predições e reconhecimento de padrões. Retomando o exemplo dado anteriormente, a ótica de Machine Learning é sim prever o valor de um apartamento da maneira mais assertiva possível.

Compreender também a maneira como os dados atuam em cada uma das áreas é interessante para diferenciá-las. A Estatística utiliza os dados para tentar identificar padrões ou correlações, enquanto Machine Learning utiliza os dados para aprender a fazer predições. É como se os dados programassem! \o/

Enfim, Machine Learning também utiliza bastante estatística para lidar com dados e também para entender quão bem um algoritmo está sendo treinado, por exemplo. Em alguns momentos os termos (Modelagem) Estatística e Machine Learning realmente se confundem. Se você quiser partir para compreensões mais técnicas, o artigo Statistics vs Machine Learning, fight! é uma ótima fonte para começar.