Aprendizado não supervisionado com análise de agrupamento! — Os melhores links da semana #6

Os melhores links da semana de 15 a 21 de Abril de 2019!

Marcel Ribeiro Dantas
Data Hackers
3 min readApr 27, 2019

--

Retirado de Towards Data Science.

Olá p-essoal! Sexta-feira chegou e mais uma edição dos melhores links da semana :-).

Chega junto galera!

O clustering ou análise de agrupamento de dados se refere ao conjunto de técnicas de mineração de dados com o propósito de agrupar automaticamente dados segundo alguma métrica de associação. É também enquadrado na categoria de algoritmos não supervisionados (Clique aqui caso não esteja familiarizado com esse termo). Um problema que comumente nos deparamos quando estamos tentando inferir agrupamentos em um conjunto de dados é o número de clusters que buscamos encontrar. Esse número rotineiramente é conhecido como k, talvez como referência ao k-means, um algoritmo bastante conhecido de clusterização. Dois modos de te ajudar a escolher um bom k é o método do cotovelo (elbow method) e o da silhueta (silhouette). Ainda assim, que chatinho, ein? Você está querendo realizar um aprendizado não supervisionado e ainda assim precisa definir a priori um número de classes (ou clusters, como queira)?! Calma lá, sommelier de dados! Também existem algoritmos de clusterização que não necessitam dessa escolha a priori. Mas segue a mesma lógica de sempre, cada um tem suas vantagens e desvantagens. Cheque aqui os 5 principais algoritmos de agrupamento que todo cientista de dados deve saber. E clique aqui e aqui para ver mais sobre outros algoritmos de clusterização similares ao k-means.

Doendo o quê!?

Para quem já ouviu falar de dendrogramas, ou já viu um, são representações comumente utilizadas para se visualizar agrupamentos hierárquicos.

Retirado de Computer Science Master.

Em algumas situações, é importante compreender a hierarquia entre as amostras de um cluster, e não apenas agrupar essas amostras. Em exemplos mais introdutórios de clusterização, costumamos lidar com dados de mesmo tipo. Entretanto, na vida real as coisas não costumam ser assim. E se nós temos amostras com variáveis de vários tipos? Imagino que ninguém vai se surpreender se eu falar que essa pergunta já foi feita no Cross Validated (Stack Exchange), né? Pois é, e também foi respondida!

Nem sempre.

É bem comum ouvir aspirantes a cientistas de dados buscando receitas de bolos e balas de prata, algo que possa ser aplicado de forma genérica. Quando o assunto é visualização de dados então, há uma fome incontrolável por regrinhas (e eu já postei nessa série algumas imagens que ajudam nisso) para saber quando usar qual tipo de visualização. No entanto, as coisas não são tão simples. Ás vezes, não tem problema em quebrar as regras.

Bônus

Para a turma que perde um tempo besta no Instagram, tem um perfil lá bem legal com, como eles mesmo dizem, conceitos rápidos e leves sobre Machine Learning. Se bate aquele peso na consciência de estar passando um tempão no Instagram, só passando a barra de rolagem para cima, sinta-se produtivo acompanhando esse perfil! Hahaha

Bônus 2

Está começando agora e acha que está voando na estatística? Veja aqui 5 conceitos básicos de estatística que todo cientista de dados deve saber!

Oportunidades!

  1. Engenheiro(a) de Dados at Conta Azul.
  2. Data Scientist Júnior at Diin.
  3. Technical Architect (Associate Director) at IQVIA.

Como vocês sabem, essa série é uma versão resumida e mais contextualizada da série Best Links of the Week do meu blog pessoal. Caso queiram uma versão mais crua, mas mais extensa e completa, é só checar lá! Tem links fora da temática de data science também!

Espero que tenham gostado, e até mais [links]!

--

--

Marcel Ribeiro Dantas
Data Hackers

Early Stage Researcher at Institut Curie and PhD Student at Sorbonne Université. Data Scientist, Software Freedom Activist and Bioinformagician!