KNN (K-Nearest Neighbors) #2

Obtendo seu dataset

Italo José
aibrasil
4 min readJul 1, 2018

--

Se você não leu, ou não conhece a teoria do funcionamento do KNN, sugiro que leia esse post antes de começar e brincar com este aqui, lá você vai encontrar a explicação do algoritmo sem o uso de códigos.

Por onde começo?

Para que a brincadeira possa ser feita, antes de mais nada precisamos de dados, pois sem eles não existe IA no mundo que funcione!( se existir, posta aqui nos comentários por favor XD)

E onde consigo esses dados?

Caso você não esteja lendo esse artigo já para implementar esse algoritmo na sua empresa(e da pra fazer isso!), provavelmente você não tem dados algum, e como dito anteriormente, sem dados, sem machine learning. Mas calma! Temos uma solução, dados é uma das coisas mais fáceis de conseguir hoje em dia(dependendo do tipo de dado), a forma que vamos usar nesse artigo é a mais fácil delas, existe um lugar na internet onde se concentra N datasets de N formatos e de N tamanhos que é o UCI Machine Learning Repository, enquanto eu escrevo esse artigo o UCI mantém 425 datasets lá, é só baixar!

Como eu escolho um dataset? Não to entendo nada da interface do UCI

Calma, calma, calma, é bem simples, na pagina inicial você irá se depara com alguns datasets logo de cara, vou abordar só um pouco da plataforma e o resto você já vai conseguir se virar tranquilamente.

Na imagem acima, marcado de vermelho, temos os principais repositórios do UCI, por que eles são os principais? Pois eles são os mais fáceis de se trabalhar,não tem dados faltantes, a distribuição dos dados são ótimos pra se trabalhar com machine learning, etc, etc e etc. pois bem, vamos então entrar no dataset que trabalharemos na implementação do KNN, o Breast Cancer Wisconsin (Diagnostic), contém dados sobre o diagnóstico da biópsia de câncer de mamas,

Abrindo o link, você vai se deparar com algumas informações sobre os dados do dataset como na imagem acima, informações como a quantidade de instâncias(pode-se entender por linhas), quantos atributos(pode-se entender por colunas) esse dataset tem, se há dados faltantes, a que área está ligado esses dados e etc.

Um além desses dados nesta mesma página você vai encontrar uma descrição sobre, papers onde esse dataset é citado, as colunas que ele comporta e etc.

Na imagem abaixo nós temos as colunas desse o Breast Cancer nos prove

Como você pode ver(ou não) temos então a descrição das colunas que vamos trabalhar,

Temos aí o id(que não terá utilidade no nosso cenário de classificação,) o diagnóstico (nosso dado de classificação) o raio, a textura, o perímetro e etc, esses demais dados são os atributos que vamos usar para fazer a classificação do tumor, se ele é maligno ou benigno.

Os dados nunca estão no mesmo padrão, isso vai de dataset pra dataset.

Mas onde posso baixar esses dados?

Logo abaixo do nome do dataset você terá dois links, Data Folder, Data Set Description

Começando pela esquerda, o Data Set Description é basicamente as informações sobre o dataset geralmente no formato plain text, já o link Data Folder é onde contém o dataset em si .

Em vermelho está o arquivo correto a ser baixado.

Caso você for seguir o passo a passo dessa série de artigos sobre o knn, sugiro que não baixe o arquivo contido no uci repository, no próximo “episódio” vamos trabalhar um pouco esses dados e irei disponibilizar um dataset já preparado para o nosso knn.

--

--