100 Days of ML Code — Day 2

John Theo
johntheology

--

Ainda continuo com a preparação dos dados. Estou tentando aproveitar e utilizar o Kernel do Kaggle, que é um Jupyter Nortebook na disponível na nuvem(agora eles estão disponibilizando GPU como no Google Collaboratory).

Enfim. Ainda está bem embrionário o notebook, pois tenho refletido sobre o tratamento dos dados. Achei em outro kernel um método que consiste em 4 C's:

  • Corrigir
  • Completar
  • Criar
  • Converter

Nos meus dados acho não precisarei corrigir nenhum, mas caso aparecesse alguma idade superior a 150 anos, por exemplo, deveria ser algum erro de digitação e poderia ser 15, ou algo assim.

Precisarei completar bastante coisa, pois tem muito dado faltando. Para isso vou fazer uma medias dos valores já existentes e acrescer um valor randômico dentro do desvio padrão

Vou criar uma variável nova chamada tamanho da família que será referente a soma de duas outras colunas.

A idade, por exemplo, irei converter. Vou definir algumas classes que nada mais são do que ranges de idades e converter cada valor para sua respectiva classe.

Quem quiser acompanhar meu kernel

--

--

John Theo
johntheology

Engenheiro da Computação, musico, esposo, pai. Buscando acertar os detalhes da vida com muita arte.