100 Days of ML Code — Day 2

Published in

johntheology

1 min readJul 9, 2018

Ainda continuo com a preparação dos dados. Estou tentando aproveitar e utilizar o Kernel do Kaggle, que é um Jupyter Nortebook na disponível na nuvem(agora eles estão disponibilizando GPU como no Google Collaboratory).

Enfim. Ainda está bem embrionário o notebook, pois tenho refletido sobre o tratamento dos dados. Achei em outro kernel um método que consiste em 4 C's:

Corrigir
Completar
Criar
Converter

Nos meus dados acho não precisarei corrigir nenhum, mas caso aparecesse alguma idade superior a 150 anos, por exemplo, deveria ser algum erro de digitação e poderia ser 15, ou algo assim.

Precisarei completar bastante coisa, pois tem muito dado faltando. Para isso vou fazer uma medias dos valores já existentes e acrescer um valor randômico dentro do desvio padrão

Vou criar uma variável nova chamada tamanho da família que será referente a soma de duas outras colunas.

A idade, por exemplo, irei converter. Vou definir algumas classes que nada mais são do que ranges de idades e converter cada valor para sua respectiva classe.

Quem quiser acompanhar meu kernel

100 Days of ML Code — Day 2

Written by John Theo