Métodos de tratamento para dados Categóricos em Python!

alegeorgelustosa
4 min readDec 28, 2018

--

A atividade de pré-processamento dos dados é chata porém vital ao trabalho do cientista de dados.

Neste notebook nosso foco será o tratamento dos dados categóricos e métodos diferentes para trata-los.

Existem diversas formas de otimizar as observações para submete-los ao algoritmo. Como o mundo de ciência de dados é enorme, iremos exemplificar algumas maneiras simples e eficazes para esta tarefa tão importante.

O dataset utilizado será o Titanic do Kaggle… Ok, eu sei que este conjunto de dados já “encheu o saco”… rs, porém como os dados já são conhecidos e/ou são fáceis de compreender, não iremos dispender atenção na compreensão das features e sim nos métodos propostos na atividade.

Vamos verificar a quais os tipos de dados temos em nosso Dataset!

As colunas [‘PassengerId’,’Ticket’, ‘Name’ ] não possuem informações relevantes para este nosso estudo sobre Dados Categóricos! Vamos remove-los do nosso Dataframe!

Para os dados Faltantes em colunas Categóricas como Cabin e Embarked iremos preenche-los como “Missing”, apenas por praticidade. Poríamos substituir pela Moda, por grupo, etc…

Agora utilizado o train_test_split para dividir os dados em Treino e Teste

Agora iremos substituir os valores faltantes da coluna Age pelos valores da parte direita da distribuição

Ok, agora nossos dados estão prontos para efetuarmos os tratamentos de dados Categóricos!

Método de Contagem da frequência dos dados!

WoE — O peso da evidência (WOE) e o valor da Informação (IV) são técnicas simples, porém poderosas, para realizar a transformação e seleção variáveis. Esses conceitos têm enorme conexão com a técnica de modelagem de regressão logística.

Interessante, utilizando o Xgboost obtivemos o melhor resultado com o método One Hot Encoding!

Conclusão: O mundo da ciência de dados é fascinante devido a versatilidade e a possibilidade de trabalhar os dados de diferentes formas. Não existe receita de bolo e/ou melhor algoritmo. A sua criatividade e conhecimento de métodos estatísticos podem melhorar consideravelmente cada resultado nos seus modelos.

--

--

alegeorgelustosa

Economist and entrepreneur, passionate about marketing, founder of the Don George brand!