Análise exploratória de dados — O início

Danielle Calazans Dondoni
Danielle Calazans Dondoni
4 min readSep 23, 2020

Recentemente finalizei o bootcamp de Desenvolvedor Python. Eu gostei tanto da experiência e do aprendizado que iniciei o de Cientista de Dados na semana passada. Mal comecei e já estou me programando para o de Machine Learning na sequência, acho que descobri um amorzinho ❤

Na imersão nesse novo mundo de Data Science, descobri um site, o https://sejaumdatascientist.com. Perfeito para o momento! O primeiro post que li foi sobre o Diagnóstico de Doenças Cardiovasculares. Achei a ideia por trás deste desafio fantástica e resolvi tentar.

Aqui publicarei minha análise destes dados e pretendo voltar para estes mesmos arquivos quando tiver um pouco mais de conhecimento. Portanto, o que vou descrever pode ser o óbvio para muitos ou novo para alguns. Não importa, esse é meu primeiro passo e preciso disso para um dia poder caminhar com segurança.

O autor da publicação, Meigarom Lopes, criou um enredo para ajudar no desenvolvimento do projeto. A ideia é criar uma ferramenta para a empresa fictícia Cardio Catch Diseases (CCD) no qual seja possível identificar quais pacientes apresentam riscos de doença cardiovascular com base em dados clínicos e de anamnese. Após a criação da ferramenta é esperado que sejamos capazes de responder essas perguntas ao CEO da empresa:

Qual a acurácia e a precisão da ferramenta?

Quanto lucro a CCD passará a ter com a nova ferramenta?

Qual a confiabilidade do resultado dados pela nova ferramenta?

Para esse início vou me ater aos dois pontos iniciais do roteiro sugerido:

  1. Explore os dados usando ferramentas e testes estatísticos com o objetivo de encontrar inconsistências dos dados e tratar possíveis dados faltantes.
  2. Levante hipóteses sobre as características dos pacientes, valide ou refute essas hipóteses através dos dados.
by https://www.verdict.co.uk/ai-heartbeat/

Os dados utilizados nesse desafio

Os dados foram disponibilizados na plataforma kaggle, com o nome de Cardiovascular Disease dataset. No primeiro momento verifiquei que algumas pessoas questionaram à autora a origem destes dados e a data em que foram obtidos. No entanto, essas informações não foram disponibilizadas. O problema disso: caso haja qualquer divergência/inconsistência/dúvida nos dados, não será possível validar as informações. 😕

Continuando na parte de descrição, é informado que os dados que compõem esse dataset foram obtidos de forma objetiva (avaliadas no momento da consulta), subjetiva (informação dada pelo paciente) e por exames (resultados clínicos). Veja a tabela abaixo:

A coluna Variável é o nome que aparece nos dados originais e o Tipo de variável apresenta a forma em que estes dados são apresentados, sejam número inteiros (1,2,3….), flutuante — uma tradução autoral bem ruim do termo float — compostos por números decimais, aqueles com vírgulas ou ponto (tipo 65,7 e 103.8) e binário, as vezes composto pelo par 0 e 1, e no caso de gênero pelo par 1 (feminino) e 2 (masculino).

Aqui cabe uma outra observação:

Não é apresentado nos dados originais o que todos os binários representam, então as análises serão feitas com algumas suposições. Ou será que devo chamar de inferência estatística para o texto ficar bonito?

Para exemplificar vou precisar apresentar um pedacinho da tabela de dados, vai que isso te anima a continuar lendo o texto! 😉

Pois bem, usando poucas linhas de código já é possível ter uma ideia do que temos em mãos.

Essas são as 15 primeiras linhas do arquivo:

Usando como referência o paciente identificado pelo número 7 (id=12), sabe-se que tem 61 anos (age = 22584/365), gênero masculino (gender = 2), mede 1,78 m (height = 178), pesa 95 Kg (weight = 95.0), a pressão é o que popularmente chamamos de ‘13 por 9’ (ap_hi = 130 e ap_lo = 90), o colesterol e a glicose estão muito acima do normal (cholesterol = 3 e glucose = 3) e apresenta doença cardiovascular (cardio = 1). Pois é, cada linha tem esse tanto de informação sobre cada paciente!

Percebeu que pulei a análise de três colunas? [smoke, alco e active]

Só com esses dados não dá para afirmar o que cada subclassificação representa. Por exemplo, smoke = 0 significa que o paciente fuma ou que não fuma? E alco =1? Quer dizer que bebe ou que não bebe? Para conseguir entender e determinar isso será necessário fazer uma avaliação, mesmo que superficial, de todos os dados.

Eu não consegui segurar a ansiedade e já vi que tem 70000 pacientes, fazendo um cálculo aqui, deixa eu ver… opa, só falta agora a análise de 69999!

Essa parte irei acrescentar no próximo post, antes que aqui fique entediante demais.

Eba, meu primeiro artigo!!!!

--

--