Primeiros passos em Data Science utilizando Python para análise de dados

Published in

Data Hackers

6 min readMay 6, 2020

Quem já se deparou com um problema de análise de dados que uma ferramenta de marcado não solucionou o problema completamente ou de forma eficiente, levanta a mão aí o/.

No mundo da análise de dados, se torna cada vez mais necessário sair da sua zona de conforto, e buscar outras ferramentas que sejam úteis para o universo de um cientista de dados. Felizmente nesse cenário Python é uma boa opção.

Se seu perfil tem uma inclinação para codificar, este é o momento para colocar a mão na massa, de uma maneira simples, acredite, codificar nunca foi tão fácil. Se já está se convencido a dar uma chance para Python, confira as vantagens desta escolha:

A linguagem Python é de alto nível, código aberto, comunidade online muito ativa, fácil de aprender, imperativa, interpretada de scripts, orientada a objetos, funcional, de forte tipagem e dinâmica. Programar em Python é como escrever uma carta para o computador, uma carta em inglês, vale ressaltar.

Com tantos motivos para começar agora a aprender a Python, por que não se render a ela?

Vamos conhecer de forma breve a história dessa linguagem.

Ela foi criada por Guido van Rossum no ano de 1991, com o intuito de possibilitar uma produtividade e legibilidade, em resumo,sua finalidade era produzir código bom e fácil de manter de maneira rápida.

Em sua origem, ela tinha função de linguagem de um propósito geral, com o passar do tempo e grande interação da comunidade, foram acrescentadas bibliotecas dedicadas para análise de dados e modelagem preditiva. Para quem vai começar a sua jornada de análise de dados agora e optar por utilizar esta linguagem, deve começar por estas seguintes bibliotecas.

1 NumPy

Esta biblioteca basicamente contém todas as funções essências de álgebra linear, capacidade de integração com outras ferramentas, funções para manipulação de imagens, sendo principalmente utilizada para cálculos de arrays.

2 Pandas

Ela é muito utilizada para a fase de realização da preparação e operação dos dados em alta performance. Esta biblioteca trabalha com duas estruturas principais: Series e Dataframes. Series diz respeito a um array unidimensional ou uma simples lista, enquanto Dataframes trabalham com estrutura bidimensional de dados, assemelhando-se a uma planilha de Excel. Pandas é simplesmente incrível. Adicionada a pouco tempo, foi um dos principais motivos da atração dos cientistas de dados para Python.

3 Scikit Learn

Esta biblioteca é voltada para a utilização de Machine Learning, sendo desenvolvida a partir das bibliotecas NumPy, SciPy e MatplotLib, contendo uma enorme variedade de algoritmos eficientes para esse segmento da inteligência artificial e modelagem estatística.

4 MatplotLib

Esta por sua vez é amplamente utilizada para visualização de dados. Ela gera gráficos de duas dimensões, sendo o eixo x e y, desde histogramas à gráficos de calor. Esta está por trás dos gráficos gerados pela Pandas.

5 Seaborn

Ela funciona em cima do matplotlib melhorando a aparência dos gráficos, deixando o visual mais agradável.

Agora que temos uma base para começar, vamos colocar as mãos à obra?

Para este primeiro momento vamos ver algumas funções básicas utilizando o arquivo .csv com o clássico Iris, que pode ser obtido no repositório da UCI Machine Learning Repository: http://www.ics.uci.edu/~mlearn/MLRepository.html.

Esta Database possui quatro variáveis (comprimento e largura de sépalas e pétalas) de 50 amostras de três espécies de íris (Iris setosa, Iris virginica e Iris versicolor). Estas informações foram utilizadas para formar um modelo discriminante linear para classificar as espécies. Este conjunto é muito utilizado para treinamentos de algoritmos.

Primeiros passos

Vamos começar importando para o nosso projeto as bibliotecas principais para a nossa análise.

A instrução import traz para o Python a biblioteca para ser utilizada no código. A palavra as após o nome da biblioteca. cria um “apelido” a ela, para que possa ser referenciada depois.

O estilo do gráfico é definido por plt.style.use(“ggplot”).

Leitura do arquivo

Para isto pode ser utilizada a função pd.read_csv (‘local_do_arquivo.extensao’) onde é carregado o dataset para a memória e o armazenado dentro da variável “planta”. O arquivo .csv — separado por vírgulas — será apresentado na forma de tabela, por causa da biblioteca Pandas.

Função head()

A função head() exibe as linhas iniciais da base de dados, se nenhum valor for informado, esta função vai exibir as cinco primeiras linhas.

Função describe()

Esta função describe(), retorna o resumo das variáveis numéricas da base de dados trazendo informações relevantes dos dados, como média, desvio padrão, etc. que poderão ser utilizados para gerar estatísticas.

Tipo de dados

A função dtypes mostra como Python interpreta os valores nela, ou seja o tipo de dados.

Tamanho da base de dados

Pandas possui o comando shape, que retorna uma tupla com dois valores, sendo respectivamente a quantidade de linhas e colunas da tabela.

Renomeando as colunas

A biblioteca Pandas possui o atributo columns, que diz respeito ao nome das colunas da tabela. Uma boa tática, é renomear as colunas para facilitar a manipulação e entendimento da base de dados. Para realizar a modificação basta informar os novos nomes em uma lista do Python e armazená-los como se fosse uma variável.

Verificando como ficou o nome das colunas, utilizando a função head().

Valores nulos

Valores nulos, são campos que não possuem nenhum valor informado. A função isnull() possibilita trabalhar com valores nulos encontrados no DataFrame. O código abaixo, retorna as linhas em que há valores nulos na coluna “sepala_comprimento”.

Neste caso nenhum valor nulo foi encontrado.

Contagem de valores

Quando você precisar saber o total de cada classificação, poderá utilizar a função value_counts.

Visualização dos dados

Agora sim, chegamos na parte mais esperada, a cereja do bolo, risos.

Brincadeiras a parte, um bom gráfico gerado é fundamental para auxiliar o tomador de decisão, por isso a necessidade de saber escolher o tipo de gráfico correto e tornar o mesmo o mais claro possível. Uma dica: o menos é mais neste caso.

Utilizando a biblioteca Pandas, podemos criar um gráfico com apenas uma linha de código.