Primeiros passos em Data Science utilizando Python para análise de dados
Quem já se deparou com um problema de análise de dados que uma ferramenta de marcado não solucionou o problema completamente ou de forma eficiente, levanta a mão aí o/.
No mundo da análise de dados, se torna cada vez mais necessário sair da sua zona de conforto, e buscar outras ferramentas que sejam úteis para o universo de um cientista de dados. Felizmente nesse cenário Python é uma boa opção.
Se seu perfil tem uma inclinação para codificar, este é o momento para colocar a mão na massa, de uma maneira simples, acredite, codificar nunca foi tão fácil. Se já está se convencido a dar uma chance para Python, confira as vantagens desta escolha:
A linguagem Python é de alto nível, código aberto, comunidade online muito ativa, fácil de aprender, imperativa, interpretada de scripts, orientada a objetos, funcional, de forte tipagem e dinâmica. Programar em Python é como escrever uma carta para o computador, uma carta em inglês, vale ressaltar.
Com tantos motivos para começar agora a aprender a Python, por que não se render a ela?
Vamos conhecer de forma breve a história dessa linguagem.
Ela foi criada por Guido van Rossum no ano de 1991, com o intuito de possibilitar uma produtividade e legibilidade, em resumo,sua finalidade era produzir código bom e fácil de manter de maneira rápida.
Em sua origem, ela tinha função de linguagem de um propósito geral, com o passar do tempo e grande interação da comunidade, foram acrescentadas bibliotecas dedicadas para análise de dados e modelagem preditiva. Para quem vai começar a sua jornada de análise de dados agora e optar por utilizar esta linguagem, deve começar por estas seguintes bibliotecas.
1 NumPy
Esta biblioteca basicamente contém todas as funções essências de álgebra linear, capacidade de integração com outras ferramentas, funções para manipulação de imagens, sendo principalmente utilizada para cálculos de arrays.
2 Pandas
Ela é muito utilizada para a fase de realização da preparação e operação dos dados em alta performance. Esta biblioteca trabalha com duas estruturas principais: Series e Dataframes. Series diz respeito a um array unidimensional ou uma simples lista, enquanto Dataframes trabalham com estrutura bidimensional de dados, assemelhando-se a uma planilha de Excel. Pandas é simplesmente incrível. Adicionada a pouco tempo, foi um dos principais motivos da atração dos cientistas de dados para Python.
3 Scikit Learn
Esta biblioteca é voltada para a utilização de Machine Learning, sendo desenvolvida a partir das bibliotecas NumPy, SciPy e MatplotLib, contendo uma enorme variedade de algoritmos eficientes para esse segmento da inteligência artificial e modelagem estatística.
4 MatplotLib
Esta por sua vez é amplamente utilizada para visualização de dados. Ela gera gráficos de duas dimensões, sendo o eixo x e y, desde histogramas à gráficos de calor. Esta está por trás dos gráficos gerados pela Pandas.
5 Seaborn
Ela funciona em cima do matplotlib melhorando a aparência dos gráficos, deixando o visual mais agradável.
Agora que temos uma base para começar, vamos colocar as mãos à obra?
Para este primeiro momento vamos ver algumas funções básicas utilizando o arquivo .csv com o clássico Iris, que pode ser obtido no repositório da UCI Machine Learning Repository: http://www.ics.uci.edu/~mlearn/MLRepository.html.
Esta Database possui quatro variáveis (comprimento e largura de sépalas e pétalas) de 50 amostras de três espécies de íris (Iris setosa, Iris virginica e Iris versicolor). Estas informações foram utilizadas para formar um modelo discriminante linear para classificar as espécies. Este conjunto é muito utilizado para treinamentos de algoritmos.
Primeiros passos
Vamos começar importando para o nosso projeto as bibliotecas principais para a nossa análise.
A instrução import traz para o Python a biblioteca para ser utilizada no código. A palavra as após o nome da biblioteca. cria um “apelido” a ela, para que possa ser referenciada depois.
O estilo do gráfico é definido por plt.style.use(“ggplot”).
Leitura do arquivo
Para isto pode ser utilizada a função pd.read_csv (‘local_do_arquivo.extensao’) onde é carregado o dataset para a memória e o armazenado dentro da variável “planta”. O arquivo .csv — separado por vírgulas — será apresentado na forma de tabela, por causa da biblioteca Pandas.
Função head()
A função head() exibe as linhas iniciais da base de dados, se nenhum valor for informado, esta função vai exibir as cinco primeiras linhas.
Função describe()
Esta função describe(), retorna o resumo das variáveis numéricas da base de dados trazendo informações relevantes dos dados, como média, desvio padrão, etc. que poderão ser utilizados para gerar estatísticas.
Tipo de dados
A função dtypes mostra como Python interpreta os valores nela, ou seja o tipo de dados.
Tamanho da base de dados
Pandas possui o comando shape, que retorna uma tupla com dois valores, sendo respectivamente a quantidade de linhas e colunas da tabela.
Renomeando as colunas
A biblioteca Pandas possui o atributo columns, que diz respeito ao nome das colunas da tabela. Uma boa tática, é renomear as colunas para facilitar a manipulação e entendimento da base de dados. Para realizar a modificação basta informar os novos nomes em uma lista do Python e armazená-los como se fosse uma variável.
Verificando como ficou o nome das colunas, utilizando a função head().
Valores nulos
Valores nulos, são campos que não possuem nenhum valor informado. A função isnull() possibilita trabalhar com valores nulos encontrados no DataFrame. O código abaixo, retorna as linhas em que há valores nulos na coluna “sepala_comprimento”.
Neste caso nenhum valor nulo foi encontrado.
Contagem de valores
Quando você precisar saber o total de cada classificação, poderá utilizar a função value_counts.
Visualização dos dados
Agora sim, chegamos na parte mais esperada, a cereja do bolo, risos.
Brincadeiras a parte, um bom gráfico gerado é fundamental para auxiliar o tomador de decisão, por isso a necessidade de saber escolher o tipo de gráfico correto e tornar o mesmo o mais claro possível. Uma dica: o menos é mais neste caso.
Utilizando a biblioteca Pandas, podemos criar um gráfico com apenas uma linha de código.
Os cinco argumentos passados na nossa linha de código são:
Kind: informa o tipo de gráfico, foi escolhido aqui o de barras ou “bar”;
Figsize: informa o tamanho que o gráfico terá.
Grid: permite que apareça as linhas de grade no gráfico.
Rot: informa o grau de rotação dos dados que o eixo X devem ter.
Color: a cor do gráfico.
Finalizando
Estas foram algumas dicas iniciais, há muito mais a ser explorado, muita coisa para aprender com Python e suas bibliotecas.
Obrigada pela leitura, até mais!