5 Ferramentas para Análise de dados — Python

Wesley Watanabe
4 min readJun 10, 2020

--

Bibliotecas em Python para auxiliar em análises.

Introdução

Para aqueles que possuem atividades diárias em análise de dados já perceberam que em alguns processos sempre seguimos pelo mesmo caminho. Nesse artigo vou sugerir a você algumas bibliotecas do Python para te ajudar nessas análises.

Vamos lá 👍🏻

Pandas Profiling

Se você assim como eu tem gastado horas criando gráficos, fazendo merges de dataframes essa biblioteca pode te ajudar.

A principal recurso dela é um relatório muito completo que a ferramenta gera, contendo por exemplo tipo de valores, nulls, média, valores constantes, heatmaps, histograma por feature etc.

Instalação via pip

pip install pandas-profiling[notebook]

Usando

import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport
df = pd.DataFrame(
np.random.rand(100, 5),
columns=["a", "b", "c", "d", "e"]
)
profile = ProfileReport(df, title='Pandas Profiling Report', explorative=True)

A ferramenta é usada direto no jupyter notebook.

Página do projeto

TQDM

Essa pequena nos ajuda com um status dos processos executados no jupyter notebook. É bem útil quando temos processos demorados como uma importação de arquivo grande.

Instalação

pip install tqdm

Usando

from tqdm import tqdm
for i in tqdm(range(10000)):

Página do projeto

https://pypi.org/project/tqdm

Streamlit

Streamlit é um framework open source para nos auxiliar a fazer deploy de modelos de Machine Learning ou simplesmente criar visualizações dos dados (…). Com ele é possível fazer filtros nos dados, carregar arquivos, gerar gráficos através de outras bibliotecas (matplotlib, seaborn).

Instalação

pip install streamlit

Usando

streamlit hello

Página do projeto

https://www.streamlit.io

Bokeh

A biblioteca Bokeh é uma mão na roda na hora de criar dashboards, plotagens com interatividade ou aplicações de dados.

Instalação

pip install bokeh

Usando

from bokeh.plotting import figure, output_file, show# prepare some data
x = [1, 2, 3, 4, 5]
y = [6, 7, 2, 4, 5]
# output to static HTML file
output_file("lines.html")
# create a new plot with a title and axis labels
p = figure(title="simple line example", x_axis_label='x', y_axis_label='y')
# add a line renderer with legend and line thickness
p.line(x, y, legend_label="Temp.", line_width=2)
# show the results
show(p)

Página do projeto

Scrapy

Scrapy é um framework para auxiliar na extração dos dados (Webscraping). O Scrapy tem muitas semelhanças como outras bibliotecas de ‘scrapping’ (Selenium e BeautifulSoup).

Instalação

pip install scrapy

Usando

import scrapyclass BlogSpider(scrapy.Spider):
name = 'blogspider'
start_urls = ['https://blog.scrapinghub.com']
def parse(self, response):
for title in response.css('.post-header>h2'):
yield {'title': title.css('a ::text').get()}
for next_page in response.css('a.next-posts-link'):
yield response.follow(next_page, self.parse)
scrapy runspider myspider.py

Não esqueça!

Essas foram algumas dicas de bibliotecas, porém existem as mais conhecidas que você provavelmente já deve conhecer, tais como:

--

--