5 Ferramentas para Análise de dados — Python

4 min readJun 10, 2020

Bibliotecas em Python para auxiliar em análises.

Introdução

Para aqueles que possuem atividades diárias em análise de dados já perceberam que em alguns processos sempre seguimos pelo mesmo caminho. Nesse artigo vou sugerir a você algumas bibliotecas do Python para te ajudar nessas análises.

Vamos lá 👍🏻

Pandas Profiling

Se você assim como eu tem gastado horas criando gráficos, fazendo merges de dataframes essa biblioteca pode te ajudar.

A principal recurso dela é um relatório muito completo que a ferramenta gera, contendo por exemplo tipo de valores, nulls, média, valores constantes, heatmaps, histograma por feature etc.

Instalação via pip

pip install pandas-profiling[notebook]

Usando

import numpy as np
import pandas as pd
from pandas_profiling import ProfileReportdf = pd.DataFrame(
    np.random.rand(100, 5),
    columns=["a", "b", "c", "d", "e"]
)
profile = ProfileReport(df, title='Pandas Profiling Report', explorative=True)

A ferramenta é usada direto no jupyter notebook.

Página do projeto

pandas-profiling/pandas-profiling

Generates profile reports from a pandas DataFrame. The pandas df.describe() function is great but a little basic for…

github.com

TQDM

Essa pequena nos ajuda com um status dos processos executados no jupyter notebook. É bem útil quando temos processos demorados como uma importação de arquivo grande.

Instalação

pip install tqdm

Usando

from tqdm import tqdm
for i in tqdm(range(10000)):

Página do projeto

https://pypi.org/project/tqdm

Streamlit

Streamlit é um framework open source para nos auxiliar a fazer deploy de modelos de Machine Learning ou simplesmente criar visualizações dos dados (…). Com ele é possível fazer filtros nos dados, carregar arquivos, gerar gráficos através de outras bibliotecas (matplotlib, seaborn).

Instalação

pip install streamlit

Usando

streamlit hello

Página do projeto

https://www.streamlit.io

Bokeh

A biblioteca Bokeh é uma mão na roda na hora de criar dashboards, plotagens com interatividade ou aplicações de dados.

Instalação

pip install bokeh

Usando

from bokeh.plotting import figure, output_file, show# prepare some data
x = [1, 2, 3, 4, 5]
y = [6, 7, 2, 4, 5]# output to static HTML file
output_file("lines.html")# create a new plot with a title and axis labels
p = figure(title="simple line example", x_axis_label='x', y_axis_label='y')# add a line renderer with legend and line thickness
p.line(x, y, legend_label="Temp.", line_width=2)# show the results
show(p)

Página do projeto

Bokeh 2.0.2 Documentation

Bokeh is an interactive visualization library for modern web browsers. It provides elegant, concise construction of…

docs.bokeh.org

Scrapy

Scrapy é um framework para auxiliar na extração dos dados (Webscraping). O Scrapy tem muitas semelhanças como outras bibliotecas de ‘scrapping’ (Selenium e BeautifulSoup).

Instalação

pip install scrapy

Usando

import scrapyclass BlogSpider(scrapy.Spider):
    name = 'blogspider'
    start_urls = ['https://blog.scrapinghub.com']    def parse(self, response):
        for title in response.css('.post-header>h2'):
            yield {'title': title.css('a ::text').get()}        for next_page in response.css('a.next-posts-link'):
            yield response.follow(next_page, self.parse)
scrapy runspider myspider.py

Não esqueça!

Essas foram algumas dicas de bibliotecas, porém existem as mais conhecidas que você provavelmente já deve conhecer, tais como:

Obrigado por ler este artigo, espero que essas dicas sejam úteis!
Pretendo no futuro escrever sobre algumas dessas ferramentas mais profundamente.

Outros artigos

Using Python, Matplotlib, Pandas and Folium to Data Analysis

The propose this article is work with a dataset and generate informations about them. Dataset we will use here I found…

medium.com

Prevendo as notas do ENEM com Machine learning — Data Science

Criando um modelo preditivo com Python, Scikit learn e Jupyter/Colab.

medium.com

Linkedin

https://www.linkedin.com/in/wesleywatanabe

5 Ferramentas para Análise de dados — Python

Pandas Profiling

pandas-profiling/pandas-profiling

Generates profile reports from a pandas DataFrame. The pandas df.describe() function is great but a little basic for…

TQDM

Streamlit

Bokeh

Bokeh 2.0.2 Documentation

Bokeh is an interactive visualization library for modern web browsers. It provides elegant, concise construction of…

Scrapy

Using Python, Matplotlib, Pandas and Folium to Data Analysis

The propose this article is work with a dataset and generate informations about them. Dataset we will use here I found…

Prevendo as notas do ENEM com Machine learning — Data Science

Criando um modelo preditivo com Python, Scikit learn e Jupyter/Colab.

Written by Wesley Watanabe