6 ferramentas para extrair dados da Internet — avaliadas pelo Volt

Por Sérgio Spagnuolo, editor do Volt Data Lab
Twitter @ProjetoStock e @voltmediabr— Facebook Volt Data Lab


De tempos em tempos, surgem listas na Internet sobre ferramentas para lidar com limpeza, extração e visualização de dados, além de plataformas para montar um projeto bonito e interativo. Faz um tempo que não vejo uma lista dessas atualizada em português.

Além disso, geralmente essas listas possuem apenas a descrição oficial do produto, e você fica sem saber se são boas ou não, se valem a pena ou não.

Bem, o Volt Data Lab testou a maioria desses serviços e teve o trabalho de classificá-los em notas de 0 a 5 — sendo 0 a pior nota e 5 a melhor. Dar notas às coisas não é um modelo infalível, claro, mas esperamos que isso lhe ajude na escolha de suas ferramentas no dia a dia.

São cinco listas no total: 1. Visualização de Dados; 2. Extração e Tratamento de Dados; 3. Plataformas para “storytelling”; 4. Ferramentas de Mapas; 5. D3 e visualizações avançadas.

Também há uma lista boa sobre outros recursos (para escrever, acompanhar notícias, montar blogs, cobrar por seu trabalho etc.) feita em inglês pela ReadThisThing, aqui. Se você não sabe bem como montar sua visualização, existe um excelente catálogo aqui.

Nota importante: o Volt Data Lab não é patrocinado, financiado nem possui qualquer tipo de vínculo ou apoio financeiro, institucional ou comercial com quaisquer produtos ou empresas abaixo listados. Se um dia for o caso e isso acontecer, notificaremos isso aqui e em futuras listas, e daremos sempre nossa opinião independente.
Se você gostou, não se esqueça de recomendar esse artigo, logo no coraçãozinho lá embaixo na tela, para que mais pessoas tenham acesso a ele e a outras publicações do Volt Data Lab
  • Kimono — Uma jóia. Talvez uma das ferramentas mais úteis para jornalistas de dados. É uma extensão do Chrome que promete — e cumpre — entregar uma extração muito simples e fácil de dados de uma webpage, e inclusive construir seu próprio API para obter dados em tempo real. Eu era um tanto cético em relação a esse programa, não tinha experimentado em profundidade, e preferia utilizar o Import.io. Mas meu colega Marco Túlio Pires, da Escola de Dados, felizmente me alertou para as maravilhas do Kimono. Muito recomendável.
    Gratuito — Avaliado pelo Volt (nota 5/5)
  • Import.io — É uma boa ferramenta para extração de dados. Ouvi gente falando mal e que funcionava apenas em certos tipos de sites. Na verdade, o principal problemas desses caras é que eles têm vários tipos de soluções para fazer a mesma coisa, mas de maneiras diferentes que nem sempre dão o resultado desejado. Tem os modos “Magic”, “Extractor”, “Classic Extractor”, “Authenticated Extractor”, “Crawler”, “Connector” e “Authenticated Connector”. É simplesmente exagerado. O “Magic”, que é uma extensão para navegadores, tem sérias falhas e só funciona quando o HTML do site é bastante organizado. O “Extract”, o aplicativo deles para computadores, é decente, e funciona satisfatoriamente, embora dê um pouco de trabalho até você pegar a manha. Tem o “Crawler”, para pegar informações de diversas páginas ao mesmo tempo. O resto você vai ter que descobrir sozinho porque, sinceramente, eu não tenho paciência para ficar testando tudo, especialmente após começar a utilizar o Kimono.
    Totalmente gratuito — Avaliado pelo Volt (nota 2,8/5)
  • Webscrapper — Versão mais complicada do Kimono, mas é verdade que dá conta do recado. No entanto, a eficácia perde aqui para a ruim interface de uso — algo que o competidor acima conseguiu tirar de letra.
    Totalmente gratuito — Avaliado pelo Volt (nota 3/5)
  • twXplorer — Projeto do Knight Lab se vende como uma maneira mais inteligente de buscar no Twitter. De fato é muito útil para saber informações gerais de certo tópico no dia presente. Não tem grandes aspirações, nem busca em outras redes sociais. Histórico não é seu ponto forte, então, se precisar de buscas para outros dias, boa sorte.
    Totalmente gratuito — Avaliado pelo Volt (nota 2,8/5)

OUTROS

  • WhatFont — Uma extensão para o navegador Chrome e que identifica as fontes utilizadas em páginas na web. Não tem muito mais o que falar. Funciona.
    Totalmente gratuito — Avaliado pelo Volt (nota 3,0/5)
  • Newsbot — Também é uma extensão do Chrome. O Newsbot, quando instalado, permite que o usuário, sem precisar fazer nenhuma busca, obtenha resultados relacionados com a notícia que se está lendo. Rápido, elegante. Mas às vezes acha coisas totalmente sem relação com a notícia em questão. Mesmo assim vale a pena.
    Totalmente gratuito — Avaliado pelo Volt (nota 3,5/5)
Show your support

Clapping shows how much you appreciated Sérgio Spagnuolo’s story.