Desvendando Web crawler x web scraping

Osemar Xavier
DataFrens.sg
Published in
5 min readDec 5, 2019

Resolvi fazer esse post fundamentado na minha dúvida, antes de iniciar meus estudos nesse universo de Data Science e Big Data tive dificuldades para entender alguns conceitos e de que forma funcionavam alguns processos dentro desse contexto, tenho percebido que tudo tem evoluído de forma muito rápida. Por mais que seja difícil acompanhar tudo, é instigante fazer descobertas. Uma das coisas mais fantásticas que conheci foram as formas que existem para conectar com alguma fonte de dados para extração, umas delas são as técnicas de Data Scraping e Web Crowling.

VANTAGENS DO USO DE WEB CROWLER E SCRAPING

No dia-a-dia de quem trabalha em um ambiente dinâmico como os digitais, muitas vezes, existe a necessidade de capturar informações ou projeto de pesquisas manuais na web. Bem provável que você já tenha se deparado com esse tipo de situação. Desde 2013, inúmeras vezes, tive a oportunidade de passar por essa necessidade em alguns momentos, e foi possível resolver utilizando os poderes do VBA no Excel. Em 2017, pude colocar em prática algumas técnicas utilizando Web Crowler e Scraping em linguagem R e Python, posso garantir que o ganho é imensurável, fantástico o poder que essas técnicas nos dá, consegui otimizar processos que demandavam horas para tempo de execução em segundos. Meu último projeto posso citar, tem cerca de 4 meses atrás, um processo bem comum em nosso dia-a-dia, cujo objetivo era extrair informações de um sistema, baixar um arquivo em .CSV, fazer a formatação, análise, classificação das informações contidas nesse arquivo e reportar aos responsáveis diariamente, três vezes ao dia. Uma tarefa repetitiva, graças a essa técnica consegui transformar essa tarefa de 40 minutos a 1 hora, para 2 minutos, já considerando o disparo por e-mail para os responsáveis que atuam no tratamento dessas requisições. Em 2017, na consultoria que eu trabalhava, vi uma equipe de aproximadamente 15 pessoas serem substituídas por um bot. O processo era feito da seguinte maneira: Manualmente o usuário tinha que copiar um código numa listagem, esses códigos eram lançados em um sistema, as informações eram coletadas desse sistema, para serem lançados em outro para serem arquivados, você deve estar perguntando o porque disso. Pois é, o sistema que essas informações eram consultadas não pertenciam a consultoria que eu trabalhava, e a empresa que detinha esse sistema, se recusava em mudar esse processo, coisas da nossa típica cultura de querer burocratizar. Então dedicaram uma equipe até surgir algo que mudaria todo o processo. Considerando o processo manual feito pela equipe, tínhamos alguns empecilhos que aumentava o tempo de todo o processo: Alguns colaboradores usavam padrões diferentes para efetuar essa tarefa, então cada um tinha um tempo médio diferente do outro para finalizar o processo, o sistema muitas vezes tinha um delay ou ficava indisponível, devido a diversos problemas que ocorriam no dia-a-dia, principalmente por muitos acessos, enfim, sem considerar, os impactos que usualmente ocorriam devido a o processo está ocorrendo de forma manual, durante a jornada, seja por atraso, cumprimento da jornada dentro do contrato, falta de conhecimento do processo, turn over, faltas, enfim …
Participei de parte desse projeto, e não acreditei quando vi o robozinho funcionando, achei fantástico, todo o processo consistia exatamente como o usuário fazia, o script era feito em VBA. Com todas as vantagens esperada, e o funcionamento 24 horas por dia, ininterruptos, um grande ganho para a empresa, com a vantagem de que essa capacidade poderia ser replicada criando novos bots. Quanto a equipe? Bom, alguns foram aproveitados e outros não tiveram outra alternativa além de serem desligados, infelizmente seremos engolidos pela tecnologia, algumas tarefas precisarão ser automatizadas, é um caminho sem volta, cada vez mais tarefas serão substituídas por robots como esses. Bom citei alguns exemplos aqui, espero que ajude no entendimento quanto as vantagens dessas técnicas de Web Crowler Scraping. Existem outras vantagens como pesquisa de preços, ou de produtos que a empresas concorrentes estão praticando, nesse caso se faz necessário está sempre atendo e no mercado qualquer vantagem competitiva é importante. Segue mais detalhes sobre cada técnica.

WEB CROWLER

Existem várias formas de obter mais eficiências no negócio em que está atuando, uma delas está na utilização de Web Crowler que também podem ser chamado de Robot, Bot ou Spider, comumente utilizado para estratégias de Marketing Digital . A principal funcionalidade do algoritmo de Web Crowler é de realizar varredura na internet de maneira sistemática, conforme pré-definição, dessa forma os textos das páginas são armazenadas e os links associados, são utilizadas pra diversos propósitos, seja na forma de motores de busca, coletar informações em portais de notícias e ou de manter um registro de todas as informações coletadas para uma análise e processamento. Um Web crawler pode ser configurado para localizar e coletar diversos tipos de conteúdo, seja total ou parcialmente, de acordo com seu objetivo. A partir dessa etapa ele poderá ser armazenado para utilização num mecanismo de motor de buscas ou num banco de dados. Um exemplo prático do uso de um Web Crowler, você por exemplo poderia estar monitorando o que está sendo comentado sobre sua empresa ou uma palavra que seja importante para o seu trabalho, essa monitoração poderia estar sendo feita num site de mídia social, fóruns e sites de notícia. A partir dessas informações coletas é possível por exemplo aplicar técnicas de análise de sentimentos e saber quais termos são relevantes.

WEB SCRAPING

Outra técnica fabulosa é a de Web Scraping, que consiste em coletar dados específicos da Web, ou “raspagem”, uma forma de minerar os dados de um site, extraí-los e dispor de forma estruturada. Muito útil no nosso dia-a-dia também, utilizado para atualização a partir de um site na Web, coletar dados, valores, detalhes de produtos de uma tabela de um determinado site concorrentes de e-commerce por exemplo, as utilidades variam de acordo com a necessidade.

CONCLUSÃO

São diversos mecanismos que podemos estar utilizando, existem alguns desses recursos prontos para serem utilizados de forma gratuita, pagas ou é possível desenvolver utilizando linguagem R e Python, para isso podemos utilizar as principais bibliotecas para essa finalidade. Na linguagem R por exemplo tive oportunidade de estar utilizando o Scrapy e o Rvest, e no Python Selenium e Beatifulsoup. Outras linguagens fornecem a mesma funcionalidade, vai depender muito do projeto que esteja atuando e seu conhecimento. Em outros posts irei colocar alguns exemplos práticos para que possa por em prática alguns conceitos visto aqui.

Originally published at http://oserxavier.com.br.

A Message from DataFrens…

Thanks for being a part of our community!

Do join us here at:

Read all our DataFrens articles here at:

--

--