Benefícios da recuperação da informação

Eden Santana
gb.tech
Published in
5 min readAug 11, 2022

Boas práticas utilizando aquisição de dados externos no contexto moderno

A palavra “DATA” escrita com vários círculos em uma tela de vidro
A palavra “DATA” escrita com vários círculos em uma tela de vidro | Foto de Claudio Schwarz na Unsplash

Introdução

A pandemia acelerou o processo de digitalização dos negócios, implicando em uma nova economia sedenta por dados.

Em um mercado cada vez mais competitivo, o comércio eletrônico deu um salto exponencial nos últimos anos, gerando grande volume de informações e continuará a crescer à medida que os dispositivos tecnológicos se incorporam ao nosso cotidiano. Paralelamente a isso o comportamento do consumidor também tem se modificado devido ao acesso às novas tecnologias e isso é de suma importância para as empresas estarem um passo à frente das outras.

Contextualização

Diariamente a internet é acessada por inúmeros visitantes através de diversos dispositivos, alguns destes são humanos e outros nem tanto. Parte desses são denominados de “bots” programados em uma determinada linguagem para obter informações das páginas web e o conteúdo que possuem.

Conhecemos os principais portais que usam algoritmos de busca e disponibilizam as informações para os usuários, como por exemplo Google, Bing, Yahoo. Esses algoritmos utilizam técnicas de indexação dos textos utilizando métricas para fornecer a melhor recomendação do que nós procuramos na grande rede.

Imagem de um robô azul com olhos amarelos segurando diversos balões contendo ícones dentro

Os dados públicos disponíveis podem servir a muitas empresas para melhorar a inteligência competitiva e os seus exemplos são: monitoramento de preços, aumento de market-share, portfólio de produtos, próxima compra do consumidor e principalmente fornecer insumos para a análise dos algoritmos de Inteligência Artificial/Machine Learning. O professor e economista Ajay Agrawal mostra a importância dos dados como estratégia de inteligência artificial.

“Máquinas preditivas dependem de dados. Mais e melhores dados levam a melhores predições. Em termos econômicos, os dados são um complemento fundamental para a predição. E tornam-se mais valiosos à medida que a predição se torna mais barata” (AGRAWAL, 2018, p.43)

Tanto dados internos como externos são fundamentais para “alimentar” os modelos de inteligência cognitiva e com o avanço da computação em nuvem o custo tem sido reduzido de forma considerável. Calvin N.Moors introduz o termo recuperação da informação definido como:

A recuperação da informação é o nome do processo ou método pelo qual um usuário em potencial de informação é capaz de converter sua necessidade de informações em uma lista real de citações para documentos armazenados contendo informação útil para ele [..] A recuperação da informação abrange aspectos intelectuais da descrição da informação e sua especificação para busca, e também quaisquer sistemas, técnicas ou máquinas que sejam empregadas para realizar a operação (MOOERS, 1951, p.25).

Em tempos atuais esse termo pode ser denominado como web scraping/ web crawler que é a capacidade de coletar dados de forma automatizada transformando essa informação não estruturada em dado compreensível a nós humanos, isto é:

“web scraping é a prática de coletar dados por qualquer meio que não seja um programa interagindo com uma API (ou, obviamente, por um ser humano usando um navegador web). Isso é comumente feito escrevendo um programa automatizado que consulta um servidor web, requisita dados (em geral, na forma de HTML e de outros arquivos que compõem as páginas web) e então faz parse desses dados para extrair as informações necessárias. (MITCHELL, 2019, p.12)

Por que devemos usar essa tecnologia?

Como já mencionado anteriormente os benefícios são diversos, como por exemplo otimização de preços, isto é, em um mercado dinâmico podemos acompanhar mudanças no preço e eventos de promoções em momentos estratégicos. Realizar buscas para geração de leads no seu próprio nicho de mercado, como também coletar dados históricos com o objetivo de obter mais eficiência em investimento usando esses dados por modelos de inteligência artificial para melhor tomada de decisão. Por fim coletar dados com foco em otimização do produto buscando feedbacks de clientes a respeito do portfólio oferecido usando técnicas de NLP (Neural Language Processing).

Aspectos legais

Imagem com fundo preto contendo homem branco, nome escrito em vermelho “Mr. Robot”

Mas nem tudo que está online é gratuito e devemos aplicar essa técnica com muita ética observando alguns princípios legais, não entrarei em méritos jurídicos, por isso antes de aplicar essa técnica consulte seu pessoal jurídico para mais detalhes.

Muitas tecnologias diversas carecem de regulamentação adequada e temos muitos desafios pela frente, pois tudo leva um tempo até que sejam regulamentadas, mas à medida que a tecnologia avança devemos acompanhar seu movimento. Ao utilizar as técnicas de web scraping devemos ter um pipeline básico respondendo às seguintes perguntas. Que dados coletar? Que fontes serão coletadas? Qual a quantidade necessária e qual a melhor infraestrutura?

Quando entramos nesse oceano dos dados, temos muitas questões sensíveis a serem tratadas e devemos tomar todas as precauções possíveis sempre respeitando a natureza ao redor.

Obter informações em sites públicos que não necessitem realizar algum tipo de login na plataforma é absolutamente legal. Um exemplo são os sites de comércio eletrônico onde a informação é disponibilizada publicamente, mas devemos dar atenção a outros mares.

Ao realizar esse tipo de técnica devemos verificar a existência de dados pessoais, pois qualquer dado que revele a identidade de uma pessoa sem o seu consentimento é totalmente ilegal.

Devemos nos perguntar se os dados que estamos buscando possuem direitos autorais, pois mesmo que os dados sejam abertos de modo público, como imagens, músicas e até mesmo artigos científicos, precisamos observar se a informação possui propriedade intelectual e se existe consentimento para extraí-los. Ao realizar a extração de qualquer informação em sites deve-se atentar aos termos de serviços da plataforma e suas práticas de conduta. Se contiver de maneira explícita restrições de raspagem aborte a missão. Tenha extrema ética para não realizar uma transgressão para os bens móveis, isto é, as solicitações frequentes serem interpretadas como um ataque prejudicando o site de destino.

Na União Europeia (UE) existe a GDPR (General Data Protection Regulation) e no EUA a Lei de Privacidade como também a CFAA (Computer Fraud and Abuse Act) que é um estatuto federal anti-hacking proibindo o acesso não autorizado a computadores e redes. No Brasil, temos a Lei Geral de Proteção de Dados Pessoais (LGPD). Bom manuais para os desenvolvedores/engenheiros de software terem em seu roadmap.

Aquisição de dados externos ou popularmente web scraping é uma das práticas mais utilizadas no mercado internacional e deve ser distinguida das práticas ilegais de hackers (veja caso da hiQ Labs vs Linkedin), seus benefícios são inúmeros e sendo realizado de maneira ética as organizações podem se preocupar com mais afinco com o ciclo do pipeline de dados.

Referências

Máquinas Preditivas: a simples economia da inteligência artificial / Ajay Agrawal, Hoshua Gans, Avi Goldfarb; traduzido por Wendy Campos. — Rio de Janeiro : Alta Books, 2018.

Zatocoding Applied to Mechanical Organization Of Knowledge — Calvin N. Mooers.

https://courses.engr.illinois.edu/cs473/fa2013/misc/zatocoding.pdf

https://insidebigdata.com/2021/07/22/multi-billion-dollar-businesses-benefit-from-web-scraping-can-yours/

https://www.octoparse.com/blog/why-web-scraping-may-benefit-your-business#

https://www.grepsr.com/blog/overview-web-scraping-legality/

https://digitalcommons.murraystate.edu/cgi/viewcontent.cgi?article=1071&context=faculty

https://www.cityam.com/exclusive-oxylabs-ceo-on-why-web-scraping-is-coming-out-from-the-shadows-and-heads-mainstream/

https://aws.amazon.com/pt/blogs/architecture/serverless-architecture-for-a-web-scraping-solution/

https://www.lexology.com/library/detail.aspx?g=66dfab1f-51c1-4bf9-9539-7f7aae087daa

Créditos da imagem

https://wallup.net/beach-sea-ocean-beauty-sky-cloud-sunset-2

--

--