ETL

Bruna Baldini
aibrasil
Published in
5 min readNov 6, 2019

(Extraction, Transformation and Load)

<p style=”font-size: 0.9rem;font-style: italic;”><img style=”display: block;” src=”https://live.staticflickr.com/7451/9918895

Que sigla é essa?!?!? Mais uma sigla de uma coisa que eu nem sei para que serve?!?

Calma! Respira! Este texto tem a missão de responder bem rápido 3 questões muito simples, porém essenciais: o que é, qual a importância e como aplicar o ETL na vida real?

Antes de começar, é importante que você saiba que o ETL, é um processo utilizado em Data Analytics ou Análise de Dados para tratar os dados (limpeza e padronização) com o objetivo de deixá-los prontos para as etapas seguintes.

O que é ETL?

Em Análise de Dados, o ETL (Extração, Transformação e Carga — Extraction, Transformation and Load) é uma das etapas mais importantes na coleta de dados, pois diz respeito à integração dos dados propriamente ditos, muitas vezes coletados em diferentes fontes. Essas fontes podem ser ou estar em diferentes bancos de dados ou sistemas, de onde os dados serão coletados. Os dados serão coletados de acordo com as questões e os problemas identificados, o que resultará na definição da principal pergunta que a análise dos dados deverá responder. Justamente pelo fato dos dados virem de outros sistemas e/ou bancos de dados, em geral, não estão devidamente categorizados ou estruturados. O objetivo principal é integrar e homogeneizar esses dados já considerando o que será comparado para se solucionar os problemas e as questões levantados previamente.

O ETL em si se caracteriza como a etapa que segue a coleta de dados, propriamente dita. Em um primeiro momento, serão definidos os dados que deverão ser coletados, em seguida a coleta é feita e isso pode ser feito de forma automatizada ou não. Existem muitas ferramentas especialmente desenvolvidas para esta finalidade À medida em que a coleta de dados vai sendo realizada é necessário determinar como as etapas de normalização dos dados ocorrerão efetivamente. Em geral, a dificuldade desta etapa reside na quantidade de dados, pois a análise completa requer quantidade e consistência para que se obtenham insights mais /relevantes ou alinhados ao problema previamente identificado.

Extração — E

Nos sistemas de informação ou nos bancos de dados, a extração pode ser feita de três formas diferentes: extraindo apenas dados recentes, extraindo apenas os dados que sofreram algum tipo de alteração ou extraindo todos os dados. São também conhecidos como atualização por notificação, extração incremental ou extração integral. É importante lembrar que as fontes de dados são sempre diversas e, por isso, é necessário determinar quais dados serão extraídos de quais fontes.

Tranformar — T

Uma vez que as fontes de dados são diversas, muitas vezes alimentadas por várias pessoas em diferentes funções, é necessário integrá-los e padronizá-los. Esta etapa é mais complexa, pois é nela que se agregarão todos os dados e informações coletados para que possam ser comparados, agrupados e unidos de forma a resultar em comparativos e relatórios. É importante clusterizar, passar todos para a mesma unidade de medida, separar por período, público-alvo, equipe, projeto, etc. Nessa etapa se estabelecem índices como um ranking em que os resultados poderão ser categorizados e através desse passo, os insights surgirão. Essa etapa fornece os insumos necessários para a etapa de Data Viz (elaboração de gráficos e formas funcionais de visualização de dados, como infográficos, layouts, etc. com informações e índices relevantes obtidos da análise de dados, que pretendem solucionar os problemas e as questões levantados previamente).

Carga — L (load)

Durante a etapa da carga, é necessário assegurar que a carga é executada corretamente e com um mínimo possível de recursos. O alvo do processo de carga é muitas vezes um banco de dados. A fim de tornar o processo de carga eficiente, é útil desativar todas as restrições e índices antes da carga e ativá-los de volta apenas após a carga completa. A
integridade referencial precisa ser mantida pela ferramenta de ETL para garantir a consistência.

Qual a importância do ETL?

É importante que seja aplicado nos Data Warehouses, onde os dados ficam armazenados. É necessário que já estejam padronizados e tratados para a obtenção de comparativos e índices. Dependendo do caso, nesses dados tratados se aplicarão fórmulas estatísticas para se chegar a resultados mais específicos de acordo com a quantidade coletada. O dado coletado sem passar pelo processo de normalização pode não ser devidamente aproveitado. Caso um conjunto de dados não tratados seja utilizado na análise, o resultado pode ficar comprometido, prejudicando a tomada de decisão ou resolução do problema previamente identificado.

Como aplicar o ETL?

Na vida real, como é que é de verdade?

Os sistemas de informação podem se apoiar para a tomada de decisão e para a resolução de problemas complexos em dados tratados. SIG (Sistema de Informação Gerencial), SAD (Sistema de Apoio à tomada de Decisão), SAE (Sistema de Apoio ao Executivo); sendo todos sistemas de informação de cunho gerencial) se utilizam largamente de modelos preditivos de análise, que por sua vez vem da análise de dados depois de os dados terem passado pelo ETL. Em organizações e pesquisas acadêmicas, o nível intermediário/operacional se utiliza desta etapa para a tomada de decisão do nível tático (análise de preços, planejamento da produção, orçamentos, análise dos dados coletados em pesquisas e experimentos, etc.). Um exemplo prático: o C-Level quer diversificar a oferta de produtos, mas não sabe se deve descontinuar ou não um determinado produto já estabelecido no mercado. Precisamente esta questão é o problema identificado que precisará de uma resposta. Uma das possibilidades adotadas é analisar o comportamento de compra em conjunto com a análise de sentimento. O objetivo é que este conjunto de dados devidamente tratado e padronizado possa oferecer um panorama da intenção do usuário. Esse contexto — revelado por esse cruzamento de dados — irá delinear novas necessidades, novos comportamentos e com isso diretrizes para o desenvolvimento de novos produtos (ou até mesmo serviços) começam a surgir respondendo ao problema identificado no início do processo.

Referências

https://www.sas.com/pt_br/insights/data-management/o-que-e-etl.html. Acesso em 30 de outubro de 2019.

https://etlnapratica.blogspot.com/2016/07/o-que-e-etl-extract-transform-load.html. Acesso em 30 de outubro de 2019.

SOMASUNDARAM, G.; SHRIVASTAVA, Alok. Armazenamento e gerenciamento de informações: como armazenar, gerenciar e proteger informações digitais. Porto Alegre: Bookman, 2011.

--

--