Introdução à Análise de Dados com AWS

Bernardo Costa
8 min readApr 3, 2023

--

Introdução

Quando comecei a trabalhar com dados, deparei-me com um pensamento de contraste entre soft e hard, o qual é difícil de explicar. O pessoal de Engenharia de Dados se identificava mais com o hard, sendo builders, enquanto o pessoal de Ciência de Dados ficava mais no meio termo e o pessoal de Análise de Dados seria a representação do que seria o soft. Claro que essa visão é equivocada, mas ela tem base na dificuldade inerente de um profissional que se especializou em áreas técnicas, como Ciência da Computação e Engenharia de Software, em ajustar a mentalidade para análise e necessidades de negócio.

Esse ajuste de mentalidade não é difícil, ele é apenas diferente do que fomos treinados a fazer e requer uma visão holística do negócio, a qual a maioria das pessoas que ingressam no mercado de trabalho em cargos técnicos não é exposta nos primeiros anos de carreira. A análise de dados, na minha visão, consegue ajudar os profissionais de Computação em geral, incluindo Engenharia de Dados e de Software, a entender esses aspectos de negócio, fornecendo um método para análise e estruturação que facilita a conexão de ideias para quem vem dessas áreas.

Nas próximas seções deste artigo, farei uma breve exposição sobre os tipos de Análise de dados e como aproveitar a AWS para aplicar esses tipos de análise. Espero que isso ajude como ferramental teórico e prático para aproximar a mentalidade de resolução de problemas de negócios.

Tipos de Analise de Dados

Existem quatro tipos principais de análise de dados que são hoje amplamente utilizados no mercado: descritiva, diagnóstica, preditiva e prescritiva. Vamos a cada uma delas:

Análise Descritiva

A análise descritiva é uma técnica básica de análise de dados utilizada para descrever as características de um conjunto de dados, como seu tamanho, distribuição, média, mediana e moda. É uma análise exploratória de dados que visa resumir as informações coletadas, sem a utilização de técnicas estatísticas avançadas. É comumente usada para responder perguntas sobre o que aconteceu, ou seja, está olhando para dados do passado.

A análise descritiva é uma das técnicas mais comuns, pois com técnicas simples de manipulação de dados é possível resumir um grande conjunto de informações que permitem identificar padrões, tendências e relações entre as variáveis. Isso pode ser alcançado através da utilização de estatísticas descritivas, como as citadas no parágrafo anterior, bem como o desvio padrão e o intervalo interquartil, além da apresentação de gráficos e tabelas para representar visualmente os dados.

Em termos práticos, podemos utilizar a análise descritiva para detectar anomalias nos dados financeiros, como valores extremos, que podem significar um erro, uma fraude, entre outros.

Análise Diagnóstica

A análise diagnóstica é uma técnica de análise de dados utilizada para identificar as causas de um determinado fenômeno ou problema. Ela é geralmente usada para responder perguntas como “por que isso aconteceu?” ou “quais foram as causas do problema?”. Para realizar a análise diagnóstica, é preciso examinar o conjunto de dados em busca de correlações ou relações causais entre as variáveis e, a partir disso, identificar as causas do problema.

A análise diagnóstica é uma das técnicas mais importantes para entender a origem de um problema, pois permite identificar padrões e tendências em dados coletados. Técnicas como a clusterização, algum tipo de regressão e correlações, como a de Pearson, podem ser utilizadas para identificar relações entre as variáveis de um problema. Esse tipo de análise utiliza técnicas estatísticas um pouco mais avançadas, que justificam-se em função do objetivo do problema. Faz sentido que essa análise seja mais complexa e precise de um maior embasamento teórico para ser realizada do que simplesmente descrever um dado.

Em termos práticos, a análise diagnóstica pode ser utilizada em diversas áreas, como saúde, finanças e indústria. Por exemplo, em um hospital, a análise diagnóstica pode ser utilizada para identificar as causas de uma alta taxa de mortalidade em pacientes com uma determinada doença, permitindo que sejam tomadas medidas preventivas para evitar futuras mortes. Na indústria, a análise diagnóstica pode ser utilizada para identificar as causas de falhas em equipamentos, permitindo que sejam tomadas medidas corretivas para evitar futuras interrupções na produção.

Análise Preditiva

A análise preditiva é uma técnica avançada de análise de dados que tem como objetivo prever o comportamento futuro de um conjunto de dados. Ela é utilizada para responder perguntas sobre o que pode acontecer, baseando-se em modelos matemáticos e estatísticos. Essa técnica requer um conhecimento mais profundo de estatística, bem como a utilização de ferramentas de programação e softwares especializados.

Na análise preditiva, técnicas como regressão, árvores de decisão e redes neurais podem ser utilizadas para prever o comportamento futuro dos dados. Como o objetivo é a previsão, essas técnicas e outras relacionadas à aprendizagem de máquina e inteligência artificial são comumente utilizadas nesse tipo de análise.

Em termos práticos, a análise preditiva pode ser utilizada para prever a demanda de um determinado produto em um período futuro, permitindo que as empresas planejem suas estratégias de produção e estoque com antecedência. Além disso, a análise preditiva pode ser usada para identificar os principais fatores que influenciam uma determinada variável e, a partir disso, criar modelos que permitam a tomada de decisões com maior eficiência.

Análise Prescritiva

A análise prescritiva tem como objetivo dar sugestões para ações futuras usando modelos estatísticos e algoritmos de machine learning. Para utilizá-la, é necessário ter conhecimentos avançados em estatística, modelagem matemática e habilidades de programação, além do uso de ferramentas especializadas em análise de dados.

Uma técnica bastante utilizada nessa análise é a de Monte Carlo, que permite simular diferentes possibilidades e cenários futuros através da geração de múltiplos modelos estatísticos considerando diferentes valores para as variáveis e parâmetros envolvidos. Isso ajuda a identificar as opções mais viáveis e avaliar riscos e incertezas em determinada decisão.

Na prática, a análise prescritiva pode ser aplicada para otimizar a produção em uma fábrica, alocar recursos para campanhas de marketing ou identificar ações em situações de emergência, aumentando as chances de sucesso com base nos dados.

Resumo dos principais tipos de análise de dados — Fonte: blog.ploomes.com

Análise de Dados com AWS

Coleta e Preparação de Dados com AWS

Antes de realizar qualquer análise de dados, é necessário ter acesso aos dados. A AWS oferece suporte desde a coleta até a preparação para consulta. Separar as ferramentas, o momento em que os dados se encontram na estrutura e os tipos de análise não é interessante e pode ser difícil, pois muitas vezes precisamos explorar dados que não estão totalmente disponíveis ou ainda não foram coletados, mas que têm potencial para extração. Nesses casos, as áreas de Engenharia e Análise de Dados podem trabalhar juntas para obter melhores resultados para o negócio.

No que tange a AWS, alguns serviços podem ser utilizar pós coleta e preparação para melhor aproveitamento dos analistas de dados, como por exemplo o Amazon S3 para repositório central de arquivos, desde a forma bruta até em uma forma processada para inserir em um banco de dados especializado, bem como o Amazon Redshift como banco de dados para análise quando existe voolume de dados massivo, o Amazon Athena para mesma função mas pensando em an'alises mais ad-hoc e com menos estruturação, podendo chegar at;e a utilizar Amazon RDS para mesma função quando o volume não justifica o Amazon Redshift, por exemplo.

Além disso, existem bancos de dados mais específicos que permitem análises mais complexas, como o OpenSearch para análise de texto e logs, o Amazon Neptune para análise de dados modelados como grafo e o Amazon Timestream para dados que seguem uma série temporal. Isso é apenas uma pequena amostra dos principais bancos de dados usados para análise de dados.

Análise de dados na AWS

Para realizar análise de dados com a AWS, é necessário considerar pelo menos dois pontos importantes. O primeiro deles é a escolha da linguagem de programação. Em geral, os profissionais que trabalham com análise de dados preferem utilizar linguagens como SQL, Python e R. Dependendo do local em que os dados estão disponíveis para análise, alguns serviços da AWS podem ser utilizados para suportar essas linguagens. O segundo ponto a ser considerado é a disponibilidade dos dados na organização, pois isso pode limitar o uso de ferramentas específicas da AWS, bem como a escolha da linguagem mais adequada para trabalhar com esses dados.

Em termos genéricos, os notebooks do Amazon SageMaker Studio podem ser utilizados para realizar análises nos dados utilizando Python ou R, principalmente se os dados estiverem no Amazon S3. Caso os profissionais tenham mais familiaridade com programação, ainda é possível utilizar o AWS SDK for pandas, que possibilita consulta de modo simplificado e eficiente de diversas fontes de dados na AWS, tais como o Amazon S3 (Apache Parquet e CSV), Amazon Athena, Amazon Redshift, Amazon RDS (MySQL, PostgreSQL, SQL Server e Oracle), Amazon EMR, Amazon Timestream, Amazon DynamoDB, Amazon OpenSearch e Amazon Neptune. Nesse caso, em uma única interface de Jupyter Notebook, é possível consultar todas essas fontes, fazer análises utilizando Python ou R, gerar gráficos exploratórios e até partir para o treinamento de modelos de Machine Learning na mesma estrutura.

Para casos mais específicos, algumas ferramentas da AWS possuem seus próprios Notebooks para análise, como o Amazon EMR e o AWS Glue, que permitem realizar análises interativas. Além disso, há interfaces de consulta simples para SQL disponíveis no Amazon Redshift e no Amazon Athena. Em situações em que é necessário uma camada extra de abstração para consulta, a maioria dos serviços da AWS aceitam consultas por meio de clientes SQL, como o DBeaver.

Quando a análise já pode ser disponibilizada para usuários externos de negócio, que ocorre após a exploração e decisão do que é preciso ver e acompanhar, é possível utilizar o Amazon QuickSight para visualização de dados e geração de relatórios.

Exemplo de visualização feito no Amazon QuickSight — Fonte: https://democentral.learnquicksight.online/

Conclusão

Para fechar, a análise de dados é uma tarefa fundamental em muitas organizações e empresas, pois permite identificar padrões, tendências e insights importantes que podem ser usados para tomar decisões estratégicas. Neste artigo, vimos que a AWS oferece uma ampla gama de serviços que podem ser usados em conjunto para criar soluções de análise de dados personalizadas. A principal mensagem que gostaria que fosse destacada é a importância da análise de dados, os tipos de análise de dados e como a AWS pode apoiar esse processo, oferecendo diversas ferramentas, notebooks e bancos de dados para auxiliar na criação de soluções baseadas em dados.

Me Siga!

Recomendações de Estudo:

--

--

Bernardo Costa

Head de Dados, Engenheiro de Computação de formação e padeiro nas horas vagas.