[Azure] — Sequencia de posts para aprofundar os estudos da certificação Azure DP-900 Data Fundamentals Exam (1/4)

Henrique Eduardo

19 min readJan 24, 2022

Neste post vamos falar sobre a primeira parte da prova.

Explorar os principais conceitos de dados (15–20%)

Vamos abordar os seguintes temas:

Identificar como os dados são definidos e armazenados
Identificar características de dados relacionais e não relacionais
Descrever e diferenciar cargas de trabalho de dados
Descrever e diferenciar dados de lote e de streaming

1. O que são dados e por que os dados são um ativo muito importante?

Os dados são uma coleção de fatos por meio de números, descrições e observações usados na tomada de decisões. Neste mercado competitivo, os dados são um ativo muito valioso, quando analisados adequadamente e claro. Podem se transformar em uma informações úteis e ajudar em decisões críticas de negócios.

2. De quantas maneiras você pode classificar os dados?

Estruturado
Semi-estruturado
Não estruturado

3. O que são dados estruturados ?

Os dados estruturados geralmente são dados tabulares representados por linhas e colunas geralmente um modelo banco de dados. Os bancos de dados que contêm tabelas nesse formato são chamados de bancos de dados relacionais. Onde cada linha em uma tabela tem o mesmo conjunto de colunas.

4. O que são Dados Semiestruturados?

Dados semiestruturados são informações que não residem em um banco de dados relacional, mas ainda possuem alguma estrutura. Os exemplos mais comuns são documentos mantidos no formato JavaScript Object Notation (JSON). Também existem outros tipos de dados semiestruturados. Os exemplos incluem armazenamentos de chave-valor e bancos de dados grafos como o CosmosDB. Um armazenamento de chave-valor é semelhante a uma tabela relacional, exceto que cada linha pode ter qualquer número de colunas. Você pode usar um banco de dados grafo para armazenar e consultar informações sobre relacionamentos complexos. Um grafo contém nós (informações sobre objetos) e informações nas quais relacionam objetos.

5. O que são os dados não estruturados?

Nem todos os dados são estruturados ou mesmo semiestruturados. Por exemplo, arquivos de áudio e vídeo e arquivos de dados binários podem não ter uma estrutura específica. Eles são chamados de dados não estruturados.

6. O Azure fornece diferentes tipos de serviços de armazenamento com base no tipo de dados ?

Fornece diversos serviços, para dados semiestruturados ou não estruturados, os dados serão armazenados de forma diferentes. Os dados estruturados são normalmente armazenados em um banco de dados relacional, como o SQL Server, Postgres entre outros. Se você deseja armazenar dados não estruturados, como arquivos de vídeo ou áudio, pode usar o armazenamento (Storage) de BLOBs. Se desejar armazenar dados semiestruturados, como documentos e grafos, você pode usar um serviço como o Azure Cosmos DB.

7. O que chamamos de provisionamento ?

Simplesmente o ato de configurar o servidor de banco de dados é chamado de provisionamento.

8. Podemos definir vários níveis de acesso aos seus dados no Azure ?

(Read-only access) → Sim podemos definir acesso somente leitura (Read-only), significa que os usuários podem apenas ler os dados, mas não podem modificar nenhum dado existente ou criar novos dados.
(Read/write access) → O acesso de leitura/gravação oferece aos usuários a capacidade de visualizar e modificar os dados existentes.
(Owner privilege) → O privilégio de proprietário dá acesso total aos dados, incluindo o gerenciamento da segurança, como adicionar novos usuários e remover o acesso a usuários existentes. Você também pode definir quais usuários devem ter permissão para acessar os dados em primeiro lugar

9. Quais são os dois tipos de soluções de processamento de dados ?

OLTP → Sistema Transacional
OLAP → Sistema Analítico

10. O que é um sistema transacional ?

Um sistema transacional registra transações. Uma transação pode ser financeira, como o movimento de dinheiro entre contas em um sistema bancário, ou pode ser parte de um sistema de varejo, rastreando pagamentos de bens e serviços de clientes. Pense em uma transação como uma pequena e discreta unidade de trabalho.

11. O que é um sistema analítico ?

Um sistema analítico é projetado para dar suporte a usuários de negócios que precisam consultar dados e obter uma visão geral das informações contidas em um banco de dados. Os sistemas analíticos se preocupam em capturar dados brutos e usá-los para gerar insights. Uma organização pode usar esses insights para tomar decisões de negócios. Por exemplo, insights detalhados para uma empresa de manufatura podem indicar tendências que permitem determinar em quais linhas de produtos devem concentrar nas produções para obter maior lucratividade.

12. Quais etapas estão envolvidas na construção de sistemas analíticos ?

Ingestão de dados → A ingestão de dados é o processo de capturar os dados brutos. Esses dados podem ser obtidos por meio de dispositivos (IoT) que medem informações ambientais, como temperatura e umidade, dispositivos de ponto de venda que registram os itens comprados por um cliente em um supermercado, dados financeiros que registram a movimentação de dinheiro entre contas bancárias entre outros. Alguns desses dados podem vir de um sistema OLTP separado. Para processar e analisar esses dados, você deve primeiro armazenar os dados em algum repositório independente do tipo. O repositório pode ser um armazenamento de arquivos, um banco de dados de documentos ou até mesmo um banco de dados relacional.
Transformação de dados/processamento de dados → Os dados brutos podem não estar em um formato adequado para consulta. Os dados podem conter anomalias que devem ser filtradas ou podem exigir alguma transformação. Por exemplo, datas e ou endereços podem precisar ser convertidos em um formato padrão. Depois que os dados são ingeridos em um repositório de dados, você pode querer fazer algumas operações de limpeza e remover quaisquer dados inválidos, ou realizar algumas agregações, como calcular lucro, agregar o CEP ao endereço ou ao bairro.
Consulta de dados → Depois que os dados são ingeridos e transformados, você pode consultar os dados para analisá-los. Você pode estar procurando tendências ou tentando determinar a causa de problemas em seus sistemas. Muitos sistemas de gerenciamento de banco de dados fornecem ferramentas para permitir que você execute consultas (queries) ad-hoc em seus dados e gere relatórios regulares.
Visualização de dados → Os dados representados em tabelas, como linhas e colunas, ou como documentos, nem sempre são intuitivos. A visualização dos dados muitas vezes pode ser útil como uma ferramenta para examinar os dados. Você pode gerar gráficos como gráficos de barras, gráficos de linhas, plotar resultados em mapas, gráficos de pizza ou ilustrar como os dados mudam ao longo do tempo. A Microsoft oferece ferramentas de visualização como o Power BI para fornecer uma representação gráfica rica de seus dados.

13. O que é chamado de normalização ?

Normalização de banco de dados é um conjunto de regras que visa, principalmente, a organização de um projeto de banco de dados para reduzir a redundância de dados, aumentar a integridade de dados e o desempenho

14. Quais são as desvantagens da normalização ?

Você divide as informações em tabelas. Ao ler essas informações, você precisa reunir essas informações em tempo de execução por junções (joins). Essas consultas podem ser custosas às vezes.

15. Os bancos de dados não relacionais permitem que você armazene dados em um formato que corresponda mais de perto à estrutura original. Qual é a desvantagem disso ?

Alguns dos dados estão duplicados no banco de dados documentado. Essa duplicação não apenas aumenta o armazenamento necessário, mas também pode tornar a manutenção mais complexa ou seja sendo necessário modificar em todos os lugares

16. O que são princípios ACID ?

Banco de dados transacional devem aderir às propriedades ACID para garantir que o banco de dados permaneça consistente durante o processamento de transações.

Atomicidade → Cada transação é tratada como uma unidade independente que resulta em sucesso completo ou falha completa.
Consistência → As transações só podem conduzir os dados do banco de dados de um estado válido para outro estado válido.
Isolamento → A execução concorrente de transações deixa o banco de dados no mesmo estado.
Durabilidade → Assim que uma transação tiver sido confirmada, permanecerá assim.

17. O que é processamento de dados e quantos tipos ?

Processamento em lotes →os elementos de dados são reunidos em um grupo. Então, o grupo inteiro é processado em um momento futuro como um lote

Processamento de streaming: cada novo dado é processado quando chega.

18. Quais diferenças podemos encontrar entre processamento em lotes e streaming ?

Escopo de dados → O processamento em lotes pode executar todos os dados de um conjunto. O processamento de streaming normalmente só tem acesso aos dados mais recentes recebidos ou aos dados que estão dentro de uma janela de tempo contínua (os últimos 30 segundos, por exemplo).
Tamanho dos dados → O processamento em lotes é adequado para lidar de maneira eficiente com grandes conjuntos de dados. O processamento de streaming destina-se a registros individuais ou *micro lotes*, formados por poucos registros.
Desempenho → A latência do processamento em lotes normalmente é de algumas horas. O processamento de streaming normalmente ocorre imediatamente, com latência na ordem de segundos ou milissegundos. Latência é o tempo necessário para que os dados sejam recebidos e processados.
Análise → Normalmente, você usa o processamento em lotes para executar análises complexas. O processamento de streaming é usado para funções de resposta simples, agregações ou cálculos como médias móveis.

19. Quais são as vantagens e desvantagens do processamento em lote ?

Vantagens

Grandes volumes de dados podem ser processados em um momento conveniente.
Ele pode ser programado para ser executado em um momento em que os computadores ou sistemas possam ficar ociosos, como durante a noite ou fora do horário de pico.

Desvantagens

O atraso de tempo entre a ingestão dos dados e a obtenção dos resultados.
Todos os dados de entrada de um trabalho em lote devem estar prontos antes que um lote possa ser processado. Mesmo pequenos erros de dados, como erros tipográficos nas datas, podem impedir a execução de um trabalho em lote.

20. Como os dados em uma tabela relacional são organizados ?

Colunas e Linhas

21. O que é um exemplo de dados não estruturados ?

Arquivos de Áudio é vídeo

22. O que é um exemplo de um conjunto de dados de streaming ?

Dados de feeds do Twitter

23. Quais são os papéis no mundo dos dados?

Administrador de Banco de Dados → Um administrador de banco de dados é responsável pelo design, implementação, manutenção e aspectos operacionais de soluções de banco de dados locais e baseadas em nuvem criadas nos serviços de dados do Azure e SQL Server. Eles são responsáveis pela disponibilidade geral e desempenho consistente e otimizações das soluções de banco de dados. Eles trabalham com as partes interessadas para implementar políticas, ferramentas e processos para planos de backup e recuperação para recuperação após um desastre natural ou erro humano, principais responsabilidades são: Gerenciamento de banco de dados, Segurança de dados de implementos, Backups, Controle de Acesso, Desempenho e monitoramento.
Engenheiro de dados → Um engenheiro de dados colabora com as partes interessadas para projetar e implementar ativos relacionados a dados que incluem pipelines de ingestão de dados, atividades de limpeza e transformação e armazenamentos de dados para cargas de trabalho analíticas. Eles usam uma ampla gama de tecnologias de plataforma de dados, incluindo bancos de dados relacionais e não relacionais, armazenamentos de arquivos e fluxos de dados, principais responsabilidades são: Pipelines e processos de dados, Armazenamento de ingestão de dados, Preparar dados para análise, Preparar dados para processamento de análise.
Analista de dados → Um analista de dados permite que as empresas maximizem o valor de seus dados. Eles são responsáveis por projetar e construir modelos escaláveis, limpar e transformar dados e habilitar recursos analíticos avançados por meio de relatórios e visualizações, principais responsabilidades são: Oferece insights sobre os dados, Geração de relatórios visuais, Modelagem de dados para análise, combinar dados para visualização e análise.

24. O que é o Azure Data Studio ?

Interface gráfica para gerenciar serviços de dados no local e baseados na nuvem, funciona no Windows, macOS e Linux.

25. O que é o SQL Server Management Studio ?

Interface gráfica para gerenciar serviços de dados no local e baseados na nuvem, funciona no Windows e também é uma ferramenta de administração de banco de dados abrangente

26. Quais são algumas das ferramentas comuns que o engenheiro de dados usa ?

Sqlcmd, Azure Databricks e Azure HDInsight, entre outras.

27. Quais são algumas das ferramentas comuns que o Analista de Dados utiliza ?

Power BI Desktop, Power BI Portal, Serviço do Power BI, Power BI Report Builder

28. Quais são as características dos dados relacionais ?

Todos os dados são tabulares. As entidades são modeladas como tabelas, cada instância de uma entidade é uma linha na tabela e cada propriedade é definida como uma coluna. Todas as linhas na mesma tabela têm o mesmo conjunto de colunas .Uma tabela pode conter qualquer número de linhas. A chave primária identifica exclusivamente cada linha em uma tabela. Duas linhas não podem compartilhar a mesma chave primária. Uma chave estrangeira faz referência a linhas em outra tabela relacionada. Para cada valor na coluna de chave estrangeira, deve haver uma linha com o mesmo valor na coluna de chave primária correspondente na outra tabela.

29. O que é uma chave primária e a uma chave estrangeira?

A chave primária indica a coluna (ou combinação de colunas) que identifica exclusivamente cada linha. Cada tabela deve ter uma chave primária. As colunas marcadas como FK são colunas de chave estrangeira. Eles fazem referência ou vinculam-se à chave primária de outra tabela e são usados para manter os relacionamentos entre as tabelas. Uma chave estrangeira também ajuda a identificar e evitar anomalias, como pedidos de clientes que não existem na tabela Clientes.

30. Como você consulta os dados relacionais ?

A maioria dos bancos de dados relacionais oferece suporte à Linguagem de Consulta Estruturada (SQL). Você usa SQL para criar tabelas, inserir, atualizar e excluir linhas em tabelas e para consultar dados.

31. Dê um exemplo de SQL ?

SELECT CustomerID, CustomerName, CustomerAddress FROM Customers WHERE CustomerID = 33

32. Por que usar junções (JOINS) em consultas SQL?

Você pode combinar os dados de várias tabelas em uma consulta usando uma operação de junção (JOINS). Uma operação de junção abrange os relacionamentos entre as tabelas, permitindo que você recupere os dados de mais de uma tabela por vez. A consulta a seguir recupera o nome de cada cliente, juntamente com o nome do produto e a quantidade de cada pedido que eles fizeram. Observe que cada coluna é qualificada com a tabela à qual pertence:

SELECT Customers.CustomerName, Orders.QuantityOrdered, Products.ProductName

FROM Customers JOIN Orders

ON Customers.CustomerID = Orders.CustomerID

JOIN Products

ON Orders.ProductID = Products.ProductID

33. O que é um índice?

Ao criar um índice em um banco de dados, você especifica uma coluna da tabela e o índice contém uma cópia desses dados em uma ordem de classificação, com ponteiros para as linhas correspondentes na tabela. Quando o usuário executa uma consulta que especifica essa coluna na cláusula WHERE, o sistema de gerenciamento de banco de dados pode usar esse índice para buscar os dados mais rapidamente do que se tivesse que varrer toda a tabela linha por linha.

34. Por que criar índices torna as inserções, atualizações ou exclusões lentas?

Um índice pode consumir espaço de armazenamento adicional e cada vez que você insere, atualiza ou exclui dados em uma tabela, os índices dessa tabela devem ser mantidos. Esse trabalho adicional pode retardar as operações de inserção, atualização e exclusão e incorrer em custos adicionais de processamento.

35. O que é uma Exibição(view) ?

Uma Exibição (view) é uma tabela virtual baseada no conjunto de resultados de uma consulta. No caso mais simples, você pode pensar em uma visualização como uma janela em linhas especificadas em uma tabela subjacente.

CREATE VIEW vw_customerorders AS

SELECT Customers.CustomerID, Customers.CustomerName, Orders.OrderID

FROM Customers

JOIN Orders on Customers.CustomerID = Orders.CustomerID

SELECT CustomerName, OrderID

FROM vw_customerorders

WHERE CustomerID=102

36. Quais são as principais características dos dados não relacionais ?

O aspecto chave dos bancos de dados não relacionais é que eles permitem que você armazene dados de uma maneira muito flexível. Bancos de dados não relacionais não impõem um esquema aos dados. Em vez disso, eles se concentram nos dados em si, e não em como estruturá-los. Essa abordagem significa que você pode armazenar informações em um formato natural, que reflete a maneira como você as consumiria, consultaria e usaria.

37. Quais são os casos de uso dos bancos de dados não relacionais ?

IoT e telemática → Com frequência exigem ingerir grandes quantidades de dados em frequentes explosões de atividades,
os dados são semiestruturados ou estruturados, com frequência exigem processamento em tempo real.

Varejo e marketing → Cenários comuns para dados distribuídos globalmente, armazenamento de documentos

Jogos → Estatísticas de jogo, integração com mídias sociais, quadros de líderes, aplicativos de baixa latência

Web e móvel: → Normalmente usado com análises de cliques na web, aplicativos modernos incluindo bots

38. Quais são os formatos de dados semiestruturados?

Um documento JSON é colocado entre chaves ({e}). Cada campo tem um nome (um rótulo), seguido por dois-pontos e pelo valor do campo. Os campos podem conter valores simples ou subdocumentos (cada um iniciando e terminando com chaves). Os campos também podem ter vários valores, mantidos como matrizes e circundados com colchetes ([e]).

O Avro é um formato baseado em linha. Ele foi criado pelo Apache. Cada registro contém um cabeçalho que descreve a estrutura dos dados no registro. Esse cabeçalho é armazenado como JSON. Os dados são armazenados como informações binárias. Um aplicativo usa as informações no cabeçalho para analisar os dados binários e extrair os campos contidos neles. O Avro é um formato muito bom para compactar dados e minimizar os requisitos de armazenamento e largura de banda de rede.

O ORC (formato Colunar de Linha Otimizado) organiza os dados em colunas em vez de linhas. Ele foi desenvolvido pela HortonWorks para otimizar as operações de leitura e gravação no Apache Hive. O Hive é um sistema data warehouse que dá suporte a resumos de dados rápidos e à consulta de conjuntos de grandes demais.

O Parquet é outro formato de dados de coluna. Ele foi criado pela Cloudera e pelo Twitter. Um arquivo Parquet contém grupos de linhas. Os dados de cada coluna são armazenados juntos no mesmo grupo de linhas. Cada grupo de linhas contém uma ou mais partes de dados. Um arquivo Parquet inclui metadados que descrevem o conjunto de linhas encontrado em cada parte.

39. O que são os bancos de dados NoSQL ?

Os bancos de dados NoSQL (não relacionais) geralmente se enquadram em quatro categorias: Repositório chave-valor, bancos de dados de documentos, bancos de dados de famílias de colunas e bancos de dados de grafo.

Repositório de chave-valor
Um Repositório de chave-valor é o tipo mais simples (e geralmente mais rápido) de banco de dados NoSQL para inserção e consulta de dados. Cada item de dados em um armazenamento de valor-chave tem dois elementos, uma chave e um valor. A chave identifica exclusivamente o item e o valor contém os dados do item. O valor é opaco para o sistema de gerenciamento de banco de dados.

Documentos
Um banco de dados de documentos representa a extremidade oposta do espectro NoSQL de um armazenamento de chave-valor. Em um banco de dados de documentos, cada documento possui um ID exclusivo, mas os campos nos documentos são transparentes para o sistema de gerenciamento do banco de dados. Os bancos de dados de documentos geralmente armazenam dados no formato JSON. Eles podem ser codificados usando outros formatos, como XML, YAML, JSON, banco de dados da família BSON

Família de Colunas
Um banco de dados de família de colunas organiza os dados em linhas e colunas. Exemplos dessa estrutura incluem arquivos ORC e Parquet,
em sua forma mais simples, um banco de dados de família de colunas pode parecer muito semelhante a um banco de dados relacional, pelo menos conceitualmente. O verdadeiro poder de um banco de dados de família de colunas está em sua abordagem desnormalizada para estruturar dados de maneira espalhada.

Grafo
Os bancos de dados de grafo permitem que você armazene entidades, mas o foco principal está nas relações que essas entidades têm entre si. Um banco de dados de grafo armazena dois tipos de informação: nós que você pode considerar como instâncias de entidades e bordas, que especificam as relações entre os nós.

Alguns cenários para uso:

Aplicativos OLTP com dados altamente correlacionados
Fáceis atualizações para objetos simples ou múltiplos
Modelagem de dados flexível
Requisitos de dados que evoluem
Estruturas de dados hierárquicas

40. Quais são as características do repositório de chave-valor ?

Uma consulta especifica as chaves para identificar os itens a serem recuperados.
Você não pode pesquisar por valores. Um aplicativo que recupera dados de um armazenamento de valor-chave é responsável por analisar o conteúdo dos valores retornados.
As operações de gravação são restritas a inserções e exclusões.
Se você precisar atualizar um item, você deve recuperar o item, modificá-lo na memória (no aplicativo) e depois gravá-lo de volta no banco de dados, substituindo o original (efetivamente uma exclusão e uma inserção).

41. Qual é o caso de uso para o repositório de chave-valor?

O foco de um repositório de chave-valor é a capacidade de ler e gravar dados muito rapidamente. Os recursos de pesquisa são secundários. Um armazenamento de valor-chave é uma excelente opção para ingestão de dados, quando um grande volume de dados chega como um fluxo contínuo e deve ser armazenado imediatamente.

Você está criando um sistema que monitora a temperatura em um conjunto de blocos do escritório e define o ar-condicionado em cada sala em cada bloco para manter uma temperatura ambiente agradável. Seu sistema precisa gerenciar o ar-condicionado em vários milhares de prédios espalhados pelo país ou pela região, e cada prédio normalmente contém pelo menos 100 salas com ar-condicionado. Para esse cenário em especifico um repositório de chave-valor é o recomendado.

42. O que são ETL e ELT ?

ETL → significa Extrair, Transformar e Carregar. Os dados brutos são recuperados e transformados antes de serem salvos. As etapas de extração, transformação e carregamento podem ser executadas como um pipeline contínuo de operações. É adequado para sistemas que requerem apenas modelos simples, com pouca dependência entre os itens.

ELT → é uma abreviação de Extract, Load e Transform. O processo difere do ETL, pois os dados são armazenados antes de serem transformados. O mecanismo de processamento de dados pode adotar uma abordagem iterativa, recuperando e processando os dados do armazenamento antes de gravar os dados e modelos transformados de volta no armazenamento. O ELT é mais adequado para a construção de modelos complexos que dependem de vários itens no banco de dados, geralmente usando processamento em lote periódico.

43. O que é Relatório ?

Relatórios: O processo de organizar dados em resumos informativos para monitorar o desempenho de diferentes áreas de uma organização. Os relatórios mostram o que aconteceu, enquanto a análise se concentra em explicar por que isso aconteceu e o que você pode fazer a respeito.

44. O que é Business Intelligence ?

Business Intelligence: Refere-se a tecnologias, aplicativos e práticas para a coleta, a integração, a análise e a apresentação de informações corporativas. Os sistemas de business intelligence fornecem exibições históricas, atuais e preditivas das operações empresariais, geralmente usando dados que foram coletados em um data warehouse e, ocasionalmente, usando dados operacionais dinâmicos.

45. O que é Visualização de Dados ?

Visualização de Dados: É a representação gráfica de informações e dados. Com o uso de elementos visuais como gráficos, grafos e mapas, as ferramentas de visualização de dados oferecem uma forma acessível para identificar e entender tendências, exceções e padrões nos dados.

46. Quais são as formas mais comuns de visualização?

Gráficos de barras e colunas: Os gráficos de barras e colunas permitem que você veja como um conjunto de variáveis muda em diferentes categorias.

Gráficos de linhas: Os gráficos de linhas enfatizam a forma geral de uma série inteira de valores, geralmente ao longo do tempo.

Matriz: Um visual de matriz é um estrutura tabular que resume os dados. Muitas vezes, os designers de relatórios incluem matrizes em relatórios e painéis para permitir que os usuários selecionem um ou mais elementos (linhas, colunas, células) na matriz para destacar outros visuais em uma página de relatório.

Mapa de árvore(Treemap) : Os mapas de árvore são gráficos de retângulos coloridos, com tamanho representando o valor relativo de cada item. Eles podem ser hierárquicos, com retângulos aninhados dentro dos retângulos principais

Dispersão(Scatter): Um gráfico de dispersão mostra a relação entre dois valores numéricos. Um gráfico de bolhas é um gráfico de dispersão que substitui pontos de dados por bolhas, com o tamanho da bolha representando uma terceira dimensão de dados adicional.

Mapa Coropléticos (Filled Map): Se você tiver dados geográficos, você pode usar um mapa preenchido para exibir como um valor difere em proporção em um geografia ou região.

47. Quais são as categorias de análise de dados?

Análise descritiva → O mundo das análises está evoluindo da “Análise descritiva” típica, que se trata de “o que está acontecendo em meu negócio?”.

“O que aconteceu”

Análise de diagnóstico → Os insights de dados, fornecidas pela análise descritiva, são necessárias para oferecer a resposta a: “O que está acontecendo em seu negócio”, que é normalmente referenciado para analisar a causa-raiz ou “Análise de diagnóstico”

Ambas as análises descritiva e de diagnóstico são vistas como uma carga de trabalho que está primariamente oferecendo uma resposta reativa, desde o que está acontecendo, por que está acontecendo, chegando até o que vou fazer com isso.

“Porque aconteceu”

Análise preditiva → Ao criar padrões preditivos por cima de seus dados, utilizando as descobertas de dados Descritivos, de Diagnóstico e Preditivos, conseguirá identificar o que está baseado naquilo que você obtém das análises descritiva e de diagnóstico, e usado para encontrar respostas à pergunta: o que tem probabilidade de ocorrer no futuro com base nas tendências e padrões anteriores?

“O que acontecerá no futuro”

Análise prescritiva → Técnicas usadas para fornecer insights preditivos sobre seus dados, normalmente introduzidas criando modelos de aprendizado de máquina para “prever” tendências e fornecer respostas

Quando você obtém as descobertas das análises descritiva, de diagnóstico e preditiva, como o que está acontecendo, a causa-raiz por trás disso e o que pode acontecer no futuro, o modelo prescritivo utiliza essas respostas para ajudá-lo a determinar o melhor curso de ação a escolher para desviar-se ou eliminar problemas futuros.

“Que ações deveriam ser tomadas para atingir um objetivo”

Análise cognitiva → A análise cognitiva combina várias tecnologias inteligentes como inteligência artificial, algoritmos de aprendizado de máquina, aprendizado profundo etc. para aplicar inteligência semelhante à do cérebro humano para realizar determinadas tarefas.
Basicamente, esse tipo de análise é inspirado por como o cérebro humano processa informações, chega a conclusões e codifica instintos e experiência em aprendizado como entender não somente as palavras em um texto, mas o contexto completo do que está sendo escrito ou falado.

“Tirar inferências, ou seja inferir”

Sequencia dos Posts

Parte 2, Parte 3, Parte 4

[Azure] — Sequencia de posts para aprofundar os estudos da certificação Azure DP-900 Data Fundamentals Exam (1/4)

Explorar os principais conceitos de dados (15–20%)

Sequencia dos Posts

Written by Henrique Eduardo