Neste post vamos falar sobre a primeira parte da prova.

Explore a análise moderna de data warehouse(25–30%)

  • Examinar os componentes de um data warehouse moderno
  • Explorar a ingestão de dados no Azure
  • Explorar o armazenamento e o processamento de dados no Azure
  • Comece a criar com o Power BI

1.Descreva o data warehouse moderno ?

Um data warehouse reúne dados de muitas fontes diferentes dentro de uma organização. Esses dados são então usados como fonte para análise, relatório e processamento analítico online (OLAP). O foco de um data warehouse é fornecer respostas a consultas complexas, ao contrário de um banco de dados relacional tradicional, que é focado no desempenho transacional. Os data warehouses precisam lidar com big data. Big data é o termo usado para grandes quantidades de dados coletados em volumes crescentes, em velocidades mais altas e em uma variedade maior de formatos do que nunca. Pode ser histórico (ou seja, armazenado) ou em tempo real (ou seja, transmitido da fonte). As empresas geralmente dependem de seus big data para ajudar a tomar decisões críticas de negócios.

2. O que é o Azure Data Factory?

O Azure Data Factory é descrito como um serviço de integração de dados. A finalidade do Azure Data Factory é recuperar dados de uma ou mais fontes de dados e convertê-los em um formato que você processa.

3. Seus dados podem conter datas e horas formatadas de maneiras diferentes em diferentes fontes de dados. Qual ferramenta você pode usar para transformar esses itens para formata-los de maneira uniforme ?

Azure Data Factory

4. O que é o Armazenamento do Azure Data Lake ?

Um data lake é um repositório para grandes quantidades de dados brutos. Como os dados são brutos e não processados, é muito rápido carregar e atualizar, mas os dados não foram colocados em uma estrutura adequada para uma análise eficiente. Você pode pensar em um data lake como um ponto de preparação para seus dados ingeridos, antes de serem massageados e convertidos em um formato adequado para realizar análises.

5. Um pipeline pode ser executado continuamente, à medida que os dados são recebidos de várias fontes de dados. Você pode criar pipelines usando a interface gráfica do usuário fornecida pela Microsoft ou escrevendo seu próprio código. Que serviço é este?

Azure Data Factory

6. Você está obtendo os dados de diferentes fontes para armazenamento e processamento de dados. Quais são os serviços que você deve usar nas partes ausentes da solução de data warehouse a seguir?

  • Azure Data Factory
  • Azure Data Lake Storage

7. O que é Azure Databricks ?

O Azure Databricks é um ambiente Apache Spark executado no Azure para fornecer processamento de big data, streaming e aprendizado de máquina.

8. O que é o Azure Synapse Analytics ?

O Azure Synapse Analytics é um mecanismo de análise. Ele foi projetado para processar grandes quantidades de dados muito rapidamente. Usando o Synapse Analytics, você pode ingerir dados de fontes externas, como arquivos simples, Azure Data Lake ou outros sistemas de gerenciamento de banco de dados e, em seguida, transformar e agregar esses dados em um formato adequado para processamento analítico. Você pode realizar consultas complexas sobre esses dados e gerar relatórios, gráficos e tabelas.

9. O Azure Synapse Analytics inclui um nó de controle e um pool de nós de computação. Explique a arquitetura ?

O nó de controle é o cérebro da arquitetura. É o front-end que interage com todos os aplicativos. O mecanismo MPP é executado no nó Controle para otimizar e coordenar consultas paralelas. Quando você envia uma solicitação de processamento, o nó Controle a transforma em solicitações menores que são executadas em subconjuntos distintos dos dados em paralelo. Os nós Computação fornecem o poder computacional. Os dados a serem processados são distribuídos uniformemente pelos nós. Usuários e aplicativos enviam solicitações de processamento para o nó de controle. O nó de controle envia as consultas para os nós de computação, que executam as consultas sobre a parte dos dados que cada um deles contém. Quando cada nó termina seu processamento, os resultados são enviados de volta ao nó de controle, onde são combinados em um resultado geral.

10. O Azure Synapse Analytics dá suporte a dois modelos computacionais. O que são aqueles ?

  • SQL pools
  • Spark pools

11. O Azure Synapse Analytics dá suporte a dois modelos computacionais. Estamos usando o pool SQL no design a seguir. O que está faltando no projeto a seguir ?

  • Azure Synapse Analytics
  • Azure Storage

12. O que é polybase no design acima ?

O Azure Synapse Analytics usa uma tecnologia chamada PolyBase. O PolyBase permite que você recupere dados de fontes relacionais e não relacionais, como arquivos de texto delimitados, Armazenamento de Blobs do Azure e Armazenamento do Azure Data Lake. Você pode salvar os dados lidos como tabelas SQL no serviço Synapse Analytics.

13. Em um pool Spark, pode ser substituído por qual componente ?

Spark cluster

14.O que é o Azure Analysis Services ?

O Azure Analysis Services permite que você crie modelos tabulares para dar suporte a consultas OLAP (processamento analítico online). Você pode combinar dados de várias fontes, incluindo Banco de Dados SQL do Azure, Azure Synapse Analytics, armazenamento do Azure Data Lake, Azure Cosmos DB e muitos outros. Você usa essas fontes de dados para criar modelos que incorporam seu conhecimento de negócios. Um modelo é essencialmente um conjunto de consultas e expressões que recuperam dados de várias fontes de dados e geram resultados. Os resultados podem ser armazenados em cache na memória para uso posterior ou podem ser calculados dinamicamente, diretamente das fontes de dados subjacentes.

Sequencia dos Posts

Parte 1, Parte 2, Parte 3

--

--