Pipelines de dados com o poder mágico do Mage-AI

O que é o Mage-AI e como ele pode simplificar a orquestração de pipelines de dados

Denis Oliveira
Data Hackers
4 min readJul 9, 2023

--

Imagem do site Mage

Introdução

O Mage AI é uma plataforma de orquestração de fluxo de trabalho de dados, projetada para simplificar e automatizar a integração, transformação e análise de dados em toda a organização. Com o Mage AI, você pode criar pipelines de dados personalizados, que podem ser facilmente gerenciados e escalados com sua interface intuitiva.

Desvendando as características do Mage-AI para uma orquestração de dados poderosa

  • Interface de usuário:
    - Intuitiva e fácil de usar;
    - É possível visualizar os dados em tempo real diretamente na interface do usuário;
    - A interface permite que os usuários criem e editem fluxos de trabalho usando DAGs;
  • Implementação:
    - Fácil implementação com Docker, Terraform Scripts, Pip ou Conda;
  • Orquestração:
    - Escalável e modular;
    - Mage gerencia automaticamente as dependências entre tarefas, garantindo que elas sejam executadas na ordem correta;
    - Criação de pipelines em tempo real e em lote para transformar dados usando Python, SQL e R;
  • Agendamento e execução:
    - Possibilidade de agendar e executar pipelines de dados em horários específicos ou em intervalos regulares;
    - Suporte a respostas automáticas a falhas, como reiniciar pipelines quando ocorrerem erros;
    - Monitoramento em tempo real da execução dos pipelines e registro de métricas e logs para facilitar a solução de problemas;
  • Integração:
    - Suporte a múltiplas fontes de dados e destinos;
    - Integração com outras ferramentas populares de análise de dados, como Apache Spark e Pandas;
    - Integração e sincronização de dados de fontes de terceiros sem esforço
    - Construa, execute e gerencie seus modelos DBT com o Mage;
  • Flexibilidade:
    - Flexibilidade para personalização e extensão de funcionalidades;

Princípios fundamentais de seu design

  • Facilidade para desenvolver: Motor de código aberto que vem com um notebook UI personalizado para construir pipelines de dados.
  • Melhores práticas de engenharia incorporadas: Construa e implante pipelines de dados usando código modular. Sem escrever código descartável ou tentar transformar notebooks em scripts.
  • Os dados são cidadãos de primeira classe: Projetado desde o início especificamente para executar fluxos de trabalho intensivos em dados.
  • A escalabilidade é simplificada: Analise e processe grandes quantidades de dados rapidamente para iterações rápidas.

https://docs.mage.ai/introduction/overview#core-design-principles

Primeiros passos

No terminal execute o seguinte comando para instalação usando o docker (https://docs.mage.ai/getting-started/setup):

linux/macos:

docker run -it -p 6789:6789 -v $(pwd):/home/src mageai/mageai \
/app/run_app.sh mage start engenheiro_mago

Windows

docker run -it -p 6789:6789 -v %cd%:/home/src mageai/mageai /app/run_app.sh mage start engenheiro_mago

Em seguida, acesse http://localhost:6789 em seu navegador.

Um vislumbre do IDE baseado na web Mage.ai

Outra opção, se você quiser apenas dar uma olhada no IDE, pode usar a ferramenta de demonstração ao vivo: https://demo.mage.ai/pipelines.

Executando um pipeline

Por padrão, Mage-AI vem com um pipeline de exemplo, podemos realizar a execução do mesmo clicando em Run pipeline now na tela de triggers (http://localhost:6789/pipelines/example_pipeline/triggers):

Execução pipeline de exemplo Mage.ai

Na aba de monitoramento podemos verificar a quantidade de pipelines executados com sucesso, os blocos e o tempo de execução de cada bloco (http://localhost:6789/pipelines/example_pipeline/monitors/block-runs):

Conclusão

Mage-AI é um projeto recente, mas já conta com mais de 4.900 estrelas no GitHub. Com sua interface de usuário intuitiva e fácil de usar, a ferramenta atrai aqueles que precisam construir pipelines de dados de forma rápida e eficiente, sem precisar de conhecimentos profundos em infraestrutura. Seus recursos exclusivos têm o potencial de fazer com que mais engenheiros de dados e cientistas o adotem.

Mage-AI tem o objetivo de elevar a importância dos dados como “cidadãos de primeira classe”, ajudando as equipes de engenharia de dados a criar pipelines consistentes, limpos, organizados e bem testados.

Espero que este post tenha sido útil para você entender como o Mage-AI pode ser uma ferramenta poderosa para otimizar seus processos de análise de dados e machine learning. Se você quiser experimentar algumas das funcionalidades discutidas, confira o meu projeto utilizando API da Marvel, disponível no GitHub em https://github.com/deniswoliveira/mage-ai-marvel-project. Experimente mais sobre essa ferramenta incrível e descubra como ela pode ser útil para seus projetos!

--

--