Material de estudo para o exame de certificação DP-100: Designing and Implementing a Data Science Solution on Azure
Fala galera blz?!!!! No dia 02/05/2020 passei no exame de certificação DP-100 e alcancei o título de Microsoft Certified: Azure Data Scientist Associate. Esse post tem o objetivo compartilhar algumas considerações, dicas sobre a prova e o material de estudo que utilizei para me preparar para o exame que compõe essa certificação.
Em tempos de coronavirus (COVID-19) a Microsoft tem realizado diversas mudanças nos treinamentos e certificações, com isso, o crecimento das solicitações de agendamento para execução de exames feitos em casa aumentou nos ultimos tempos. Então resolvi marcar meu exame e realizar em casa, já havia feito outras vezes sem nenhum problema. Se quiser entender melhor como funciona esse processo, nosso amigo de comunidade Dirceu Resende compartilhou um blog post com varias dicas de como fazer a prova em casa sem dor de cabeça.
Primeiramente, para a realização desse exame, imagino que você já tenha conhecimento em alguns pré-requisitos básicos que são necessários. Mas não se preocupe que esses requisitos não são cobrados profundamente em detalhes. Conceitos, bibliotecas e Frameworks como: Python, Pandas, Numpy, Matplotlib, Scikit-Learn, PyTorch, Tensorflow, algoritimos supervisionados (Ex: Regressão e Classificação), não-supervisionados (Ex: Clustering, Deteccão de anomalias, recomendação), além do entendimento básico do processo fim a fim de engenharia de features, seleção de modelos e tuning de hyper-parâmetros. Faz-se necessário o entendimento de básico a intermediário para que possa se sair bem nessa prova.
Microsoft Certified: Azure Data Scientist Associate
Essa certificação faz parte da nova trilha de provas da Microsoft baseada em carreiras. Que novamente está passando por algumas mudanças em substituição a carreira MCSE: Data Management and Analytics, para maiores informações caso queira saber um pouco mais sobre as mudanças nas certificações de Data & AI acesse esse link.
Ela se enquadra na categoria de Data & AI, que agora será composta por 5 grandes áreas:
- Azure Data Scientist
- Azure Data Engineer
- Azure AI Engineer
- Azure Database Administrator Associate
- Data Analyst Associate
Recentemente escrevi um post muito bacana detalhando diversos materiais de estudo para obter essa certificação de Azure Data Engineer Associate. Para acessar o conteúdo clique aqui. Meu amigo Arthur Luz que também passou nesse exame escreveu outro post completão, listando os beneficios de um Data Engineer se certificando em mais de um Cloud Provider.
O “bot” do Dirceu Resende novamente compartilhou 2 posts sobre suas considerações, dicas e materiais de estudo para os dois exames que ainda estão em fase beta: Azure Database Administrator Associate (Beta) & Data Analyst Associate (Beta). No site dele você ainda pode encontrar diversos materias sobre certificações Microsoft, SQL Server, PowerBI, Analysis Services e muito mais.
Exam DP-100: Designing and Implementing a Data Science Solution on Azure
O objetivo desse exame é certificar que o profissional tenha conhecimento em ciência de dados e aprendizado de maquina. Também seja capaz de desenhar, implementar e rodar uma solução de machine learning na cloud do Microsoft Azure utilizando Azure Machine Learning Service. Bem como a criação de ambientes de data science para workloads, experimentos, treinamento de modelos preditivos, gerenciamento, otimização de modelos e deployment de modelos em ambiente de produção.
A prova é bem focada no ciclo de vida completo, workflow de um modelo de machine learning, arquitetura e conceitos sobre o funcionamento do Azure Machine Learning.
Segue abaixo imagem com algumas dicas que também podem ajudar você a entender e escolher melhor os algoritmos de machine learning para uma solução de análise preditiva no Azure Machine Learning.
Antes de falar sobre o material que utilizei para estudar, gostaria de enfatizar alguns detalhes que me lembro de ter caido na prova, são 50 questões aleatórias, então pode ser que as mesmas questões não se repitam em provas diferentes:
- Entenda muito bem como funciona o deployment de modelos através da interface grafica do Azure Machine Learning;
- Bem como deployment de modelos utilizando SDK em Python;
- É necessário que você tenha conhecimento em Application Insights;
- Cai bastante questões sobre Tuning de Hyper-Paramêtros;
- Interpretação de modelos;
- Automated Machine Learning através da interface gráfica;
- Automated Machine Learning com Python;
- Monitoramento de Experimentos;
- Rastrear métricas de modelos com MLflow; (Caiu na prova mas não está no documento oficial de habilidades medidas, que será listado logo mais abaixo).
- É bastante cobrado no exame o entendimento sobre ambiente de deployment dos modelos de Machine Learning;
Muito além do material citado acima, existem diversos conteúdos pagos e gratuitos para se preparar para esse exame: Curso oficial, documentações, livros, github e a famosa plataforma de treinamentos Microsoft Learn.
Segue listagem dos recursos que utilizei para estudo:
Documentação: Azure Machine Learning (Gratuito);
Microsoft Learn (Gratuito):
- Azure Fundamentals;
- Get Started AI Fundamentals;
- Build AI solutions with Azure Machine Learning;
- Machine Learning crash course;
- Create no-code predictive models with Azure Machine Learning;
- Data Science Fundamentals;
- Cloud Skills Challenge;
- Introduction to machine learning with Python and Azure Notebooks;
- Get started with Machine Learning an Azure Data Science Virtual Machine;
- Perform Data Science with Azure Databricks;
Curso Oficial: dp-100t01;
Acesse o link e verifique quais centros de treinamento estão disponíveis no Brasil;(Pago)
Infelizmente ainda não existem livros oficiais e simulados referentes a essa prova no Brasil.
Existem também notebooks disponibilizados no github que ajudam bastante na prática e conhecimento do ambiente no Azure, além do fato de eu já ter trabalhado em projetos internos do trabalho utilizando o Azure Machine Learning como ferramenta, me auxiliaram no entendimento do conteúdo técnico.
Labs Github (Gratuito):
- Microsoft Learn — Azure Machine Learning Labs;
- Machine Learning crash course;
- How To Use Azure Machine Learning;
- MLOps;
Esqueci de mencionar no inicio deste post que a prova só está disponível nas seguintes linguagens: English, Japanese, Chinese (Simplified), Korean. Das 4 disponíveis eu só conheço o inglês, então caso você ainda não tenha familiaridade, recomendo fortemente que busque se atualizar nessa skill muito importante para todos na área de tecnologia.
Sempre organizo meus estudos de acordo com o documento de habilidades medidas que direciona para o conteúdo e porcentagem que será cobrada em cada tópico, conforme irei descrever abaixo:
Set up an Azure Machine Learning workspace (30–35%)
Create an Azure Machine Learning workspace
- create an Azure Machine Learning workspace
- configure workspace settings
- manage a workspace by using Azure Machine Learning Studio
Manage data objects in an Azure Machine Learning workspace
Manage experiment compute contexts
- create a compute instance
- determine appropriate compute specifications for a training workload
- create compute targets for experiments and training
Run experiments and train models (25–30%)
Create models by using Azure Machine Learning Designer
- create a training pipeline by using Designer
- ingest data in a Designer pipeline
- use Designer modules to define a pipeline data flow
- use custom code modules in Designer
Run training scripts in an Azure Machine Learning workspace
- create and run an experiment by using the Azure Machine Learning SDK
- consume data from a data store in an experiment by using the Azure Machine Learning SDK
- choose an estimator Generate metrics from an experiment run
- log metrics from an experiment run
- retrieve and view experiment outputs
- use logs to troubleshoot experiment run errors
Automate the model training process
- create a pipeline by using the SDK
- pass data between steps in a pipeline
- run a pipeline
- monitor pipeline runs
Optimize and manage models (20–25%)
Use Automated ML to create optimal models
- use the Automated ML interface in Studio
- use Automated ML from the Azure ML SDK
- select scaling functions and pre-processing options
- determine algorithms to be searched
- define a primary metric
- get data for an Automated ML run
- retrieve the best model
Use Hyperdrive to rune hyperparameters
- select a sampling method
- define the search space
- define the primary metric
- define early termination options
- find the model that has optimal hyperparameter values
Use model explainers to interpret models
Manage models
Deploy and consume models (20–25%)
Create production compute targets
Deploy a model as a service
Create a pipeline for batch inferencing
Publish a Designer pipeline as a web service
Escrevi uma documentação do GitHub listando diversos scripts e mais materiais que podem auxiliar nessa prova.
Por fim, segue alguns livros excelentes que também usei como material de apoio:
Algumas pessoas acham que a jornada para uma certificação não vale a pena, é fácil, “sorte” ou até mesmo “dump” (certificação desonesta). Pela quantidade de conteúdo para estudo, deu pra perceber o caminho é difícil e o conhecimento adquirido com os estudos é impressionante, a curva de aprendizado em cada objetivo pessoal e profissional é surpreendente.
Acima detalhei uma série de materiais ricos em detalhes, que com certeza aborda todo material referente a prova. Agora basta você definir seus objetivos, agendar seu exame, aprender bastante com matérial disponível e passar na certificação. Não esqueça de compartilhar o que você aprendeu com outras pessoas, isso ajuda a absorver melhor o conhecimento. Quem ensina aprende duas vezes!!!
Espero sinceramente ter auxiliado e motivado outros profissionais que estejam em busca de conteúdo para se direcionar nessa carreira que é a “hype” do momento. Obrigado pela leitura, estarei disponível em minhas redes sociais para perguntas e bate papo sobre a carreira de Data & AI no Azure.
Nos vemos nos eventos de dados e inteligência artificial pelo Brasil a fora.
#microsoft #azure #dataengineer #datascientist #gotospace