CDP partie 3 : activation des Data Services en environnment CDP Public Cloud
Published in
17 min readJun 29, 2023
L’un des principaux arguments de vente de Cloudera Data Platform (CDP) est la maturité de son offre de services. Ceux-ci sont faciles à déployer sur site, dans le cloud public ou dans le cadre d’une solution hybride.
L’architecture de bout en bout que nous avons présentée dans le premier article de notre série fait un usage intensif de certains de ces services :
- DataFlow est alimenté par Apache NiFi et nous permet de transporter des données d’une grande variété de sources vers une grande variété de destinations. Nous utilisons DataFlow pour ingérer des données depuis une API et les transporter vers notre Data Lake hébergé sur AWS S3.
- Le service Data Engineering s’appuie sur Apache Spark et offre des fonctionnalités puissantes pour rationaliser et rendre opérationnels les pipelines de données. Dans notre architecture, le service Data Engineering est utilisé pour exécuter des tâches Spark qui transforment nos données et chargent les résultats dans notre magasin de données analytiques, le Data Warehouse.
- Data Warehouse est une solution d’analyse en libre-service permettant aux utilisateurs professionnels d’accéder à de grandes quantités de données. Il prend en charge Apache Iceberg, un format de données moderne utilisé pour stocker les…