Google Cloud Certified — Professional Data Engineer 考試心得

ChiaosChen
Dec 30, 2022

--

TL;DR:

  1. 考古題很重要(網路上都找得到)
  2. 至少要理解每個服務的優缺點(不用實際會操作)

什麼是Google Cloud Certified?

Google Cloud 提供多種雲端服務,而Google Cloud Certified則是依據不同的角色給予官方認證,細分有很多類別,我這邊考的是Professional 的類型,主要給有3年以上的開發經驗工程師考取,也有比較入門的類型。

詳細可以參考官方網站說明:https://cloud.google.com/certification

怎麼報考?

到官方網站選擇你想報考的項目,舉例:https://cloud.google.com/certification/data-engineer

官方會提供Learning path給你參考可以怎麼準備考試,考試時間都是兩個小時,可以提早交卷,費用是200美金,可以選擇線上考試或是到官方指定的考場。如果第一次沒有考過可以在14天後補考一次,如果還是沒過就要等60天後才可以再考這個項目,第三次還是沒過就要等一年後才可以在考了。證書的有效期限是兩年!兩年後又得在考一次💸💸💸

實際考試情況

我是選英文線上考試(沒有中文),線上考試為了考試公平性會有些要求:

  1. 要開鏡頭、麥克風
  2. 會要求360度展示你在的環境(不能有其他人、不能有任何會發出聲音的電子設備、不能有第二台電腦、鍵盤滑鼠、不能有紙筆在伸手可及的範圍內等等的
  3. 網速要夠穩不能出現視訊畫面lag的情況
  4. 安裝特殊瀏覽器開啟考試頁面

基本上線上考試蠻麻煩的是環境問題,很怕隔壁鄰居突然大聲唱ABC之歌之類的(怕爆),但線上好處是可以選擇的時間比較多,大半夜或清晨、平日假日的時間都有,也不用花時間去考場。同事分享現場考試的螢幕很爛看得眼睛痛😂

Professional Data Engineer 考什麼?

基本上我會分成三大區塊+其他:

  1. Database / Storage相關的存取服務
  2. ETL 資料處理的相關服務
  3. Machine Learning 的相關服務
  4. 其他GCP 相關配套服務

Database / Storage 包括以下7種服務

  • Cloud storage
  • Big Query
  • Cloud SQL
  • Cloud Spanner
  • Cloud BigTable
  • Cloud Datastore
  • Cloud Firestor

這邊重點在於瞭解哪些服務是Data warehouse,哪些是RDBMS哪些是NoSQL,每個服務的優缺點是什麼?比如說Cloud Spanner跟Cloud SQL都是RDBMS差別在於Cloud Spanner支援multi-region 水平擴展的能力,Cloud SQL則是優點在單一Region高可用性,所以如果題目問有一個跨國公司要支援全球訂單存取那就要選Cloud Spanner。

另外就是效能問題,要知道每個服務怎麼加速效能,比如說Bigquery 查詢速度太慢通常就是要改用Partition table,BigTable效能太慢可能是Rowkey設的不好要調整之類的。

ETL 資料處理相關服務

  • Data Transfer
  • Cloud Composer
  • Data Lab
  • Data Flow
  • Data Prep
  • Data Proc
  • Data Studio (已整合成Looker Studio)
  • Cloud Pub/Sub

Data Transfer有四種方法,官方都有說明文件,這是必考題而且考不少題一定要記清楚每個方法的優缺點、支援的檔案大小、傳輸頻寬。其他就是一樣要了解每個服務的特性,跟支援哪些Data input(搭配上面的DB)。

這邊我覺得比較難的是有些考題真的會考到蠻細的服務設定細節,如果沒時間摸熟每個服務的話就是靠考古題來找出重點去釐清了。

Machine Learning 的相關服務

  • Machine Learning Method
  • Natural Language API
  • Cloud Speech API
  • Google Translation API
  • Cloud Vision API
  • Cloud video API
  • Vertax AI
  • Cloud Data Loss Prevention API
  • Dialogflow

基本上以上API都只要知道很表面甚至看名字就知道在做什麼了,不用太深入了解,另外比較困難的是ML的方法跟基本的一些觀念,像是Overfitting怎麼辦?預測房價要選什麼方法?

其他

  • I AM
  • Stackdriver API
  • KMS

考得不多,大多是權限問題,IAM角色怎麼給,權限層級怎麼設定的觀念,有問題去哪邊查log之類的。

心得

身為一個台灣教育體制下長大的學生,考試應該是大家都有培養出一些小撇步,一開始都聽前輩講考古題很重要所以第一步當然是上網找找看有沒有題型分享,載下來後真的是放了好久都沒看XD

一開始本來想照官方推薦learning path把所有教學影片看完,前前後後大概拖了半年有斷斷續續的看完一遍,但說實在的沒什麼幫助,除非你是完全不認識這個服務想看一下介面跟操作看看,不然實在是太花時間介紹的又很淺。所以後來就決定直接從考古題下手,考試的題型基本上都是應用題,會有一段敘述然後問你要怎麼配置服務最合適,所以一開始不太熟所有服務的時候看了就會處處碰壁很挫折,後來決定先花點時間整理每個服務的重點,再回來看考題就順利很多,只需要在遇到不會的地方再稍微查一下這個服務或特殊情境在做什麼記下來就好,當然不依賴考古題完全靠讀文件也是可以(#respect),觀念正確的話確實都可以釐清答案,但有考古題幫忙抓重點會快很多。我只有找到一份大約260題的考古題,全部都有讀完,自己覺得考古題命中率大概有50%,投資報酬率很高!

個人覺得DE的考試重點在於區分每個存取服務的優缺點跟ETL工具的使用情境,這樣基本上就很夠考試了,另外對我來說比較困難的事Mechine Learning相關的考題,因為自己沒有什麼ML的實務經驗,所以也有花時間從最基本的term開始了解,但ML考的也不深也是以釐清哪個服務或API適合什麼情境就很足夠了。

如果要準備充足的話準備時間當然因人而異,但如果是有GCP實務經驗的人,要認真準備大概兩週就夠了,每天花個兩小時左右。(官方說要三年以上經驗😂)最後就希望以上分享對大家有幫助,祝大家都能順利All pass!

--

--