Debug 龍爪手 (2)

Yotlin
Parenting 數位研發
Jun 13, 2022

GKE log :

可以進到pod 裡 點記錄,查看一些accesslog,nodejs的log

audit log:

Updater , Creator 無法看出中間的修改過程

監控 Grafana,GKE:

cpu使用量 ,load average的觀念 ,最近 1 分鐘平均有幾個process在等待處理,如果是1顆cpu,加總超過1表示系統過於忙錄,如果只有瞬間就沒關係

實際的cpu數量,可以從gke的CPU Requested看到,因為是k8s,所以0.2顆cpu是正常的

關於autoscaling和pod數量,單純看cpu的增加,可以看YAML 搜尋cpu (一個以上)

used和requested盡量不要差太多,開太多浪費,開太少怕變慢

可以看到每多開一個pod,會增加多少cpu ,1000m為一顆cpu,如果增加到實體機的cpu數量以上,會去加開機器,會有一分鐘左右的開機時間,所以如果真的有預期超過負載,要提早加開pod

cloud SQL:

一般會去看cpu使用率,如果是吃到50%以上,持續一段時間都沒有降下來就很有機會是有問題,或是需要調高規格,如果是有開讀寫分離,可以在read的那台看到複製延遲,這個數字應該要唯持在0,否則會有機會在write寫入的資料read會拿不到最新的。

sop:

對於已處理過的問題,應該要記錄下處理方式,不管是在卡片上或是KM上,這樣下次又遇到才有機會快速排除。

要先確定問題發生的主因,可以先朝幾個方向走,先看你最懷疑的

--

--

Yotlin
Parenting 數位研發

22年以上 Web 全端工程師經驗,目前任職於親子天下數位研發中心技術部,帶領團隊共同成長