利用大數據維運分析，提升用戶滿意度

縮短異常問題的處理週期，提升體驗滿意度

Published in

bimap

2 min readJun 8, 2017

由於IT系統環境日益複雜、通常只有在核心系統發生服務中斷後，并造成影響時，IT部門才會開始被動分析異常問題。由於需要通過不同的技術和多種監控工具，對龐大的複雜資料做繁複的診斷，造成處理問題的周期過長。

隨著核心應用系統複雜度和的資料量日益增長，IT系統也會隨需而變。如何利用大數據維運分析平台，如何量化評估應用系統的負載需求和資源設備的最大業務支撐力，來保障核心系統未來3–5年的高效穩定運行。避免升級方案實施後，才發現改善效果不如預期的現象。

通過現有收集的效能 log，經由資料挖掘、建模分析，建立系統之間的關聯性，建立IT系統的風險相關模型，以大數據技術實現風險預警通報管理機制，一方面提供技術團隊的提前實施調整異常的依據，另一方面協助管理團隊建立主動維運的模式，提早維運決策品質和降低系統運營的風險。

準確定位造成系統緩慢的根源，提昇效能問題的處理效率，並提高應用高峰期設備資源的最大利用率。

提前挖掘系統隱患並持續追蹤，落實主動維運，提前排除可能造成服務中斷的異常，降低被動救火的次數。

評估測試環境下的各種壓測場景的效能瓶頸分析，並預測生產環境的資源最大的應用支撐力。

提供系統上線前軟體品質的驗收方案，提昇應用系統的穩定性，降低系統上線後才發現產生報錯和緩慢的風險。

通過歷史日誌的統計分析，建立關鍵指標的趨勢統計預測，避免因業務和資料增長後，產生的系統當機風險。

量化系統實際的應用需求，提供軟、硬體的採購依據，提供iT 投資效益，避免設備升級後改善不如預期的風險。