AI for IT Operation, Why?

Mr.Sem
KBTG Life
Published in
3 min readMay 16, 2020

สวัสดีครับ…คุณผู้อ่านทุกคน ยัง Work From Home (WFH) กันอยู่ไหมครับ? ส่วนพนักงาน KBTG อย่างพวกผมก็นั่งทำงานอยู่ที่บ้านมาได้ราวๆ เดือนกว่าแล้วครับ การ WFH ถือเป็นประสบการณ์ที่แปลกใหม่สำหรับตัวผมเองอยู่เหมือนกัน แต่ดีครับดีที่มีงานเข้ามาและมีโจทย์ให้แก้แบท้าทายอยู่เรื่อยๆ ไม่อย่างนั้นผมคงจะมีอาการ Cabin Fever ไปแล้วแน่นอน

เอาล่ะครับ ทักทายกันพอหอมปากหอมคอ เรามาเข้าเรื่องกันดีกว่า

ถ้าคุณผู้อ่าน มองโลกธุรกิจในยุคปัจจุบัน จะเห็นได้ว่าการนำเทคโนโลยีทางด้าน AI (Artificial Intelligence) หรือ ปัญญาประดิษฐ์มาประยุกต์ใช้แก้ปัญหาทางธุรกิจกลายเป็นเรื่องปกติไปแล้วในแทบจะทุกแวดวง ไม่ว่าจะเป็น การเงินการธนาคาร ธุรกิจประกันภัย E-Commerce หรือแม้กระทั่งการให้บริการด้านโลจิสติกส์ นอกจากนี้คำว่า AI ก็เป็นหนึ่งในคำที่ทีมงาน Marketing ชอบนำไปใช้เป็นจุดขายสินค้าและบริการอีกด้วย

แต่ในบทความนี้ ผมขอนำเสนออีกแง่มุมหนึ่งของการใช้ AI ที่ผู้บริโภคทั่วไปดูแล้วอาจจะไม่ตื่นตาตื่นใจเท่ากับกรณีศึกษาที่กล่าวมาข้างต้น แต่ก็ถือได้ว่าจำเป็นมากสำหรับทุกองค์กรที่พึ่งพาระบบ IT ในการดำเนินงานเพื่อส่งมอบสินค้าและบริการ การใช้งานที่ว่านี้ก็คือ การนำ AI มาช่วยแก้ปัญหาต่าง ๆ ที่เกี่ยวข้องกับ IT Operation หรือเรียกสั้น ๆ ว่า AIOps (Artificial Intelligence for IT Operation)

คำว่า AIOps ผมไม่ได้นั่งเทียนคิดขึ้นมาเองนะครับ แต่เป็นคำที่บริษัท Gartner นำเสนอในบทความ “AIOps Platform Market Guide” ที่ถูกตีพิมพ์ในปี 2017 ที่ผ่านมา

AIOps (Artificial Intelligence for IT Operation)คือ การนำ AI มาช่วยแก้ปัญหาต่างๆ ที่เกี่ยวข้องกับ IT Operation

แต่ก่อนอื่น ผมอยากให้คุณผู้อ่านลองดูประโยคสมมติเหล่านี้ ผมคิดว่าคุณผู้อ่านที่ทำงานคลุกคลีในวงการ IT น่าจะพอคุ้นเคยกันอยู่

มุมมองจากผู้ใช้บริการ

เปิด Ticket ไปตั้งนานแล้ว แต่ดูสถานะในระบบทีไรก็ยังเห็นเป็น Pending ตลอดเลย

ระบบล่มอีกแล้วเหรอ ทำไมถึงไม่รู้ก่อนล่ะคะ ต้องให้ลูกค้าเป็นคนแจ้งให้ประจำเลย

โอย…พี่ใช้งาน App ของบริษัท A ไม่ได้มาหลายวันแล้ว เมื่อไหร่จะแก้เสร็จสักทีก็ไม่รู้ นี่ว่าจะเปลี่ยนเจ้าแล้ว

มุมมองจากผู้ดูแลระบบ IT

หัวหน้าครับ ไม่ใช่ว่าพวกผมไม่อยากปิดงานให้ลูกค้านะครับ แต่แค่งานเก่าพวกผมก็ทำกันไม่ทันแล้ว คนในทีมก็มีอยู่เท่านี้

เฮ้อ…ต้องทำงานซ้ำๆซากๆแบบนี้เช้าจรดเย็น จะเอาเวลาที่ไหนไปหาความก้าวหน้าล่ะนี่ (ลาออกซะดีไหม?)

คือ…พี่คิดว่าการ Troubleshoot ระบบซับซ้อนขนาดนี้ง่ายหรือครับ T_T

ไม่ว่าจะเป็นองค์กรเล็กหรือใหญ่ จะเป็น Startup หรือบริษัทแบบดั้งเดิม (Traditional Business) พอพูดถึงเรื่องการดูแลระบบ IT แล้ว ยังไงก็ต้องใช้ความสามารถของมนุษย์ในการบริหารจัดการอยู่ดี จะมากหรือน้อยแล้วแต่ลักษณะของธุรกิจและความก้าวหน้าของการทำ Digital Transformation ขององค์กรนั้นๆ ส่งผลให้มนุษย์เป็นตัวแปรสำคัญที่บ่งบอกถึงประสิทธิภาพของระบบ IT หลังบ้าน และบางครั้งในสายตาของผู้ใช้งาน ความไม่มีประสิทธิภาพของระบบ อย่างเช่น การที่ App ล่มบ่อยๆ ระบบตอบสนองช้า หรือเปิดเว็บไซต์บริษัทแล้วเจอแต่หน้า Error เป็นประจำ ก็หมายถึงความด้อยคุณภาพของสินค้าและบริการตามไปด้วย ทั้งๆที่ความเป็นจริงแล้วอาจจะไม่ได้เกี่ยวข้องกันเลยก็ได้ ซึ่งถ้าหากเป็นอย่างนั้นก็เป็นเรื่องที่น่าเสียดายนะครับ

ถ้าจะพูดกันแบบมองโลกในแง่ดี ผมไม่คิดว่าจะมีพี่ๆน้องๆ คน IT ท่านไหน ที่อยากจะทำงานผิดพลาดหรือทำงานที่ส่งผลเสียกับองค์กร แต่ด้วยความที่พวกเราเป็นปุถุชนธรรมดา พวกเราก็ย่อมมีข้อจำกัดของมนุษย์ตามมาด้วย ไม่ว่าจะเป็นความรู้ความสามารถ ความเหนื่อยล้า และภาระอื่นๆมากมายในชีวิตที่เราต้องรับผิดชอบ ทำให้ในบางครั้งเราไม่สามารถทำงานได้อย่างเต็มประสิทธิภาพ

พออ่านมาถึงตรงนี้ บางท่านอาจจะคิดว่า “ก็แก้ไม่เห็นยากหนิ ถ้าปัญหาคือคน ก็หาคนมาเพิ่ม ไม่ก็หาคนใหม่มาทำแทน” ซึ่งวิธีนี้ผมมองว่าอาจจะไม่ใช่ทางแก้ที่ตรงจุด และมีข้อเสียคือ 1. เพิ่มงบประมาณ 2. เราอาจจะเสียคนเก่งๆไป โดยที่เขายังไม่ได้แสดงศักยภาพอย่างเต็มที่

จะดีกว่าไหมครับ ถ้าเราจะใช้เทคโนโลยีซึ่งไม่ได้มีข้อจำกัดเหมือนมนุษย์ มาช่วยสนับสนุนคน IT หลังบ้านในการดูแลรักษาระบบ นี่แหละเป็นหัวข้อที่ผมสนใจและรับผิดชอบอยู่เลยครับ เป็นการนำเทคโนโลยีที่เกี่ยวกับ Big Data, Data Analytics, และ Machine Learning มาใช้กับงานฝั่ง IT Operation โดยผมขอเรียกแบบรวมๆตามสมัยนิยมว่า AI นะครับ (แม้ผมจะรู้สึกว่าคำนี้จะถูกใช้พร่ำเพรื่อไปหน่อย แต่ก็ใช้สื่อสารกับคนอื่นได้เข้าใจง่ายและสะดวกดี)

เป้าหมายหลักของการทำ AIOps ในมุมมองของผมนั้น สามารถสรุปได้อย่างสั้นๆ คือ

การนำ AI มาประยุกต์ใช้ เพื่อให้การบริหารจัดการระบบ IT ขององค์กรสามารถทำงานได้อย่างมีประสิทธิภาพมากขึ้น

ส่วนคำนิยามของการมีประสิทธิภาพที่มากขึ้นนี้ ก็ขึ้นอยู่กับว่าจะนำ AI ไปแก้ปัญหาเรื่องใดใน IT Operation เช่น การลดค่าใช้จ่าย การเพิ่มความไวและความถูกต้องของการ Support การลดปริมาณงาน Routine ที่ต้องใช้คนทำ หรือแม้กระทั่งการแจกจ่ายงานให้กับทีม IT หลังบ้าน

ตัวอย่าง Use Case ที่น่าสนใจของ AIOps

  • IT Service as API: คุณผู้อ่านอาจจะเคยเจอปัญหาเวลาติดต่อขอ IT Resources หรือขอ Support จากทีมงาน IT บางครั้งนอกจากจะใช้เวลานานแล้ว ยังต้องมาเหนื่อยใจเวลาที่ต้องติดต่อคุยงานกับผู้คนหลากหลายฝ่ายอีกด้วย การนำ AI มาแก้ปัญหานี้ก็ยกตัวอย่างเช่น เวลาติดต่องานทางด้าน IT ก็ให้ทำผ่าน API ที่มีการออกแบบอย่างชัดเจน และมีความสามารถในการตัดสินใจเองได้ว่า งานไหนที่ไม่ซับซ้อนหรือเป็นงาน Routine ที่มีลักษณะการทำงานที่ชัดเจน ก็สามารถให้ระบบทำการ Support ได้โดยอัตโนมัติ แต่ในส่วนของงานที่ซับซ้อนเกินกว่าที่จะทำ Automation ได้ก็ค่อยให้ระบบส่งต่อไปหาทีมงานที่เกี่ยวข้องดูแลต่อไป
  • Anomaly and Threat Detection: ถึงแม้การทำ Monitoring จะเป็นเรื่องปกติของระบบ IT แต่ด้วยความซับซ้อนของระบบในปัจจุบัน การ Monitor โดยดูเพียงแค่ Alarm Threshold ของ CPU/Memory Utilization, Network Input/Output หรือ Transactions per Second (TPS) แล้วบอกว่านี่คือการที่ระบบกำลังทำงานอย่างปกติ หรือเกิด Anomaly ขึ้นนั้นไม่เพียงพอ เพราะเอาเข้าจริง แม้ค่าต่างๆ อาจจะไม่ถึง Alarm Threshold แต่ระบบอาจจะกำลังทำงานผิดเพี้ยนหรือถูกจู่โจมอยู่ก็เป็นได้ การนำ AI มาใช้ในที่นี้ อาจจะเป็นการ Train ระบบ Monitor หลังบ้าน ให้เข้าใจว่าในสถานการณ์ปกติ ค่า Metric ต่างๆของระบบมีลักษณะเป็นอย่างไร และในกรณีที่มีอะไรผิดแผกออกไป ก็ให้ทำการแจ้งเตือนผู้ดูแลระบบ เพื่อทำการวิเคราะห์ต่อไป
  • Proactive of Service Performance and Availability: สำหรับกรณีนี้ จะคล้ายกับกรณีด้านบน ที่มีการทำ Monitoring แต่จะเป็นอีกมุมมองนึง คือให้มีทำการ Forecast โดยอ้างอิงจากข้อมูลของระบบ ไม่ว่าจะเป็น Metric หรือ Log ในอดีตจนถึงปัจจุบันว่า ถ้าแนวโน้มของค่าต่างๆในระบบยังเป็นแบบนี้ต่อไป ช่วงเวลาใดในอนาคตที่ระบบอาจจะใช้งานไม่ได้ และให้ระบบทำการแจ้งเตือนผู้ดูแลล่วงหน้า เพื่อให้รีบเข้ามาทำการแก้ไข โดยเราอาจจะออกแบบระบบ AI ให้มีความสามารถเพิ่มขึ้นไปอีก เช่น กรณีที่เหตุเกิดจากทรัพยากรไม่เพียงพอ ก็อาจจะให้ระบบทำการจัดสรรทรัพยากรโดยอัตโนมัติจาก Resource Pool ที่มีอยู่ (Auto-Scaling)
  • Root Cause Analysis: สำหรับคุณผู้อ่านท่านใด ที่ต้องดูแลระบบ IT หลังบ้าน คงทราบดีว่า มันเป็นเรื่องที่ไม่สนุกเอาซะเลย ที่ต้องตื่นนอนมาตอนตีสาม แล้วต้องมา Troubleshoot ระบบที่ล่ม พร้อมกับคอยรับสายโทรศัพท์จากหลายฝ่ายที่โทรมาถามแทบจะทุก 5 นาทีว่า เมื่อไหร่ระบบจะใช้ได้ และยิ่งระบบซับซ้อนมากเท่าไหร่ ความยากในการแก้ปัญหาก็จะเพิ่มไปเป็นทวีคูณ จะดีกว่าไหมถ้าเราจะใช้ AI ในการช่วยวิเคราะห์ข้อมูลที่มี และแนะนำเราได้ว่าปัญหาน่าจะเกิดจากสาเหตุใด นอกจากจะหา Root Cause ได้แล้ว จะดียิ่งขึ้นกว่าอีกไหมถ้า AI ของเรายังสามารถแก้ให้โดยอัตโนมัติ (Auto-Remediate) ได้อีกด้วย

นี่เป็นแค่ตัวอย่างเล็กๆส่วนหนึ่งของการประยุกต์ใช้ AIOps เท่านั้นนะครับ ผมคิดว่า คุณผู้อ่านที่อ่านมาถึงจุดนี้ น่าจะเริ่มมีไอเดียดีๆหลายอย่างในการนำ AI ไปประยุกต์ใช้กับงานของตัวเอง

ในมุมมองของผม คำถามที่สำคัญของการนำ AI มาใช้กับงานฝั่ง IT Operation ไม่ใช่ว่า “ควรจะใช้ดีไหม?” เพราะผมมองว่า “ยังไงก็ต้องใช้”

การพึ่งพาความสามารถมนุษย์เป็นหลักในการบริหารจัดการระบบ IT นั้น ทำให้ระบบไม่สามารถขยายเพื่อตอบสนองการใช้งานที่เพิ่มมากขึ้นเรื่อยๆ ของฝั่ง Business ได้อย่างมีประสิทธิภาพและทันความต้องการ และยังทำให้องค์กรดำเนินงานอยู่บนความเสี่ยงอีกด้วย หากมี Human Error เพียงครั้งเดียว หรือ Key Person หายไปสักหนึ่งคน อาจจะหมายถึงการที่องค์กรไม่สามารถดำเนินงานทางธุรกิจต่อได้

ทีนี้พอคำตอบคือ “ยังไงก็ต้องใช้” คำถามสำคัญที่ตามมาคือ “แล้วจะเริ่มยังไงดีล่ะ? (How?)” ซึ่งผมจะขอเขียนถึงในบทความต่อๆไปนะครับ โดยจะแบ่งออกเป็นสองส่วน ได้แก่ Non-Technical กับ Technical

ไว้เจอกันคราวหน้าครับ ขอให้คุณผู้อ่านทุกท่านมีสุขภาพแข็งแรง ห่างไกลจาก COVID-19 นะครับ

--

--