ความเจ็บปวดของคนทำ Data ที่คนภายนอกอาจไม่ค่อยรู้

Puttasak Tantisuttivet
2Bearstalk
Published in
2 min readMay 21, 2017
Source: pixabay.com

บล็อกแรกก็เปิดด้วยเรื่องขมขื่นเลย ฮ่าๆ

แต่นั่นแหละผมว่ามันเป็นเรื่องดีที่จะบอกให้คนที่อยากเข้ามาทำงานในสายนี้เตรียมใจไว้บ้าง

ซึ่งความเจ็บปวดเรื่องหลักๆ ผมว่าเป็นเรื่องของการประเมินเวลาและสิ่งที่ต้อง Deliver

คือต้องเข้าใจว่าตลาดและลูกค้าบ้านเราต้องการการส่งชิ้นงานหลักๆ คือไฟล์ Presentation ด้วยเหตุผลที่ว่าหนึ่งนั้นคุ้นเคยดีอยู่แล้ว และสองคือนำไปใช้งานต่อได้ง่าย จึงไม่แปลกใจที่คนส่วนใหญ่จะเรียกคนทำ Data ว่า “คนทำรีพอร์ท” (เพราะสิ่งสุดท้ายที่ทีมต้อง Deliver ลูกค้าก็คือตัวรีพอร์ทนั่นเอง)

แล้วปัญหาอยู่ตรงไหน?

ปัญหาก็คือว่าในกระบวนการการทำ Data ทั้งหมดนั้น การทำรีพอร์ทอยู่ในพาร์ทสุดท้ายของกระบวนการทั้งหมดและอาจจะเป็นแค่ 20 เปอร์เซ็นต์ของเวลาทั้งหมดด้วยซ้ำครับ เพราะขั้นตอนหลักๆ ในการทำ Data จะประกอบไปด้วย

  1. Data Collecting
  2. Data Cleansing & Preparation
  3. Data Explorations & Analyze
  4. Visualization & Presenting (Reporting)

คร่าวๆ ประมาณนี้ แต่จริงๆ ก็อาจจะมีขั้นตอนของการทำ Modeling , Evaluate อะไรอีกหละ แต่ผมขอเอา Process ของงานที่ไม่ได้ใช้ Model อะไรใหม่ก่อนแล้วกันครับ

และเวลาเกือบทั้งหมดในการทำงาน เรียกว่า 60-70% ของการทำงานทั้งหมดเลยก็ว่าได้ มันจะไปตกอยู่ที่ขั้นตอนที่ 2 และ 3 ครับ นั่นคือการทำ Data Cleansing & Preparation และในกรณีที่เป็นข้อมูลชุดใหม่ที่ไม่คุ้นเคยการทำ Data Exploration ก็ใช้เวลามากเช่นกัน เลยทำให้คนที่ไม่เข้าใจกระบวนการทั้งหมดประเมินเวลาการทำงานผิดพลาดไปบ้าง หลายคนอาจจะคิดว่า Report แค่ 4–5 หน้า แต่ตอนทำจริงๆ เราอาจต้องใช้เวลาเป็นอาทิตย์เพื่อให้ได้มาซึ่งข้อมูลแค่ 4–5 หน้านั้น อย่างล่าสุดคือใช้เวลาเป็นวันเพื่อให้สามารถเอามาเขียนอธิบายข้อมูลแค่หนึ่งประโยค

ทำไมถึงใช้เวลาเยอะ?

  • เราทำข้อมูลบน Social Media เพราะฉะนั้นข้อมูลที่เข้ามานั้นส่วนใหญ่แล้วเป็น ข้อมูลที่ไม่เกี่ยวข้องมากกว่าข้อมูลที่ใช้งานได้ ที่สำคัญคือมันเข้ามาในปริมาณมหาศาลมากๆ ทำให้ต้องใช้เวลาในการจัดการ cleansing ให้เหลือเฉพาะข้อมูลที่เป็นประโยชน์นาน
  • ข้อมูลที่ได้มาก็ไม่ได้มาแบบสำเร็จรูป ต้องนำมาจัดหมวดหมู่ แยกประเภท ซึ่งถ้าเป็นข้อมูลชุดใหม่ โดยมากแล้วเราก็ไม่รู้จะแยกประเภทมันยังไง ต้องลอง Explore ข้อมูล และลองผิด ลองถูกเหมือนกัน แน่นอน มันคือ Data ปริมาณมหาศาลครับ
  • บางครั้งทำงานไปแล้ว 2–3 วัน เพียงเพื่อที่จะพบว่าข้อมูลที่เราทำไว้ใช้งานไม่ได้ก็มี ต้องเริ่มกันใหม่หมด(ใช่ครับ เริ่มใหม่ทั้งหมด) เพราะอย่าลืมว่าการเก็บข้อมูลชุดใหม่ๆ จาก Big Data นั้น เราต้องเริ่มจากการมี Assumption อะไรบางอย่างก่อน แล้วจึงเก็บข้อมูลมาใช้งาน ซึ่งแน่นอนมันก็มีความเป็นไปได้ที่ Assumption เราจะผิด และข้อมูลที่เราเก็บมานำไปใช้ประโยชน์ไม่ได้ ต้องมาสร้าง Assumption และเก็บข้อมูลกันใหม่
  • เมื่อวันก่อนน้องในทีมทำข้อมูลชุด Trend ของ Social Media ตลอดทั้งปี ปรากฎว่ามีกราฟที่ Peak ขึ้นไปสูงมากจนน่าตกใจ ซึ่งทีมใช้เวลาอยู่เป็นวัน (เพราะต้องเช็คข้อมูลหลักสิบล้าน) เพื่อจะเอามาเขียนหนึ่งประโยคว่ามันเกิดจากอะไร
  • และที่สาหัสที่สุดบางครั้งด้วยเวลาที่จำกัด ทำให้จำเป็นต้องทำ Presentation ไปทีละส่วนๆ คู่ไปกับการทำข้อมูล ผลปรากฎว่ามาเจอเอาตอนท้ายๆ ว่า Data มีปัญหา ต้องกลับไปทำ Cleansing กันใหม่ แบบนี้ก็มีบ่อย
  • …..ยังมีอีกหลายสาเหตุที่ทำให้การทำ Data นั้น ค่อนข้างใช้เวลา แต่คร่าวๆ ประมาณนี้ครับ

ทั้งหมดทั้งมวลที่เขียนมานี้ เพียงแค่ต้องการให้คนที่อยากใช้งาน Data ได้เข้าใจถึงที่มาที่ไป ว่ากว่าจะออกมาเป็น Report ชุดนึง มันต้องทำอะไร ต้องเสียเวลาไปกับอะไรบ้าง เคยมีคนมาคอมเมนท์ในบล็อกที่ผมเขียนอีกที่หนึ่งไว้ว่างานบางงาน “ทำ 5 วัน ใช้งาน 5 วิ” (ฮา) ซึ่งคนที่อยากจะเข้ามาทำงานตรงนี้ก็ต้องเผื่อใจที่จะต้องเจออะไรแบบนี้ไว้บ้างครับ

--

--