Data Science …. เริ่มต้น ตรงไหนดี?

Vithan Minaphinant
investic

--

แรกเริ่มสุด ให้สำรวจตัวเองก่อนครับ คุณมีพื้นฐานแค่ไหน ผมแบ่งกลุ่มให้ง่ายๆ 3 กลุ่มที่ได้เปรียบ จะได้รู้ว่าต้องทำอะไร แต่ก่อนจะแบ่ง ถ้าคุณมีคุณสมบัติตามนี้ คุณจะศึกษาได้ในเวลาไม่เกิน 1 สัปดาห์

- เก่ง Excel ถึงขั้น วางโครงได้เอง ให้ทำอะไรก็ได้ (ไม่ใช่แค่ใช้สูตร กดปุ่มลัดได้นะจ๊ะ)

- เข้าใจใน Characteristic ของ Data และใช้ข้อมูลสถิติ เป็น ถ้าเคยใช้ tool วิเคราะห์สถิติจริงๆจะดีมาก ไม่ว่าจะ Anova ใน Excel หรือโปรแกรมสถิติอื่นๆ

- เขียนโปรแกรมได้ โดยเฉพาะ R และ Python (ถ้ามี 2 ข้อบน แล้วมีข้อนี้ด้วย คุณไปสมัครงานได้เลย)

กลุ่มนี้ บางคน จะใช้เวลาไม่เกิน 1 สัปดาห์เท่านั้น เพื่อเรียนรู้ SQL, R, PYTHON และ Machine Learning และเริ่มงาน

สำรวจตัวเองก่อนเริ่มต้น

Data Scientist เมืองนอก เค้าจบ Computer Science กัน

หลายท่านอาจคิดว่า ต้องจบ Computer Science แต่ในไทยนั้น ไม่ได้เน้นหลักสูตรนี้กันตอนยังวัยรุ่น

ผมแบ่งคนเป็น 3 กลุ่ม เป็นตัวอย่างสายงานเพื่อแยกให้ชัดว่า ใครควรไปศึกษาอะไรต่อ และจะเหมาะกับแบบไหนในสายงาน Data Science ในตอนแรกสุด

1. สาย นักคณิตศาสตร์ นักสถิติ นักวิเคราะห์การลงทุน สาย Quant และนักประเมินความเสี่ยง หรือสาย Risk — สายนี้ได้เปรียบมากครับ เหมือนแค่เปลี่ยนมาทำฝั่งธุรกิจแทน และเปลี่ยน Tool ที่ใช้เท่านั้นเองครับ และเป็นกลุ่มที่เข้าไปทำด้าน Machine Learning ได้เปรียบกว่า Programmer เสียอีก หากเขามีครบ 3 -ข้อด้านบน

2. Digital Marketer นักกลยุทธ์ และ Analyst ทั่วไป ในทุกสายงาน — ผมจับนักวิเคราะห์ทั่วไปมารวมในนี้ด้วย เพราะส่วนมากจะยังขาดทักษะในการเขียนโปรแกรม กลุ่มนี้เป็นคนที่เข้าใจธุรกิจ และรู้จักการใช้ข้อมูลให้เกิดประโยชน์ เป็นทักษะที่จำเป็นในการเป็น data scientist ที่ดีและเฉิดฉายได้ โดยเฉพาะสาย BI

3. วิศวกร และ Programmer — คุณเป็นคนมี Logic และทักษะการเขียน Program อยู่แล้ว สามารถเวลาไปโฟกัสกับการแปลข้อมูล การนำไปใช้และแสดงผล อีกทั้งเรื่องสถิติความน่าจะเป็นเบื้องต้นก็เรียนมาแล้ว เพียงแต่ศึกษาเพิ่มด้านนี้อีกหน่อย และเรื่องธุรกิจต่างๆ ก็จะทำได้ครับ

นอกเหนือจาก 3 กลุ่มนี้ ไม่ใช่ว่าทำไม่ได้ แค่ต้องฝึกเพิ่มเยอะหน่อยครับ

เริ่มแรกที่ SQL

ทุกคนควรเริ่มแรกที่ SQL ครับ (programming มาก่อน ทฤษฎี สถิติ เอาไว้หลัง)

SQL เป็นภาษา Database และเป็น Basic ที่สำคัญ ใช้เวลาน้อยมากในการศึกษา เข้าใจง่าย เพราะจะเน้นแค่การใช้ syntax Select เพื่อดึงข้อมูล (2–4 ชม. รู้เรื่องแล้ว) เป็นการปูพื้น ปู logic การคิดไปด้วยในตัวสำหรับคนที่ไม่เป็น และพวก BI Tools สำเร็จรูปต่างๆ ก็ยังต้องใช้ SQL เป็นพื้นฐานในการ edit หรือแก้ปัญหา (เดี๋ยวนี้ไม่ค่อย dev เองกันแล้ว)

ถัดมา (บทความนี้เขียนในปี 2017) … คุณต้องเลือกสาย เหมือนเล่น RPG แล้วเลือกอาชีพน่ะ แต่ก็ต้องดูด้วยครับว่าบริษัทเราทำอะไร ใช้อะไรอยู่ หรือถ้าจะหางาน ผมแนะนำเลยว่าพุ่งไป R Programming (สำหรับสายสถิติ หรือคนที่ไม่เคยเขียนโปรแกรม ตัว IDE (โปรแกรม) R Studio มันสุดยอดจริงๆครับ) และ Python (สำหรับคนที่พอเขียน VBA Java C ได้อาจจะชินกว่า (ผมรู้สึกอย่างนั้นตอนเริ่ม) หรือนำไปใช้ในอย่างอื่นด้วย เพราะ Python ตอนนี้ครอบจักรวาลจริงๆ) ไว้ค่อยมาต่อกันครับ เริ่มลึก

ในปัจจุบัน ผมคิดว่าควรไปทาง Python ครับ

เรียนที่ไหน ผมสรุปให้เลย ไปเรียนใน Coursera, DataCamp, Udemy — 3 ที่นี้

และคอร์สที่ยอดฮิตที่สุดตอนนี้คือ Machine Learning จาก Stanford สอนโดย Andrew Ng

https://www.coursera.org/learn/machine-learning

--

--