Data Science เขาใช้ โปรแกรมอะไรกัน?

Vithan Minaphinant
investic
Published in
1 min readMay 31, 2017

*Update ตอนนี้ Python นำห่างแล้วนะครับ*

พูดถึงสายงานนี้ พอต้องเล่น data หลายท่านมักเลือกไม่ถูกว่าจะ R หรือ Python ดี หรืออย่างผมเองแต่ก่อนก็พูดว่า excel + vba นี่แหละพระเจ้า ยกเว้นต้องการคำนวณบน server หรือนำไปใช้ต่อหลายๆรูปแบบ (เพราะเดิมสมัยก่อนใช้ทำ Quantitative analysis, Risk Model ต่างๆ และถึงขั้นสร้าง Portfolio มาตลอดก่อนจะรู้จักโลกของ Data Science) แต่

ผลสำรวจจาก kdnuggets ปี 2016 พบว่า !!!!

อันดับ 1 เป็นการใช้ Sparkคู่กับ Hadoop

ในขณะที่อันดับ 2 ใช้ Spark คู่กับ Scikit-Learn พอๆ กับ Python-Scikit-Learn

อ้าว มีอะไรโผล่มาอีกเต็มเลย โดยเฉพาะ Spark มาจากไหนยังไง

สำหรับสาย Big Data การใช้ Hadoop คงคุ้นเคยกันอยู่แล้ว และบางท่านใช้ Spark บน Hadoop (เนื่องจาก Spark ไม่มี file system ของตัวเอง จึงต้องพึ่ง third-party ซึ่งมักจะใช้ Hadoop กันนั่นเอง)

ส่วนสาย Machine Learning, Data Analytic ทั้งหลายนั้น เดิมที่ R นั้นครองตลาด แต่ล่าสุด Python ได้พัฒนา packages ไล่มาเยอะมาก จนคนเริ่มหันมา Python กันเยอะขึ้น

แต่ที่ surprise คือ ไม่คิดว่าคนจะย้ายไป Spark กันเร็วขนาดนี้ครับ เนื่องจาก Spark เอาไปครอบอะไรก็เร็ว ตอนนี้ใช้ python Scikit-Learn สงสัยจะต้องไปลอง Spark ดูบ้างเหมือนกันครับ

สามารถดูรายละเอียด Spark ต่อได้ที่ http://emptypipes.org/2015/01/17/python-vs-scala-vs-spark/

--

--