Data Science เขาใช้ โปรแกรมอะไรกัน?
*Update ตอนนี้ Python นำห่างแล้วนะครับ*
พูดถึงสายงานนี้ พอต้องเล่น data หลายท่านมักเลือกไม่ถูกว่าจะ R หรือ Python ดี หรืออย่างผมเองแต่ก่อนก็พูดว่า excel + vba นี่แหละพระเจ้า ยกเว้นต้องการคำนวณบน server หรือนำไปใช้ต่อหลายๆรูปแบบ (เพราะเดิมสมัยก่อนใช้ทำ Quantitative analysis, Risk Model ต่างๆ และถึงขั้นสร้าง Portfolio มาตลอดก่อนจะรู้จักโลกของ Data Science) แต่
ผลสำรวจจาก kdnuggets ปี 2016 พบว่า !!!!
อันดับ 1 เป็นการใช้ Sparkคู่กับ Hadoop
ในขณะที่อันดับ 2 ใช้ Spark คู่กับ Scikit-Learn พอๆ กับ Python-Scikit-Learn
อ้าว มีอะไรโผล่มาอีกเต็มเลย โดยเฉพาะ Spark มาจากไหนยังไง
สำหรับสาย Big Data การใช้ Hadoop คงคุ้นเคยกันอยู่แล้ว และบางท่านใช้ Spark บน Hadoop (เนื่องจาก Spark ไม่มี file system ของตัวเอง จึงต้องพึ่ง third-party ซึ่งมักจะใช้ Hadoop กันนั่นเอง)
ส่วนสาย Machine Learning, Data Analytic ทั้งหลายนั้น เดิมที่ R นั้นครองตลาด แต่ล่าสุด Python ได้พัฒนา packages ไล่มาเยอะมาก จนคนเริ่มหันมา Python กันเยอะขึ้น
แต่ที่ surprise คือ ไม่คิดว่าคนจะย้ายไป Spark กันเร็วขนาดนี้ครับ เนื่องจาก Spark เอาไปครอบอะไรก็เร็ว ตอนนี้ใช้ python Scikit-Learn สงสัยจะต้องไปลอง Spark ดูบ้างเหมือนกันครับ
สามารถดูรายละเอียด Spark ต่อได้ที่ http://emptypipes.org/2015/01/17/python-vs-scala-vs-spark/