Data Science

ทะยานสู่ Data Scientist มือโปร กับ 9 Python Libraries

Published in

Achieve Space

1 min readAug 20, 2020

หากผู้อ่านได้ติดตามคอนเทนต์ของเราอยู่เรื่อยๆ จะเข้าใจว่าทำไมภาษาโปรแกรมมิง Python ถึงเป็นที่นิยมที่สุดในงานด้านการวิเคราะห์ข้อมูล สถิติจาก Github ณ เดือนสิงหาคม 2563 ภาษาโปรแกรมมิง Python ยังคงครองแชมป์เป็นภาษาโปรแกรมมิงที่นิยมที่สุด และเติบโตจากปีที่แล้วกว่า 31% เรามาดูกันดีกว่าว่า 9 ไลบรารีนี้จะทำให้เส้นทางการเป็น Data Scientist มือโปรของคุณง่ายขึ้นได้ยังไงบ้าง

🐍Matplotlib

เป็นโมดูลหนึ่งของ Python เหมาะสำหรับการ Visualize Data หรือก็คือการพล็อตข้อมูลออกมาเป็นรูป กราฟ ชาร์ตต่างๆ และเมื่อใช้ร่วมกับ Jupytor Notebook ซึ่งผู้ใช้งานสามารถโต้ตอบกับกราฟได้

🐍Pandas

Pandas ย่อมาจาก “Panel Data” เป็นแพ็คเกจไลบรารีที่สร้างต่อยอดมาจาก Numpy เหมาะกับการทำงานด้วยชุดข้อมูลใหญ่ ซึ่งอาจมีข้อมูลที่ถูก label ผิดปะปนเข้ามามาก จะช่วยลดความเสี่ยงที่เกิดจากการเรียงข้อมูลผิดได้ แถมยังถูกดีไซน์ให้เหมาะกับการจัดการ รวบรวม และจำลองภาพข้อมูลอีกด้วย

🐍NumPy

Numpy ย่อมาจาก “Numerical Python” ใช้ทำงานกับข้อมูลอย่าง อาร์เรย์ หรือถ้าเข้าใจง่ายที่สุดก็คือ ตัวแปรที่จัดเก็บข้อมูลประเภทเดียวกัน โดยสามารถเรียกข้อมูลโดยเจาะจงไปที่ชื่อตัวแปร สามารถวิเคราะห์ข้ามอาร์เรย์ได้หลายมิติ และเวลาที่พูดถึงอาร์เรย์ ก็จะหมายถึง N-dimensional Array (ndarray) นั่นเอง

🐍SciPy

SciPy สร้างต่อยอดมาจาก Numpy โดยใช้อาร์เรย์เป็นโครงสร้างข้อมูล แต่ก็ใช้ร่วมกับ Pandas ไลบรารี และ Matplotlib ได้ดี SciPy เป็นโมดูลที่มาพร้อมฟังก์ชันทางคณิตศาสตร์เพิ่มเติมที่นักวิจัยนิยมใช้ เช่น พีชคณิตเชิงเส้น(Linear Algebra) การแก้สมการเชิงอนุพันธ์ธรรมดา(Ordinary Differential Equation) เป็นต้น

🐍PyTorch

PyTorch เป็นไลบรารีที่ถูกพัฒนามาเพื่อใช้กับคอมพิวเตอร์วิทัศน์(computer vision) และ การประมวลผลภาษาธรรมชาติ(natural language processing) โดยเริ่มแรกมาจาก Facebook ซึ่งได้เปิดให้เป็น Open source แล้วในปีค.ศ. 2016 สามารถนำไลบรารีนี้มาประยุกต์เพื่อใช้เข้าใจรูปภาพหรือภาษาธรรมชาติด้วยภาษาโปรแกรมมิง Python ได้

🐍Scikit-Learn

Scikit-Learn เป็นแพ็คเกจที่รวบรวม library ด้าน Machine Learning เอาไว้ และถูกออกแบบมาให้ทำงานร่วมกับ library ของภาษาโปรแกรมมิง Python อย่าง Numpy และ Scipy ได้ดี สามารถสร้างอัลกอริทึมเพื่อให้เรียนรู้ข้อมูล และศึกษาข้อมูลเพิ่มเติมต่อได้

🐍PySpark

ก่อนอื่นต้องขอแนะนำให้รู้จักกับ Apache Spark ก่อนซึ่ง Apache Spark เป็นเฟรมเวิร์กการประมวลผลข้อมูลที่สามารถประมวลผลชุดข้อมูลขนาดมหาศาลได้อย่างรวดเร็ว และยังสามารถกระจายงานการประมวลผลข้อมูลไปยังคอมพิวเตอร์เครื่องอื่นได้ และ PySpark ก็คือ API เชื่อมโมเดลโปรแกรมมิงของ Apache Spark เข้ากับ Python เพื่อใช้งานฟังก์ชันของ Apache Spark ได้

🐍TensorFlow

TensorFlow เป็นไลบรารี Open source เหมาะสำหรับการคำนวณเชิงตัวเลขที่รวดเร็ว ใช้สำหรับการสร้างโมเดล Deep Learning (การเรียนรู้เชิงลึก) ถูกพัฒนาขึ้นมาโดยทีม Google Brain เพื่อใช้ภายในบริษัท และได้ปล่อยให้เราสามารถเข้าไปร่วมพัฒนาได้ในปีค.ศ. 2015

🐍Seaborn

Seaborn เป็นไลบรารีสำหรับสร้างกราฟิกทางสถิติในภาษา Python ถูกสร้างขึ้นบน Matplotlib และรวมเข้ากับโครงสร้างข้อมูลของ Pandas เป็นเครื่องมือที่แตกต่างจาก Matplotlib ตรงที่มีความเชี่ยวชาญในการแสดงภาพสถิติ ใช้ไวยากรณ์น้อยกว่า และมีธีมเริ่มต้นที่เข้าใจง่าย