การวิเคราะห์ข้อมูล (วิทยาการคำนวณ ม.5)

Published in

iTPoj

4 min readMar 24, 2021

“หลังจากทำการรวบรวมข้อมูลและเตรียมข้อมูลมาแล้ว ขั้นตอนต่อไปคือการวิเคราะห์ข้อมูล ซึ่งจะช่วยให้เกิดความเข้าใจเชิงลึกเกี่ยวกับข้อมูล เช่น ความสัมพันธ์ รูปแบบ และแนวโน้ม ที่สามารถนำไปประกอบการตัดสินใจ ตอบคำถาม หรือตอบสมมติฐานที่ตั้งไว้ จึงกล่าวได้ว่า การวิเคราะห์ข้อมูล เป็นการเปลี่ยนข้อมูลให้มีคุณค่า โดยนำผลลัพธ์ที่ได้จากการวิเคราะห์มาใช้ประโยชน์”
หนังสือเรียนเทคโนโลยี (วิทยาการคำนวณ) ม.5

ปัจจุบัน มีข้อมูลเกิดขึ้นจำนวนมหาศาล ทั้งจากภายในและภายนอกองค์กร หน่วยงานต่างๆ ทั้งกระทรวง กรม มหาวิทยาลัย โรงเรียน โรงพยาบาล ธนาคาร บริษัทประกันภัย และร้านค้า ข้อมูลปริมาณมากเหล่านี้สามารถนำมาวิเคราะห์ให้เกิดประโยชน์สูงสุดได้ ดังนั้น ความรู้ความเข้าใจเกี่ยวกับการวิเคราะห์ข้อมูลจึงนับว่าเป็นสิ่งสำคัญเป็นอย่างมาก เพื่อให้ผลการวิเคราะห์มีความถูกต้อง แม่นยำ

ตัวอย่างเช่น การอาศัยข้อมูลจำนวนประชากรสัตว์ป่าแต่ละประเภทในพื้นที่ป่าแห่งหนึ่ง เพื่อดูความสัมพันธ์ของประชากรสัตว์แต่ละชนิด ว่ามีความเกี่ยวข้องกันในลักษณะใด และมีแนวโน้มการเพิ่ม-ลดของประชากรในแต่ละปีเป็นอย่างไร

สรุปแล้ว การวิเคราะห์ข้อมูล นอกจากจะทำให้เห็นภาพรวมของข้อมูล ยังช่วยให้คาดการณ์ผลในอนาคต และแนะนำทางเลือกที่เหมาะสมที่สุดสำหรับการตัดสินใจของบุคคลหรือองค์กร โดยการวิเคราะห์เชิงพรรณนา (Descriptive Analysis) เป็นการวิเคราะห์ขั้นพื้นฐาน การวิเคราะห์เชิงทำนาย (Predictive Analysis) เป็นการวิเคราะห์เพื่อทำนายสิ่งที่อาจเกิดขึ้นในอนาคต ส่วนการวิเคราะห์เชิงแนะนำ (Prescriptive Analysis) เป็นการวิเคราะห์ที่ต่อยอดมาจากการวิเคราะห์เชิงพรรณนาและเชิงทำนาย โดยใช้ทักษะของการแก้ปัญหาและวางแผน (ในที่นี้ขอกล่าวถึงเฉพาะการวิเคราะห์เชิงพรรณนาและการวิเคราะห์เชิงทำนาย)

การวิเคราะห์เชิงพรรณนา (Descriptive Analysis)

เป็นรูปแบบพื้นฐานของการวิเคราะห์ข้อมูล เพื่ออธิบายลักษณะของข้อมูลที่เก็บรวบรวม โดยใช้การคำนวณทางคณิตศาสตร์และสถิติพื้นฐาน เช่น การหาสัดส่วนหรือร้อยละ การวัดค่ากลางของข้อมูล การวัดการกระจายของข้อมูล และการหาความสัมพันธ์ของชุดข้อมูล ซึ่งนำมาใช้งานเพื่อดูภาพรวมของข้อมูลที่สนใจ

การหาสัดส่วนหรือร้อยละ

เป็นการจัดการข้อมูลที่ซ้ำกันให้เป็นระเบียบและเป็นหมวดหมู่ ทำให้สะดวกในการนำข้อมูลไปใช้และง่ายต่อการสังเกตการเปลี่ยนแปลงต่างๆ นำไปแสดงในรูปของเศษส่วน ทศนิยม หรือร้อยละ และนำเสนอข้อมูลในรูปแบบของแผนภูมิหรือแผนภาพ เพื่ออธิบายความหมายของข้อมูลชุดนั้น เช่น จำนวนนักเรียนชาย-หญิง ในห้องเรียน แสดงผลเป็นร้อยละต่อจำนวนนักเรียนทั้งห้อง

การวัดค่ากลางของข้อมูล

ใช้เพื่อหาค่าที่เป็นตัวแทนของข้อมูลทั้งหมด ทำให้สะดวกในการจดจำ หรือสรุปเรื่องราวเกี่ยวกับข้อมูลชุดนั้น ค่ากลางของข้อมูลที่นิยมใช้ได้แก่ ค่าเฉลี่ย (Mean) มัธยฐาน (Median) และฐานนิยม (Mode)

ค่าเฉลี่ยอาจเป็นค่ากลางที่ดี แต่อาจไม่เหมาะสำหรับเป็นค่ากลางของชุดข้อมูลที่มีค่าแตกต่างกันมากๆ (มีค่าสูงมากๆ หรือต่ำมากๆ) ดังนั้นการพิจารณาค่าเฉลี่ยจึงควรพิจารณาการกระจายขอข้อมูลด้วย ซึ่งสามารถดูได้จากค่าส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)

การหาความสัมพันธ์ของชุดข้อมูล

การวิเคราะห์ความสัมพันธ์เชิงเส้นระหว่างข้อมูล 2 ชุด (pairwise) บ่งบอกถึงทิศทาง (direction) ของความสัมพันธ์ และระดับ (degree) ของความสัมพันธ์

ข้อมูลจำนวนวัวป่าและจำนวนม้าลายในป่าแอฟริกา (พันตัว)

ตารางการวิเคราะห์ข้อมูลจำนวนวัวป่าและม้าลาย

ทิศทางของความสัมพันธ์ มี 2 กรณี

ความสัมพันธ์เชิงบวก — สิ่งที่สนใจทั้งสองสิ่งมีการเพิ่มขึ้นหรือลดลงไปในทิศทางเดียวกัน เช่น ค่าของ X เพิ่มขึ้น ค่าของ Y จะเพิ่มขึ้นด้วย
ความสัมพันธ์เชิงลบ — สิ่งที่สนใจทั้งสองสิ่งมีการเพิ่มขึ้นหรือลดลงไปในทิศทางตรงกันข้าม เช่น ค่าของ X เพิ่มขึ้น แต่ค่าของ Y กลับลดลง

ระดับของความสัมพันธ์ แบ่งเป็นระดับมาก (strong) ปานกลาง (moderate) หรือน้อย (weak)

การวิเคราะห์ความสัมพันธ์เบื้องต้นสามารถทำได้โดยการนำค่าของข้อมูลทั้ง 2 ชุดมาสร้างแผนภาพการกระจาย ทำให้เห็นทิศทางของความสัมพันธ์ได้ชัดเจน และสามารถประมาณระดับของความสัมพันธ์ได้

แผนภาพการกระจายแสดงความสัมพันธ์ของข้อมูล
(จากหนังสือเรียนเทคโนโลยี วิทยาการคำนวณ ม.5)

การดูแผนภาพการกระจาย สามารถดูลักษณะความสัมพันธ์ของจุดต่างๆ หรือกลุ่มของจุด ว่าสัมพันธ์กันมาก ปานกลาง หรือน้อย โดยจะพิจารณาความสัมพันธ์ของข้อมูลในรูปแบบของเส้นตรง

แผนภาพการกระจายระหว่างจำนวนวัวป่าและม้าลาย

จากแผนภาพการกระจาย จะเห็นแนวโน้มการกระจายของวัวป่าและม้าลายมีความสัมพันธ์เชิงบวก นั่นคืนเมื่อจำนวนวัวป่าเพิ่มขึ้น จำนวนม้าลายก็จะเพิ่มขึ้นเช่นกัน และมีระดับของความสัมพันธ์เชิงเส้นค่อนข้างสูง เนื่องจากจุดมีการเกาะกลุ่มในลักษณะเป็นแนวเส้นตรง

ข้อควรระวังในการอภิปรายผลของการวิเคราะห์ความสัมพันธ์ คือ ค่าความสัมพันธ์บอกได้เพียงว่า ข้อมูลทั้งสองชุดมีความสัมพันธ์กันหรือไม่ มีทิศทางสัมพันธ์เป็นแบบใด และมีระดับความสัมพันธ์มากหรือน้อยเพียงใด แต่ไม่สามารถสรุปว่าข้อมูลชุดหนึ่งส่งผลต่อการเปลี่ยนแปลงค่าของข้อมูลอีกชุดหนึ่ง

ตัวอย่างเช่น หากเกิดภัยแล้งแล้วทำให้จำนวนวัวป่าและม้าลายลดลงพร้อมกัน จึงสรุปไม่ได้ว่าการลดลงของจำนวนวัวป่าส่งผลต่อการลดลงของจำนวนม้าลาย เนื่องจากอาจมีปัจจัยอื่นเข้ามาเกี่ยวข้อง

การวิเคราะห์เชิงทำนาย (Predictive Analysis)

เป็นการวิเคราะห์ข้อมูลในอดีต เพื่อหารูปแบบความสัมพันธ์ในชุดข้อมูลที่สามารถนำมาเป็นต้นแบบในการทำนาย การคาดการณ์ผล หรือสิ่งที่น่าจะเกิดขึ้นในอนาคต ซึ่งช่วยให้บุคคลหรือองค์กร สามารถตัดสินใจได้อย่างมีประสิทธิภาพ

การคาดการณ์โอกาสที่ฝนจะตก อาศัยประสบการณ์และการสังเกตลักษณะท้องฟ้า ความแรงของลมที่พัด ทำให้ตัดสินใจว่าควรพกร่มหรือชุดกันฝนติดตัวไปด้วยหรือไม่ หากฝนตกแล้วได้พกร่มหรือชุดกันฝนไปด้วย ช่วยทำให้เปียกฝนน้อยลง แสดงว่าการตัดสนใจนั้นมีประสิทธิภาพ

การทำนายเชิงตัวเลข (Numeric Prediction)

ใช้ข้อมูลในอดีตมาวิเคราะห์หาแนวโน้มเพื่อทำนายอนาคต ซึ่งผลลัพธ์ของการทำนายจะอยู่ในรูปตัวเลข เช่น

หากต้องไปต่างประเทศ ควรตรวจสอบอุณหภูมิของประเทศที่จะไปในช่วงเวลานั้นๆ เพื่อวางแผนการจัดเตรียมเสื้อผ้าได้อย่างถูกต้อง
เกษตรกร ชวนสวน ต้องคาดการณ์ปริมาณน้ำฝนล่วงหน้าจากข้อมูลปริมาณน้ำฝนในอดีต เพื่อนำมาวางแผนการเพาะปลูก
สถาบันการศึกษาต้องคาดการณ์จำนวนนักเรียนที่จะเข้าศึกษาต่อ เพื่อวางแผนการดำเนินงานไปปีการศึกษาถัดไป

การทำนายข้างต้น ทำได้โดยการนำข้อมูลในอดีต (สภาพอากาศ ปริมาณน้ำฝนในพื้นที่ หรือจำนวนนักเรียนที่เข้าศึกษาต่อในปีการศึกษาก่อนหน้า) มาวิเคราะห์หาความสัมพันธ์ระหว่างชุดข้อมูลและสร้างแบบจำลองในการทำนายที่ให้ผลลัพธ์เป็นตัวเลข ซึ่งโดยทั่วไปมีวิธีการทำนาย 2 วิธี คือ การทำนายโดยใช้กราฟ และการทำนายโดยใช้สมการเชิงเส้น

เมื่อข้อมูล 2 ชุด มีความสัมพันธ์เชิงเส้นต่อกัน สามารถทำนายชุดข้อมูลที่สนใจ (y) เมื่อทราบค่าชุดข้อมูลอีกชุดหนึ่ง (x) ที่สัมพันธ์กัน เช่น จากตัวอย่างจำนวนวัวป่า (x) กับจำนวนม้าลาย (y) หากต้องการประมาณค่าจำนวนม้าลายจากข้อมูลจำนวนวัวป่า ต้องทำการลากเส้นตรงผ่านจุดด่างๆ ในแผนภาพการกระจายให้มากที่สุด เรียกเส้นตรงดังกล่าวว่า “เส้นแนวโน้ม” และใช้เส้นแนวโน้มนี้ในการประมาณค่าจำนวนม้าลาย

เส้นแนวโน้ม (เส้นสีแดง) ลากผ่านจุดต่างๆ ในแผนภาพการกระจาย ของความสัมพันธ์จำนวนวัวป่ากับจำนวนม้าลาย

การทำนายค่าจากเส้นแนวโน้ม มีขั้นตอนดังนี้

สร้างแผนภาพการกระจาย — ทำให้ทราบรูปแบบความสัมพันธ์ของข้อมูลคร่าวๆ

2. ลากเส้นแนวโน้ม — ลากเส้นตรงผ่านจุดต่างๆ ที่อยู่บนแผนภาพการกระจายให้ได้จำนวนมากที่สุด (line of best fit) โดยจำนวนจุดที่อยู่เหนือเส้นและใต้เส้น ควรมีปริมาณใกล้เคียงกัน

3. ทำนายค่าจากเส้นแนวโน้ม

ประมาณค่าจากเส้นแนวโน้ม — ในที่นี้ให้ y เป็นค่าที่ต้องการทำนาย และ x เป็นข้อมูลที่ทราบค่า โดยให้กำหนดจุดที่ทราบค่าบนแกน x แล้วลากเส้นจากจุดนั้นขนานกับแกน y ไปตัดกับเส้นแนวโน้ม แล้วลากเส้นจากจุดตัดบนเส้นแนวโน้ม ขนานกับแกน x ไปตัดที่แกน y จะได้ค่า y ซึ่งเป็นค่าที่ต้องการทำนาย

การประมาณค่าจากเส้นแนวโน้ม (หากมีจำนวนวัวป่า 90 พันตัว จะมีจำนวนม้าลาย 112 พันตัว)

ทำนายค่าโดยใช้สมการเชิงเส้น — เมื่อได้เส้นแนวโน้ม เราจะอาสมการเชิงเส้นของเส้นแนวโน้ม ในรูป y = mx + c
ก่อนที่จะนำสมการเส้นแนวโน้มไปใช้ในการทำนาย ต้องตรวจสอบความคลาดเคลื่อนของสมการเส้นแนวโน้มนี้ ซึ่งใช้วิธีการหาผลรวมของผลต่างยกกำลังสองของค่าจริงและค่าทำนาย (sum of squared errors)
หากค่าที่คำนวณได้ยิ่งน้อยเท่าไร แสดงว่ามีความคาดเคลื่อนน้อย เส้นแนวโน้มจะยิ่งทำนายได้ใกล้เคียงค่าจริงมาก

การทำนายค่าโดยใช้สมการเชิงเส้น (หากมีจำนวนวัวป่า 90 พันตัว จะมีจำนวนม้าลาย 114.023 พันตัว)

การทำนายเชิงหมวดหมู่ (Classification)

ใช้ข้อมูลที่มีความสัมพันธ์กัน มาทำนายข้อมูลที่ไม่ใช่ข้อมูลตัวเลข เพื่อจำแนกว่าผลลัพธ์จะอยู่ในกลุ่มหรือหมวดหมู่ใด เช่น การทำนายว่าฝนจะตกหรือไม่ (ตก, ไม่ตก) อาหารจานโปรด (ต้มยำกุ้ง, ผัดไทย, กะเพราหมู) แนวเพลงที่ชอบ (แจ๊ส, ป๊อป, ร็อก, ลูกทุ่ง) ประเภทเครื่องดื่ม (น้ำอัดลม, น้ำผลไม้, เครื่องดื่มเกลือแร่) เป็นต้น

แนวคิดหลักในการทำนาย คือ ใช้ข้อมูลในอดีตที่มีการระบุหมวดหมู่มาแล้ว มาทำนายข้อมูลชุดใหม่ที่ยังไม่ทราบหมวดหมู่ โดยจะขอกล่าวถึงการจัดหมวดหมู่ด้วยวิธีการค้นหาเพื่อนบ้านใกล้เคียงที่สุด K ตัว (K-Nearest Neighbors: K-NN)

**[Machine Learning#2] รู้จักการจำแนกประเภทข้อมูลด้วย k-Nearest Neighbors**

ในการประเมินความถูกต้องในการจำแนกข้อมูล ต้องนำผลลัพธ์จากการจำแนกหมวดหมู่ ไปทดสอบกับชุดข้อมูลที่ทราบคำตอบอยู่แล้ว ซึ่งมักเป็นข้อมูลชุดเดียวกันกับข้อมูลตั้งต้น แต่ถูกแยกไว้เฉพาะเพื่อการประมาณ

ตัวอย่างเช่น หากใช้ข้อมูลในอดีตของการเกิดไฟป่า มาทำนายการเกิดไฟป่าในอนาคต โดยอาศัยค่าอุณหภูมิเฉลี่ยและความชื้นสัมพันธ์ในวันนั้นๆ จำนวนข้อมูลการเกิดไฟป่าในอดีตมี 20 ตัวอย่าง อาจแบ่งข้อมูลสำหรับสร้างรูปแบบการทำนาย 13 ชุด และใช้ข้อมูลอีก 7 ชุด ในการทดสอบความถูกต้อง ของผลลัพธ์การทำนายว่าเกิดไฟป่าหรือไม่

การแบ่งชุดข้อมูลสำหรับการสร้างรูปแบบการทำนายและสำหรับทดสอบ ในการตรวจสอบความถูกต้องในการทำนายเชิงหมวดหมู่

อ้างอิง: สถาบันส่งเสริมการสอนวิทยาศาสตร์และเทคโนโลยี กระทรวงศึกษาธิการ, หนังสือเรียนรายวิชาพื้นฐานวิทยาศาสตร์และเทคโนโลยี เทคโนโลยี (วิทยาการคำนวณ) ชั้นมัธยมศึกษาปีที่ 5