Week 1: Data Analytics วิเคราะห์ยอดขายตลาดเกมส์
DSEsGr.10 Week1
Team member:
1. ake
2. Bank
3. Jui
4. oOhHhH
5. เต้ย พอๆๆ
6. ปาร์ตี้ จ้า
7. Sutthipas Y.
8. VIVI -ビビ
9. Aui Jampen
10. DingDoNG
11. iceberg
12. Nui
13. Mr. Vasan
14. Panuwat
15. ming
16. Peach
17. sumana
18. Thon
19. Emkrit
20. SmileyYui
21. Guide (Private)
22. Gopher_Sum’O~*
23. Yui Kitima
Objective: บทความนี้เป็นส่วนหนึ่งของ Data Science Essential ของ Botnoi Classroom หัวข้อ Data Analytic
พวกเราทีมนักเรียน Botnoi Data Science Essential Group 10 เลือกหัวข้อสำหรับเป็นแบบฝึกหัดในการทำ Data Analytic สัปดาห์ที่ 1 ของคอร์สเรียน โดยยกเอาชุดข้อมูล (dataset) ของการขายวิดีโอเกมมาวิเคราะห์ตามขั้นตอนที่เราได้เรียนจากในห้องเรียน ซึ่งจะแยกไว้ทั้งหมด 6 ข้อ แต่ในทีมคุยกันและเห็นว่าขั้นตอนที่ถูกแยกออกมาสามารถยุบรวมไปในข้อ 3 ได้เพราะเนื่องจากเป็นเหตุการณ์ที่มันจะเกิดต่อเนื่องกัน และจะทำให้หัวข้อของกระบวนการในการทำ Data Analytic กระชับขึ้น โดยเขียนใหม่กระบวนการเป็นดังนี้
กระบวนการทำ Data Analytic
- จุดประสงค์ของการทำ Data Analytic คืออะไร
- การเก็บข้อมูล/รวบรวมข้อมูลดิบ
- การตั้งคำถาม ตั้งสมมติฐาน หาคำตอบ 9 สมมติฐาน
3.1 การสร้างฐานข้อมูลเพื่อการวิเคราะห์ (Data Mart)
- การเลือกข้อมูล
- การจัดรูปแบบข้อมูล
- การ Clean ข้อมูล
3.2. การหาคำตอบจากข้อมูล ซึ่งอาจจะได้จากขั้นตอนที่ 3 หรือหา insight เพิ่มเติม
3.3. ระหว่างการหาคำตอบ จะมีคำถามใหม่เกิดขึ้นมา จนอาจจะนำมาสู่กระบวนการย้อนกลับไปสู่ขั้นตอน 2 หรือ 3.1
4. การสรุปผล
— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —
เริ่มต้นจากแต่ละขั้นตอนโดยเราต้องตั้งโจทย์ของการวิเคราะห์ก่อน
1. จุดประสงค์ของการทำ Data Analytic ในชุดข้อมูลนี้คืออะไร
ในงานนี้คือเพื่อวิเคราะห์ตลาดเกม ในมุมของค่ายเกม Publisher เพื่อนำองค์ความรู้ที่พบไปพัฒนาปรับปรุงให้ยอดขายดีขึ้น พัฒนาสินค้าได้ตอบโจทย์ลูกค้ามากขึ้น
2. การเก็บข้อมูล/รวบรวมข้อมูลดิบ
หาชุดข้อมูลจากเว็บไซต์ Kaggle https://www.kaggle.com/gregorut/videogamesales โดย ผู้จัดทำชุดข้อมูลนี้ได้ทำการ Scrapping data มาจากเว็บไซต์ http://www.vgchartz.com/ ซึ่งเป็นเว็บที่มีจุดประสงค์เพื่อรวบรวมฐานข้อมูลเกมของทั้งค่ายเกมโดยมีข้อมูลโดยประมาณของ hardware ที่ออกทุกสัปดาห์ และรวมถึงฐานข้อมูลรายชื่อเกมมากกว่า 55,000 รายการ รวมข้อมูล shipment ที่อัพเดตปัจจุบันและข้อมูลกการขายจากฝั่งค่ายเกม
( legacy sales) ชุดข้อมูลที่นำมาทำการค้นหาองค์ความรู้ภายใน มีข้อจำกัดคือ
-ชุดข้อมูลของวิดีโอเกมนี้จะมีเฉพาะรายชื่อของเกมที่มียอดขายสูงกว่า 100,000 แผ่น (ข้อมูลรวมรวมจาก vgchartz.com)
-ในชุดข้อมูลประกอบด้วย
- Rank — Ranking of overall sales
- Name — The games name
- Platform — Platform of the games release (i.e. PC,PS4, etc.)
- Year — Year of the game’s release
- Genre — Genre of the game*
- Publisher — Publisher of the game
- NA_Sales — Sales in North America (in millions )
- EU_Sales — Sales in Europe (in millions)
- JP_Sales — Sales in Japan (in millions)
- Other_Sales — Sales in the rest of the world (in millions)
- Global_Sales — Total worldwide sales.
*( ในชุดข้อมูลจะปรากฎประเภทของ Role-playing game: RPG คือเกมประเภทหนึ่งที่ผู้เล่นสมมุติรับบทเป็นตัวละครหนึ่งในเกม เช่น FinalFantasy, DragonQuest)
3. การตั้งคำถาม ตั้งสมมติฐาน หาคำตอบ 8 สมมติฐาน
Assumption:
- ในแต่ละกลุ่มประเทศ Publisher ใดโดดเด่นในกลุ่มประเทศนั้น
- ประเทศที่เป็นชาตินิยมจะซื้อเกมที่ออกโดยประเทศตัวเองมากกว่า
- Publisher แต่ละเจ้ามีกลุ่มลูกค้าอยู่ในประเทศใด
- เกมแบบ Handheld ขายดีกว่า Console หรือไม่..
- Genre ของเกมมีผลกับยอดขายของแต่ละกลุ่มประเทศหรือไม่ และ
- ประเภทเกม (Genre)ใดที่โดดเด่นที่สุดในแต่ละกลุ่มประเทศ
- ค่ายเกม (Publisher) ควรพัฒนา Genre ไหนสำหรับ Platform (PC, PS)
- ปีที่มี Olympic จะ release เกมประเภท sport เยอะกว่าปกติ
ต่อไปเป็นขั้นตอนการเอาข้อมูลมาจัดรูปแบบเพื่อสร้างฐานข้อมูลในการวิเคราะห์ และมีการจัดรูปแบบข้อมูลใหม่เพื่อหา insight โดยกระบวนการจะเกิดขึ้นต่อเนื่องกันไปจึงยกรายละเอียดมาเขียนรวมดังนี้
3.1 การสร้างฐานข้อมูลเพื่อการวิเคราะห์ (Data Mart)
- การเลือกข้อมูล
- การจัดรูปแบบข้อมูล
- การ Clean ข้อมูล
3.2. การหาคำตอบจากข้อมูล ซึ่งอาจจะได้จากขั้นตอนที่ 3 หรือหา insight เพิ่มเติม
3.3. ระหว่างการหาคำตอบ จะมีคำถามใหม่เกิดขึ้นมา จนอาจจะนำมาสู่กระบวนการย้อนกลับไปสู่ขั้นตอน 2 หรือ 3.1
โดยเบื้องต้นเราเอาข้อมูลมาจัดรูปแบบและ plot กราฟเพื่อหาดูความสัมพันธ์ของข้อมูลหรือที่เรียกว่า Exploratory Data Analysis (EDA) โดยใช้การ coding ใน Python เริ่มจากการอัพโหลดข้อมูล การ import library ที่ต้องใช้เข้ามาก่อน
สามารถเข้าไปดูได้รายละเอียดได้จาก link colab https://colab.research.google.com/drive/10H35VDrVA-sAQiVtbZ_oRK4EADdNcxmZ?authuser=2#scrollTo=LpRBE0QNWapJ
หน้าตาชุดข้อมูลที่อัพโหลดเข้ามา 5 แถวแรกหน้าตาประมาณนี้ มีข้อมูล Rank, Name, Platform, Year, Genre, Publisher, Sales ตามทวีปหลัก และ Global โดยใช้ตัวย่อดังนี้
NA = North America,
EU = Europe,
JP = Japan
ต่อไปเป็นการใช้คำสั่ง.info() และ .describe()เพื่อดูข้อมูลโดยรวม พบว่ายอดขายที่สูงที่สุดอยู่ใน NA
สามารถเข้าไปดูได้รายละเอียดได้จาก link colab https://colab.research.google.com/drive/10H35VDrVA-sAQiVtbZ_oRK4EADdNcxmZ?authuser=2#scrollTo=Oc3S013sXuUE
พบว่ามีข้อมูลบางส่วนที่หายไป จึงมีการ clean data และลอง plot กราฟเบื้องต้น
นำ Line Chart มา plot มูลค่าของ sales ในกลุ่มประเทศต่างๆแบ่งตามปีที่วางจำหน่าย ประเภทของ Platform และประเภทเกม Genre พบว่ากำลังซื้อส่วนใหญ่มาจาก North America และ เกมประเภท Role-Playing ทาง Japan มียอดขายใกล้เคียงกับ North America
มีการ plot Heatmap เพื่อดูความสัมพันธ์ของระหว่างข้อมูล
เราจึงเริ่มเปลี่ยนรูปแบบการจัดการข้อมูลใหม่โดยใช้คำสั่ง groupby เพื่อหาคำตอบของสมมติฐาน
สมมติฐาน 1. ในแต่ละกลุ่มประเทศ Publisher ใดโดดเด่นในกลุ่มประเทศนั้นๆ ซึ่งอันนี้เราแยกหาตามกลุ่มประเทศ NA, EU, JP และ Other ก็จะพบ Publisher ที่เด่นๆลำดับ 1–3 คือ
- ในกลุ่มประเทศ NA และ EU คือ Nintendo, Electronic Arts, Activision
- ในกลุ่มประเทศ JP คือ Nintendo, Namco Bandai Games, Konami Digital Entertainment ซึ่งส่วนนี้ทำให้ยืนยันสมมติฐานข้อ 2. ประเทศที่เป็นชาตินิยมจะซื้อเกมที่ออกโดยประเทศตัวเองมากกว่า นั่นคือประเทศญี่ปุ่น
- ในกลุ่ม Others คือ Electronic Arts, Nintendo, Sony Computer Entainerment
— — — — — —
สมมติฐาน 3. Publisher แต่ละเจ้ามีกลุ่มลูกค้าอยู่ในประเทศใด ซึ่งข้อนี้ลองเอาข้อมูล Publisher มาดูเทียบกับกลุ่มประเทศและระบุกลุ่มประเทศที่ Publisher ได้ยอดขายมากที่สุดเพิ่มเติมมาในคอลัมน์สุดท้ายชื่อ target ก็จะเห็นข้อมูลตามกราฟด้านล่าง
จากกราฟสังเกตได้ว่า ยอดขายผู้จำหน่ายเกมส่วนใหญ่มีกำลังซื้อมาจากกลุ่ม NA
ส่วนผู้จำหน่าย Codemasters มีกำลังซื้อส่วนใหญ่มาจากกลุ่ม EU
Namco Bandai,Konami Digital,Capcom เป็นผู้จำหน่ายที่มียอดขายติด 5 อันดับแรกของประเทศญี่ปุ่นเท่านั้น
— — — — — —
สมมติฐาน 4. เกมแบบ Handheld ขายดีกว่า Console หรือไม่…
ในส่วนนี้มีการสร้าง data mart ดังนี้
- จากข้อมูลจะพบว่าเกม Console สร้างยอดขายสูงกว่า Handheld ในทุกกลุ่มประเทศ
— — — — — —
สมมติฐาน 5. Genre ของเกมมีผลกับยอดขายของแต่ละกลุ่มประเทศหรือไม่ และสมมติฐาน 6. ประเภทเกม (Genre)ใดที่โดดเด่นที่สุดในแต่ละกลุ่มประเทศ
มีการสร้างฐานข้อมูลเพื่อการวิเคราะห์ (Data Mart) จาก Pivot Table Excel ดังนี้
การหาคำตอบจากข้อมูล ซึ่งอาจจะได้จากขั้นตอนที่ 3 หรือหา insight เพิ่มเติม
เมื่อลองทำกราฟในมุมดูเปอร์เซนต์ยอดขาย ของแต่ละ genre ในแต่ละกลุ่มประเทศ พบว่า
- Japan นิยม Genre Role-Playing ทั้งในประเทศตนเอง และเมื่อเทียบกับชาติอื่น
- Japan ไม่นิยม Genre Shooting,Racing เมื่อเทียบกับชาติอื่น
- ในกลุ่มประเทศอื่น ความนิยมในแต่ละ Genre มีการกระจายยอดขายค่อนข้างเหมือนกัน
— — — — — — — —
สมมติฐาน 7. ค่ายเกม (Publisher) ควรพัฒนา Genre ไหนสำหรับ Platform (PC, PS)
มีการสร้างฐานข้อมูลเพื่อการวิเคราะห์ (Data Mart) จาก Pivot Excel ดังนี้
คัดมาเฉพาะ Platform ที่เป็นเครื่องเกม generation ใหม่
การหาคำตอบจากข้อมูล ซึ่งอาจจะได้จากขั้นตอนที่ 3 หรือหา insight เพิ่มเติม
จากกราฟพบว่า
- PC ยอดขายเกม Genre Simulation กับ Strategy โดนเด่นมาก
- เกมแนว Action กับ Shooting สามารถขายได้ดี ในทุก Platform เมื่อเทียบกับ genre อื่น ใน platform เดียวกัน
- พบเพิ่มเติมว่า เกม แนว fighting ขายบน PC ได้น้อยมากเมื่อเทียบกับ genre อื่น ซึ่งคาดเดาว่าเพราะ วิธีการควบคุม ต้องใช้ keyboard หรือ ซื้อ Joystick มาเพิ่ม
- พบว่า WiiU มีเพียงสัดส่วน genre Puzzle ขายได้เยอะกว่า platform อื่น
— — — — — —
สมมติฐาน 8. ปีที่มี Olympic จะ release เกมประเภท sport เยอะกว่าปกติ …
Sports_df = vg_sales_df[vg_sales_df['Genre']=='Sports']
สร้างข้อมูลชุดใหม่ที่เลือกมาเฉพาะข้อมูลของเกมประเภท Sport แล้วทำการ Plot
โดยปีที่มี Olympic ได้แก่ 1980,1984,1988,1992,1996,2000,2004,2008,2012 และ 2016
จากกราฟมีเพียงปี 2008 ที่มีการ release เกมประเภท sport มากกว่าปีอื่นๆ อย่างเห็นได้ชัด
— — — — — -
4. สรุปผล
- กลุ่มประเทศ NA มียอดขายที่สูงที่สุด รองลงมาคือ EU, Other และ JP
- ช่วงปีที่เกมได้รับความนิยมมากที่สุดคือระหว่าง 1995–2010 และค่อยๆลดลงอย่างต่อเนื่องจนถึงปัจจุบัน ซึ่งตีความได้ว่าคนอาจจะหันไปให้ความสนใจอย่างอื่นแทน
- โดยรวมมูลค่าประเภทเกมที่สูงที่สุดคือ Action, Sport, Shooter, Platform, Role-playing แต่หากดูในช่วงตั้งแต่ปี 2010 จนถึงปัจจุบัน ยอดขายเกมลดลงเรื่อยๆ โดยเกมที่มีแนวโน้มยังขายได้คือ Action, Shooter, Sport, Role-playing, Misc
- แนวโน้มประเภทเกมที่เป็นที่นิยมตั้งแต่ช่วงขาขึ้นและขาลงเป็นไปในทิศทางเดียวกันคือ Action, Sport, Shooter
- ประเภทเกมที่มีแนวโน้มไม่เป็นที่นิยมแล้วในอนาคตคือ Platform
- Publisher ที่โดดเด่นในกลุ่มประเทศ NA และ EU เหมือนกันคือ Nintendo, Electronic Arts, Activision ในขณะที่ฝั่ง JP คือ Nintendo, Namco Bandai Games, Konami Digital Entertainment ซึ่งแสดงให้เห็นว่าญี่ปุ่นเป็นประเทศที่นิยมค่ายเกมของชาติตัวเองมากกว่า เพราะฉะนั้นเกมต่างชาติอาจจะขายไม่ดีในญี่ปุ่น และ ประเภทเกมที่เป็นที่นิยมมากที่สุดในญี่ปุ่นคือ Role playing และยังมีแนวโน้มโตขึ้นเรื่อยๆ
- Publisher ที่มีอิทธิพลที่สุดคือ Nintendo มีฐานลูกค้าอยู่ในทุกกลุ่มประเทศและคิดเป็นสัดส่วนที่เยอะที่สุดในทุกกลุ่มประเทศ
- โดยรวม Platform ที่ขายดีและเป็นที่นิยมคือ PS2, PS3, X360, PS4 แต่หากมองเฉพาะในยุคปัจจุบัน Platform generation ใหม่ จะเป็น PS3, X360, PS4
- คนที่ชอบเล่น Action หรือ Shooting เป็นที่นิยมในทุก Platform โดยมากที่สุดใน PS3 และ X360 ส่วนเกมมีลักษณะการเล่นที่ต้องใช้ความคิดมาก เช่น Simulation กับ Strategy เป็นที่นิยมใน Platform PC
- เกมประเภท Console สร้างยอดขายสูงกว่า Handheld ในทุกกลุ่มประเทศ คิดเป็นสัดส่วน 3:1 ยกเว้นในญี่ปุ่นเป็น 2:1
- ปีที่มี Olympic ไม่ได้เป็นปัจจัยเพิ่มเติมให้มีการออกเกมประเภท Sport มากขึ้น