Week 1: Data Analytics วิเคราะห์ยอดขายตลาดเกมส์

DSEsGr.10 Week1

DSEs_G10
botnoi-classroom
6 min readAug 14, 2020

--

# EU favorite publisher

Team member:
1. ake
2. Bank
3. Jui
4. oOhHhH
5. เต้ย พอๆๆ
6. ปาร์ตี้ จ้า
7. Sutthipas Y.
8. VIVI -ビビ
9. Aui Jampen
10. DingDoNG
11. iceberg
12. Nui
13. Mr. Vasan
14. Panuwat
15. ming
16. Peach
17. sumana
18. Thon
19. Emkrit
20. SmileyYui
21. Guide (Private)
22. Gopher_Sum’O~*
23. Yui Kitima

Objective: บทความนี้เป็นส่วนหนึ่งของ Data Science Essential ของ Botnoi Classroom หัวข้อ Data Analytic

พวกเราทีมนักเรียน Botnoi Data Science Essential Group 10 เลือกหัวข้อสำหรับเป็นแบบฝึกหัดในการทำ Data Analytic สัปดาห์ที่ 1 ของคอร์สเรียน โดยยกเอาชุดข้อมูล (dataset) ของการขายวิดีโอเกมมาวิเคราะห์ตามขั้นตอนที่เราได้เรียนจากในห้องเรียน ซึ่งจะแยกไว้ทั้งหมด 6 ข้อ แต่ในทีมคุยกันและเห็นว่าขั้นตอนที่ถูกแยกออกมาสามารถยุบรวมไปในข้อ 3 ได้เพราะเนื่องจากเป็นเหตุการณ์ที่มันจะเกิดต่อเนื่องกัน และจะทำให้หัวข้อของกระบวนการในการทำ Data Analytic กระชับขึ้น โดยเขียนใหม่กระบวนการเป็นดังนี้

กระบวนการทำ Data Analytic

  1. จุดประสงค์ของการทำ Data Analytic คืออะไร
  2. การเก็บข้อมูล/รวบรวมข้อมูลดิบ
  3. การตั้งคำถาม ตั้งสมมติฐาน หาคำตอบ 9 สมมติฐาน

3.1 การสร้างฐานข้อมูลเพื่อการวิเคราะห์ (Data Mart)

  • การเลือกข้อมูล
  • การจัดรูปแบบข้อมูล
  • การ Clean ข้อมูล

3.2. การหาคำตอบจากข้อมูล ซึ่งอาจจะได้จากขั้นตอนที่ 3 หรือหา insight เพิ่มเติม

3.3. ระหว่างการหาคำตอบ จะมีคำถามใหม่เกิดขึ้นมา จนอาจจะนำมาสู่กระบวนการย้อนกลับไปสู่ขั้นตอน 2 หรือ 3.1

4. การสรุปผล

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

เริ่มต้นจากแต่ละขั้นตอนโดยเราต้องตั้งโจทย์ของการวิเคราะห์ก่อน

1. จุดประสงค์ของการทำ Data Analytic ในชุดข้อมูลนี้คืออะไร

ในงานนี้คือเพื่อวิเคราะห์ตลาดเกม ในมุมของค่ายเกม Publisher เพื่อนำองค์ความรู้ที่พบไปพัฒนาปรับปรุงให้ยอดขายดีขึ้น พัฒนาสินค้าได้ตอบโจทย์ลูกค้ามากขึ้น

2. การเก็บข้อมูล/รวบรวมข้อมูลดิบ

หาชุดข้อมูลจากเว็บไซต์ Kaggle https://www.kaggle.com/gregorut/videogamesales โดย ผู้จัดทำชุดข้อมูลนี้ได้ทำการ Scrapping data มาจากเว็บไซต์ http://www.vgchartz.com/ ซึ่งเป็นเว็บที่มีจุดประสงค์เพื่อรวบรวมฐานข้อมูลเกมของทั้งค่ายเกมโดยมีข้อมูลโดยประมาณของ hardware ที่ออกทุกสัปดาห์ และรวมถึงฐานข้อมูลรายชื่อเกมมากกว่า 55,000 รายการ รวมข้อมูล shipment ที่อัพเดตปัจจุบันและข้อมูลกการขายจากฝั่งค่ายเกม
( legacy sales) ชุดข้อมูลที่นำมาทำการค้นหาองค์ความรู้ภายใน มีข้อจำกัดคือ

-ชุดข้อมูลของวิดีโอเกมนี้จะมีเฉพาะรายชื่อของเกมที่มียอดขายสูงกว่า 100,000 แผ่น (ข้อมูลรวมรวมจาก vgchartz.com)

-ในชุดข้อมูลประกอบด้วย

  • Rank — Ranking of overall sales
  • Name — The games name
  • Platform — Platform of the games release (i.e. PC,PS4, etc.)
  • Year — Year of the game’s release
  • Genre — Genre of the game*
  • Publisher — Publisher of the game
  • NA_Sales — Sales in North America (in millions )
  • EU_Sales — Sales in Europe (in millions)
  • JP_Sales — Sales in Japan (in millions)
  • Other_Sales — Sales in the rest of the world (in millions)
  • Global_Sales — Total worldwide sales.
    *( ในชุดข้อมูลจะปรากฎประเภทของ Role-playing game: RPG คือเกมประเภทหนึ่งที่ผู้เล่นสมมุติรับบทเป็นตัวละครหนึ่งในเกม เช่น FinalFantasy, DragonQuest)

3. การตั้งคำถาม ตั้งสมมติฐาน หาคำตอบ 8 สมมติฐาน

Assumption:

  1. ในแต่ละกลุ่มประเทศ Publisher ใดโดดเด่นในกลุ่มประเทศนั้น
  2. ประเทศที่เป็นชาตินิยมจะซื้อเกมที่ออกโดยประเทศตัวเองมากกว่า
  3. Publisher แต่ละเจ้ามีกลุ่มลูกค้าอยู่ในประเทศใด
  4. เกมแบบ Handheld ขายดีกว่า Console หรือไม่..
  5. Genre ของเกมมีผลกับยอดขายของแต่ละกลุ่มประเทศหรือไม่ และ
  6. ประเภทเกม (Genre)ใดที่โดดเด่นที่สุดในแต่ละกลุ่มประเทศ
  7. ค่ายเกม (Publisher) ควรพัฒนา Genre ไหนสำหรับ Platform (PC, PS)
  8. ปีที่มี Olympic จะ release เกมประเภท sport เยอะกว่าปกติ

ต่อไปเป็นขั้นตอนการเอาข้อมูลมาจัดรูปแบบเพื่อสร้างฐานข้อมูลในการวิเคราะห์ และมีการจัดรูปแบบข้อมูลใหม่เพื่อหา insight โดยกระบวนการจะเกิดขึ้นต่อเนื่องกันไปจึงยกรายละเอียดมาเขียนรวมดังนี้

3.1 การสร้างฐานข้อมูลเพื่อการวิเคราะห์ (Data Mart)

  • การเลือกข้อมูล
  • การจัดรูปแบบข้อมูล
  • การ Clean ข้อมูล

3.2. การหาคำตอบจากข้อมูล ซึ่งอาจจะได้จากขั้นตอนที่ 3 หรือหา insight เพิ่มเติม
3.3. ระหว่างการหาคำตอบ จะมีคำถามใหม่เกิดขึ้นมา จนอาจจะนำมาสู่กระบวนการย้อนกลับไปสู่ขั้นตอน 2 หรือ 3.1

โดยเบื้องต้นเราเอาข้อมูลมาจัดรูปแบบและ plot กราฟเพื่อหาดูความสัมพันธ์ของข้อมูลหรือที่เรียกว่า Exploratory Data Analysis (EDA) โดยใช้การ coding ใน Python เริ่มจากการอัพโหลดข้อมูล การ import library ที่ต้องใช้เข้ามาก่อน

สามารถเข้าไปดูได้รายละเอียดได้จาก link colab https://colab.research.google.com/drive/10H35VDrVA-sAQiVtbZ_oRK4EADdNcxmZ?authuser=2#scrollTo=LpRBE0QNWapJ

Code ในการ download ข้อมูลเข้ามาที่ Google Colab

หน้าตาชุดข้อมูลที่อัพโหลดเข้ามา 5 แถวแรกหน้าตาประมาณนี้ มีข้อมูล Rank, Name, Platform, Year, Genre, Publisher, Sales ตามทวีปหลัก และ Global โดยใช้ตัวย่อดังนี้
NA = North America,
EU = Europe,
JP = Japan

Video game dataset

ต่อไปเป็นการใช้คำสั่ง.info() และ .describe()เพื่อดูข้อมูลโดยรวม พบว่ายอดขายที่สูงที่สุดอยู่ใน NA

สามารถเข้าไปดูได้รายละเอียดได้จาก link colab https://colab.research.google.com/drive/10H35VDrVA-sAQiVtbZ_oRK4EADdNcxmZ?authuser=2#scrollTo=Oc3S013sXuUE

พบว่ามีข้อมูลบางส่วนที่หายไป จึงมีการ clean data และลอง plot กราฟเบื้องต้น

นำ Line Chart มา plot มูลค่าของ sales ในกลุ่มประเทศต่างๆแบ่งตามปีที่วางจำหน่าย ประเภทของ Platform และประเภทเกม Genre พบว่ากำลังซื้อส่วนใหญ่มาจาก North America และ เกมประเภท Role-Playing ทาง Japan มียอดขายใกล้เคียงกับ North America

มีการ plot Heatmap เพื่อดูความสัมพันธ์ของระหว่างข้อมูล

เราจึงเริ่มเปลี่ยนรูปแบบการจัดการข้อมูลใหม่โดยใช้คำสั่ง groupby เพื่อหาคำตอบของสมมติฐาน

สมมติฐาน 1. ในแต่ละกลุ่มประเทศ Publisher ใดโดดเด่นในกลุ่มประเทศนั้นๆ ซึ่งอันนี้เราแยกหาตามกลุ่มประเทศ NA, EU, JP และ Other ก็จะพบ Publisher ที่เด่นๆลำดับ 1–3 คือ

  • ในกลุ่มประเทศ NA และ EU คือ Nintendo, Electronic Arts, Activision
  • ในกลุ่มประเทศ JP คือ Nintendo, Namco Bandai Games, Konami Digital Entertainment ซึ่งส่วนนี้ทำให้ยืนยันสมมติฐานข้อ 2. ประเทศที่เป็นชาตินิยมจะซื้อเกมที่ออกโดยประเทศตัวเองมากกว่า นั่นคือประเทศญี่ปุ่น
  • ในกลุ่ม Others คือ Electronic Arts, Nintendo, Sony Computer Entainerment
#NA favorite publisher
# EU favorite publisher
#JP favorite publisher # Nationalism
#Other favorite publisher

— — — — — —

สมมติฐาน 3. Publisher แต่ละเจ้ามีกลุ่มลูกค้าอยู่ในประเทศใด ซึ่งข้อนี้ลองเอาข้อมูล Publisher มาดูเทียบกับกลุ่มประเทศและระบุกลุ่มประเทศที่ Publisher ได้ยอดขายมากที่สุดเพิ่มเติมมาในคอลัมน์สุดท้ายชื่อ target ก็จะเห็นข้อมูลตามกราฟด้านล่าง

จากกราฟสังเกตได้ว่า ยอดขายผู้จำหน่ายเกมส่วนใหญ่มีกำลังซื้อมาจากกลุ่ม NA
ส่วนผู้จำหน่าย Codemasters มีกำลังซื้อส่วนใหญ่มาจากกลุ่ม EU

Namco Bandai,Konami Digital,Capcom เป็นผู้จำหน่ายที่มียอดขายติด 5 อันดับแรกของประเทศญี่ปุ่นเท่านั้น

— — — — — —

สมมติฐาน 4. เกมแบบ Handheld ขายดีกว่า Console หรือไม่…

ในส่วนนี้มีการสร้าง data mart ดังนี้

  • จากข้อมูลจะพบว่าเกม Console สร้างยอดขายสูงกว่า Handheld ในทุกกลุ่มประเทศ

— — — — — —

สมมติฐาน 5. Genre ของเกมมีผลกับยอดขายของแต่ละกลุ่มประเทศหรือไม่ และสมมติฐาน 6. ประเภทเกม (Genre)ใดที่โดดเด่นที่สุดในแต่ละกลุ่มประเทศ

มีการสร้างฐานข้อมูลเพื่อการวิเคราะห์ (Data Mart) จาก Pivot Table Excel ดังนี้

การหาคำตอบจากข้อมูล ซึ่งอาจจะได้จากขั้นตอนที่ 3 หรือหา insight เพิ่มเติม
เมื่อลองทำกราฟในมุมดูเปอร์เซนต์ยอดขาย ของแต่ละ genre ในแต่ละกลุ่มประเทศ พบว่า

  • Japan นิยม Genre Role-Playing ทั้งในประเทศตนเอง และเมื่อเทียบกับชาติอื่น
  • Japan ไม่นิยม Genre Shooting,Racing เมื่อเทียบกับชาติอื่น
  • ในกลุ่มประเทศอื่น ความนิยมในแต่ละ Genre มีการกระจายยอดขายค่อนข้างเหมือนกัน

— — — — — — — —

สมมติฐาน 7. ค่ายเกม (Publisher) ควรพัฒนา Genre ไหนสำหรับ Platform (PC, PS)

มีการสร้างฐานข้อมูลเพื่อการวิเคราะห์ (Data Mart) จาก Pivot Excel ดังนี้

คัดมาเฉพาะ Platform ที่เป็นเครื่องเกม generation ใหม่

การหาคำตอบจากข้อมูล ซึ่งอาจจะได้จากขั้นตอนที่ 3 หรือหา insight เพิ่มเติม
จากกราฟพบว่า

  • PC ยอดขายเกม Genre Simulation กับ Strategy โดนเด่นมาก
  • เกมแนว Action กับ Shooting สามารถขายได้ดี ในทุก Platform เมื่อเทียบกับ genre อื่น ใน platform เดียวกัน
  • พบเพิ่มเติมว่า เกม แนว fighting ขายบน PC ได้น้อยมากเมื่อเทียบกับ genre อื่น ซึ่งคาดเดาว่าเพราะ วิธีการควบคุม ต้องใช้ keyboard หรือ ซื้อ Joystick มาเพิ่ม
  • พบว่า WiiU มีเพียงสัดส่วน genre Puzzle ขายได้เยอะกว่า platform อื่น

— — — — — —

สมมติฐาน 8. ปีที่มี Olympic จะ release เกมประเภท sport เยอะกว่าปกติ …

Sports_df = vg_sales_df[vg_sales_df['Genre']=='Sports']

สร้างข้อมูลชุดใหม่ที่เลือกมาเฉพาะข้อมูลของเกมประเภท Sport แล้วทำการ Plot
โดยปีที่มี Olympic ได้แก่ 1980,1984,1988,1992,1996,2000,2004,2008,2012 และ 2016

จากกราฟมีเพียงปี 2008 ที่มีการ release เกมประเภท sport มากกว่าปีอื่นๆ อย่างเห็นได้ชัด

— — — — — -

4. สรุปผล

  • กลุ่มประเทศ NA มียอดขายที่สูงที่สุด รองลงมาคือ EU, Other และ JP
  • ช่วงปีที่เกมได้รับความนิยมมากที่สุดคือระหว่าง 1995–2010 และค่อยๆลดลงอย่างต่อเนื่องจนถึงปัจจุบัน ซึ่งตีความได้ว่าคนอาจจะหันไปให้ความสนใจอย่างอื่นแทน
  • โดยรวมมูลค่าประเภทเกมที่สูงที่สุดคือ Action, Sport, Shooter, Platform, Role-playing แต่หากดูในช่วงตั้งแต่ปี 2010 จนถึงปัจจุบัน ยอดขายเกมลดลงเรื่อยๆ โดยเกมที่มีแนวโน้มยังขายได้คือ Action, Shooter, Sport, Role-playing, Misc
  • แนวโน้มประเภทเกมที่เป็นที่นิยมตั้งแต่ช่วงขาขึ้นและขาลงเป็นไปในทิศทางเดียวกันคือ Action, Sport, Shooter
  • ประเภทเกมที่มีแนวโน้มไม่เป็นที่นิยมแล้วในอนาคตคือ Platform
  • Publisher ที่โดดเด่นในกลุ่มประเทศ NA และ EU เหมือนกันคือ Nintendo, Electronic Arts, Activision ในขณะที่ฝั่ง JP คือ Nintendo, Namco Bandai Games, Konami Digital Entertainment ซึ่งแสดงให้เห็นว่าญี่ปุ่นเป็นประเทศที่นิยมค่ายเกมของชาติตัวเองมากกว่า เพราะฉะนั้นเกมต่างชาติอาจจะขายไม่ดีในญี่ปุ่น และ ประเภทเกมที่เป็นที่นิยมมากที่สุดในญี่ปุ่นคือ Role playing และยังมีแนวโน้มโตขึ้นเรื่อยๆ
  • Publisher ที่มีอิทธิพลที่สุดคือ Nintendo มีฐานลูกค้าอยู่ในทุกกลุ่มประเทศและคิดเป็นสัดส่วนที่เยอะที่สุดในทุกกลุ่มประเทศ
  • โดยรวม Platform ที่ขายดีและเป็นที่นิยมคือ PS2, PS3, X360, PS4 แต่หากมองเฉพาะในยุคปัจจุบัน Platform generation ใหม่ จะเป็น PS3, X360, PS4
  • คนที่ชอบเล่น Action หรือ Shooting เป็นที่นิยมในทุก Platform โดยมากที่สุดใน PS3 และ X360 ส่วนเกมมีลักษณะการเล่นที่ต้องใช้ความคิดมาก เช่น Simulation กับ Strategy เป็นที่นิยมใน Platform PC
  • เกมประเภท Console สร้างยอดขายสูงกว่า Handheld ในทุกกลุ่มประเทศ คิดเป็นสัดส่วน 3:1 ยกเว้นในญี่ปุ่นเป็น 2:1
  • ปีที่มี Olympic ไม่ได้เป็นปัจจัยเพิ่มเติมให้มีการออกเกมประเภท Sport มากขึ้น

--

--