Kick Starter 2018 Analytic Python with Botnoi Data Science class

Mukapon Botnoi8
botnoi-classroom
Published in
4 min readAug 14, 2020

Team member Group 8

1.Nodthakorn 2.Ball 3.Sunny 4.Ting 5.Pat 6.Praphan 7.Miicoon 8.Palm 9.Mintt 10.Pong 11.Buddy 12.Dong_Thanapat 13.Leng 14.Jay Fox 15.Junior Phummarin 16.Boom 17.Mac 18.Nut.J 19.Phunnawc 20.Prakarn 21.Tong Varanon

จุดประสงค์ บทความนี้เป็นส่วนหนึ่งของ Data Science Essential ของ Botnoi Classroom หัวข้อ Data Analytic ในการทำ ข้อมูลชุดนี้ เกิดมาจากความคิดที่ว่าเราอยากทราบว่าข้อมูลโปรเจคที่เกิดใหม่นั้นมีอะไรเกิดขึ้นมาบ้าง ซึ่งนำมาให้เกิดการค้นหาตัวข้อมูล จนมาเจอเว็บไซต์ จากเว็บไซต์ https://www.kaggle.com/kemical/kickstarter-projects สามารถดาวน์โหลดข้อมูลได้จาก Link นี้เลยครับ และ ทางทีมเราได้ นำข้อมูลมาประมวลผลในขั้นต้นซึ่งสามารถศึกษาได้ ซึ่งทางทีมเราได้ร่วมมือกันทำเพื่อวิเคราะห์ข้อมูลกันขึ้นมาhttps://colab.research.google.com/drive/13k2I54SJ2_dwSZ3rNW_5RqZ1wDUGA-58?usp=sharing

โดยจะมีข้อมูลเกี่ยวกับประเทศ US(United States) GB(Great Britain) CA(Canada) AU(Australia) DE((West) Germany) FR(France) IT(Italy) NL(Netherland) ES(Spain) SE(Sweden) MX(Mexico) NZ(New Zealand) DK(Denmark) IE(Ireland) CH(Switzerland) NO(Norway) HK(Hong Kong) BE(Belgium) AT(Austria) SG(Singapore) LU(Luxembourg) JP(Japan)

การตั้งคำถาม

1. Start up ไหนใช้ทุนต่ำ หรืออยู่ใน budget

2. Category ที่เกิดความสำเร็จมากที่สุด และ ล้มเหลวมากที่สุด

3. ประเทศไหน น่าเข้าไปลงทุนมากที่สุด

4. ประเทศไหนใช้เงินลงทุน ต่ำสุด

5. ประเทศไหนมีการ delay ของการ Go Live มากที่สุด และ น้อยที่สุด

6. Category ไหนที่มีการ delay ของการ Go Live มากที่สุด และ น้อยที่สุด

7. เสนอหัวข้อนี้ได้มั้ยครับ: ปัจจัยอะไรที่ทำใหได้ Fundraising และจะได้ Backersจำนวนเท่าไรครับ

สมมติฐาน

1. Category เกม น่าจะมีการเกิดขึ้นมากมายมหาศาลตั้งแต่ปี 2018

2. เกมเกี่ยวกับ VR น่าจะได้รับความนิยม และมี backers เยอะครับ

3. การ Go Live เลยกำหนด น่าจะทำให้ล้มเหลวได้มากกว่าการ Go Live ทันกำหนด

การสร้างฐานข้อมูลเพื่อการวิเคราะห์ (Data Mart)

โดยในส่วนการสร้างฐานข้อมูลนั้น เรามี Column หลักๆดังนี้

  1. ID : ID project ของ Kickstarter
  2. category : ประเภทย่อยของ project
  3. main_category : ประเภทหลักของ project
  4. currency : ค่าเงินที่ต้องการของ project
  5. deadline : วันที่ project จะจบลง
  6. goal : จำนวนเงินที่ต้องการ
  7. launched : วันที่ project เริ่ม
  8. pledged : จำนวนที่ได้รับการลงทุน
  9. state : สถานะของ project
  10. backers : จำนวนคนที่ ลงทุนใน project (เช่น 1 order pledged นับเป็น 1 backer)
  11. country : ประเทศของ project
  12. usd pledged : จำนวนเงินที่ได้รับ เป็น USD
  13. usd_pledged_real : จำนวนเงินที่ได้รับนำมา convert ในวันที่ project จบโดยผ่าน การคำนวนเรื่อง Exchage rate + ระยะเวลาเพราะว่า kick starter สามารถลงได้หลายค่าเงิน
  14. usd_goal_real : จำนวนเงินที่ต้องการคำนวนโดยเปรียบเทียบค่าเงินในวันที่จบเช่น วันที่เปิด อาจจะต้องการ เงิน 1000 usd แต่วันที่ปิดมูลค่าจริงๆ อาจจะเป็น 1500 usd

พวกเราเริ่มจาก การกรองข้อมูลเป็นส่วนๆเพื่อแยกออกมาเป็นชุดก่อนครับ

กรองให้เหลือโปรเจคที่ประสบความสำเร็จ
กรองให้เหลือโปรเจคที่ประสบความล้มเหลว
จำนวนที่สามารถ Go live ตรงตามกำหนด และคลาดเคลื่อนไป

ผลออกมาปรากฏว่า มีการปล่อยออกมาล่าช้า 102 และ ที่ปล่อยออกมาทันเวลาถึง 378,559 จากชุดข้อมูลตั้งต้นครับ พอเรามีชุดข้อมูลเรียบร้อยเราจึงนำมาข้อมูลชุดใหม่เป็นเกี่ยวกับทางด้านการเงินของ โปรเจคต่างๆ โดยจะเป็นการเลือกโปรเจคที่ประสบความสำเร็จมาคำนวณ เพราะตอนนี้เราจะสนใจโปรเจ็คต่างที่น่าลงทุน จากโค๊ตนี้ครับ

คำนวณเงินจากโปรเจคที่สำเร็จว่าเป็นอย่างไร

เราก็จะมาทำการจัดการข้อมูลให้ง่ายต่อการใช้และลดข้อมูลที่เป็น Null ออกครับ จากที่ดูข้อมูลมาจะเห็น ว่า Null มีอยู่ใน name มี 4 และ USD pledge มี 3797

เราจึงจำกัด ค่า Null ออกทั้งหมดโดยการ สร้างตัวแปรใหม่ขึ้นมา

กรองตัว Null ออกจากข้อมูล
แสดงผล 5 อันดับจาก คำนวณการเงิน

แล้วเรานำข้อมูลทั้งหมดมารวมกับด้านการเงินของโปรเจคต่างๆที่ประสบความสำเร็จ เพื่อที่จะได้เห็นว่าแต่ละโปรเจคได้กำไรไปเท่าไร

การรวมข้อมูลที่ประสบความสำเร็จ

พอเราได้ข้อมูลมาแล้วก็นำไปสู่การหาคำตอบที่เราได้เกิดความสงสัย หรือหาข้อมูลเพิ่มเติม

คำถามแรก คือ Category ที่เกิดความสำเร็จมากที่สุด 10 อันดับ และ ล้มเหลวมากที่สุด 10 อันดับ

Category ที่ประสบความเร็จคำนวณจากจำนวนของกำไร

ซึ่งผลปรากฏว่า หมวดหมู่ Design นั้นสามารถทำกำไรได้มากที่สุด และ ประสบความสำเร็จสูงสุด และจากสมมติฐานที่เราได้ตั้งขึ้นมา ในหมวดของ game ก็ประสบความสำเร็จเหมือนกันในอันดับที่ 2

Category ที่ประสบความล้มเหลวคำนวณจากจำนวนของเงินที่ได้ลงทุนไป

ซึ่งจากกราฟจะเห็นได้ว่าทางข้อมูลแสดงให้เห็นว่า Film & Video มีการสูญเสียมากที่สุด รองลงมาจะเป็นด้าน Technology

คำถามที่สอง คือ ประเทศไหนนั้นที่น่าเข้าไปลงทุนที่สุด เราก็ได้ทำการดูจากจำนวนประเทศที่ประสบความสำเร็จและล้มเหลวครับ ซึ่งผลปรากฏดังรูป

จำนวนประเทศที่เกิดโปรเจคและประสบความสำเร็จ
จำนวนประเทศที่โปรเจคเกิดความล้มเหลว
จำนวนประเทศที่ประสบความสำเร็จ ลบกับจำนวนที่เกิดความล้มเหลว

ซึ่งผลปรากฏว่า US ก็เป็นประเทศที่ประสบความสำเร็จและล้มเหลวมากที่สุด โดยจากข้อมูลที่มีมา ผมสรุปได้ว่าประเทศยิ่งมีโปรเจคเกิดมากขึ้นเท่าไรอัตราการล้มเหลวจะใกล้เคียงกันแต่ก็มีเงินลงทุนไปอยู่ในประเทศเยอะเหมือนกันครับ

คำถามที่ 3 Category Game เกมน่าจะมีการเกิดขึ้นมากในปี 2018 และ VR เกมน่าจะเป็นเกมที่ประสบความสำเร็จและได้รับความนิยมมากที่สุด

นำมาดูจำนวนโปรเจคเกม

ทำให้ได้เห็นข้อมูลพบว่า Category game อยู่อันดับที่ 3 ซึ่งก็ถือว่าเกิดขึ้นมาก แต่ยังไม่มากที่สุด

ทำให้พบว่าเกมเกี่ยวกับ VR นั้น มีแค่ 98 project เท่านั้นที่ประสบความสำเร็จ จึงอาจสรุปได้ว่า VR เกมยังไม่น่าจะได้รับความนิยมเท่าที่ควร เมื่อเทียบกับจำนวน Kickstarter project ใน category game ทั้งหมด

สรุปผล

สมมติฐานว่า Category เกมน่าจะเกิดขึ้นมากมายในปี 2018 นั้น จากที่ทำ Analysis พบว่า Category game อยู่อันดับที่ 3 ซึ่งก็ถือว่าเกิดขึ้นมาก แต่ยังไม่มากที่สุด

ในส่วนของสมมติฐานว่า เกมเกี่ยวกับ VR น่าจะได้รับความนิยมนั้น พบว่า เกมเกี่ยวกับ VR มีแค่ 400 เกม และประสบความสำเร็จหรือ Success แค่ 98 เกมเท่านั้น จึงอาจสรุปได้ว่า VR เกมยังไม่น่าจะได้รับความนิยมเท่าที่ควร

--

--