Data analytics of Amazon Top 50 Bestselling Books 2009–2019

Nichakorn Biamukda
botnoi-classroom
Published in
6 min readNov 24, 2020

Team Member : Nichakorn (Aomam), Supitchaya (Plearn), Akkrawin (Jam), Bee, Sriwichai (Nice)

(Disclaimer: บทความนี้จัดทำขึ้นเพื่อเป็นส่วนหนึ่งของ Data Science Essential season 2 ของ Botnoi Consulting Classroom หัวข้อ Data Analytics)

Introduction

สวัสดีค่ะ พวกเรามาจากกลุ่ม G2 เป็นนักเรียนโปรแกรม Data Science Essential season 2 ของ Botnoi Consulting Classroom ค่ะ ในการเรียน Data Science Essential กับบอทน้อยแต่ละสัปดาห์ ทางทีมงานบอทน้อยมีการแจกโจทย์ที่เกี่ยวข้องกับบทเรียนออกมาให้ทำ ซึ่งหัวข้อในสัปดาห์แรกที่ได้เรียนไปนั้น คือการทำ Data Analytics โดยโจทย์ที่พวกเราได้รับครั้งนี้คือ การเลือกชุดข้อมูล 1 ชุดเพื่อมาทำการวิเคราะห์ข้อมูลกัน ก่อนเข้าสู่การทำ Data Analytics นั้นพวกเรามารู้จักกระบวนการ Data Analytics กันค่ะ

กระบวนการทำ Data Analytics แบ่งออกเป็น 6 ขั้นตอนดังนี้

1.การเก็บข้อมูล และ รวบรวมข้อมูลดิบ

2.การตั้งคำถามและตั้งสมมติฐาน

3.การสร้างฐานข้อมูลเพื่อการวิเคราะห์ (Data Mart)

4.การหาคำตอบจากข้อมูล

5.ในช่วงที่เราหาคำตอบจากข้อมูลนั้น มักจะมีคำถามใหม่เกิดขึ้นเสมอ จนอาจนำมาสู่กระบวนการย้อนกลับไปขั้นตอนการเก็บข้อมูลและรวบรวมข้อมุลดิบ หรือ การตั้งคำถาม และ ตั้งสมมติฐาน

6.การสรุปผล

1. การเก็บข้อมูล และรวบรวมข้อมูลดิบ

กลุ่มของเราได้ตกลงกันว่าจะเลือกชุดข้อมูล Dataset จาก www.kaggle.com โดยให้คนในกลุ่มเสนอชุดข้อมูลที่สนใจเข้ามา และโหวตเลือก ซึ่งชุดข้อมูลที่ได้เลือกมาทำ Data Analytic คือ Amazon Top 50 Bestselling Books 2009–2019 หลังจากที่เราได้เลือกชุดข้อมูลแล้วก็เริ่มต้น กำหนดจุดประสงค์ ของการทำ Data Analytics กัน

การกำหนดจุดประสงค์

การทำ Data Analytics ครั้งนี้ มีจุดประสงค์เพื่อศึกษาปัจจัยอะไรบ้างที่เป็นสิ่งที่ทำให้หนังสือขายดี? ติดอันดับ Top 50 ของเว็บไซต์อเมซอน สิ่งนี้เป็นเรื่องธรรมดาที่นักเขียนและสำนักพิมพ์อยากรู้เพื่อเพิ่มยอดขายหนังสือ ซึ่งการใช้ประโยชน์จากข้อมูลสามารถหาคำตอบให้กับเราได้ เพื่อนำไปใช้ประกอบการตัดสินใจในทางธุรกิจต่อไป

2. การตั้งคำถามและสมมติฐาน (Questions and Hypothesis)

ในการตั้งคำถามและสมมติฐานนั้น ทางกลุ่มของเราได้แบ่งออกเป็น 6 หัวข้อด้วยกันดังนี้ค่ะ

(1) 3 อันดับหนังสือขายดีในแต่ละปี

หนังสือทีมียอดขายดี 3 อันดับแรกของทุกปีได้แก่อะไรบ้าง?

Hypothesis: ชื่อหนังสือ1.Harry Potter 2. Hunger game 3.The Fault in our star หนังสือ 3เล่มนี้น่าจะเป็นหนังสือที่มียอดขายดี เนื่องจากเป็นหนังสือยอดนิยมและเป็นที่รู้จักแพร่หลาย

หาโดยการนำชื่อหนังสือที่ขายดีในแต่ละปี จากปี 2009 ถึงปี 2019 โดยเปรียบเทียบกับจำนวนรีวิว

(2) 3 อันดับผู้แต่งหนังสือขายดีในแต่ละปี

ผู้แต่งหนังสือทีมียอดขายหนังสือดี 3 อันดับแรกของทุกปีได้แก่อะไรบ้าง?

Hypothesis: 1. J.k. Rowling 2. John Green 3. Suzanne Collins ผู้แต่ง 3 คนนี้น่าจะมียอดขายหนังสือดี เนื่องจากแต่งหนังสือที่เป็นที่นิยมออกมา

หาโดยการนำชื่อผู้แต่งหนังสือที่ขายดีในแต่ละปี จากปี 2009 ถึงปี 2019 โดยเปรียบเทียบกับจำนวนรีวิว

(3) ยอดขายหนังสือ

(3.1) ชื่อเสียงของผู้แต่งหนังสือมีผลต่อยอดขายหนังสือเฉลี่ยต่อเล่มหรือไม่? (ผู้แต่ง — รีวิว)

Hypothesis: ‘ยิ่งเป็นผู้แต่งหนังสือที่มีชื่อเสียงมากเท่าไหร่ ยอดขายหนังสือเฉลี่ยต่อเล่มก็จะมากขึ้นเท่านั้น’

ทดสอบโดยเปรียบเทียบชื่อผู้แต่งหนังสือและจำนวนรีวิว เพื่อนำมาหาความสัมพันธ์ว่าชื่อเสียงของผู้แต่งมีผลต่อยอดขายหนังสือหรือไม่

(3.2) หนังสือที่มีราคาถูกจะส่งผลให้ยอดขายหนังสือเพิ่มขึ้นหรือไม่? (ราคา — รีวิว)

Hypothesis: ‘หนังสือที่มีราคาถูก จะดึงดูดให้คนมาซื้อหนังสือมากขึ้น ส่งผลให้ยอดขายหนังสือมากกว่าหนังสือที่มีราคาแพง’

ทดสอบโดยเปรียบเทียบชื่อราคาหนังสือและจำนวนรีวิว เพื่อนำมาหาความสัมพันธ์ว่าราคาของหนังสือมีผลต่อยอดขายหนังสือหรือไม่

(3.3) ความยาวของชื่อหนังสือส่งผลให้ยอดขายหนังสือเพิ่มขึ้นหรือไม่ ? (ความยาวชื่อหนังสือ — รีวิว)

Hypothesis: ‘ชื่อหนังสือที่มีความยาวมาก จะดึงดูดให้คนซื้อหนังสือมากกว่าชื่อหนังสือที่มีความยาวสั้น’

ทดสอบโดยเปรียบเทียบความยาวของชื่อหนังสือและจำนวนรีวิว เพื่อนำมาหาความสัมพันธ์ว่าความยาวชื่อหนังสือมีผลต่อยอดขายหนังสือหรือไม่

(3.4) การที่มีจำนวนรีวิวเยอะส่งผลให้ Rating ดีหรือไม่ ? (เรทติ่ง — รีวิว)

Hypothesis: ‘หนังสือที่มีรีวิวเยอะ มักจะเป็นหนังสือที่มี rating ที่ดี’

ทดสอบโดยเปรียบเทียบชื่อความยาวของชื่อหนังสือและจำนวนรีวิว เพื่อนำมาหาความสัมพันธ์ว่าความยาวชื่อหนังสือมีผลต่อยอดขายหนังสือหรือไม่

(3.5) ประเภทของหนังสือมีผลต่อยอดขายหนังสือหรือไม่ ? (ประเภท — รีวิว)

Hypothesis: ‘หนังสือประเภท fiction มียอดขายที่ดีกว่าหนังสือประเภท non-ficton’

ทดสอบโดยเปรียบเทียบประเภทของหนังสือและจำนวนรีวิว เพื่อนำมาหาความสัมพันธ์ว่าความยาวประเภทหนังสือมีผลต่อยอดขายหนังสือหรือไม่

(3.6) อยากทราบว่าช่วงปีที่ออกหนังสือมีผลต่อยอดขายหนังสือหรือไม่ (ช่วงปีที่ได้รางวัล — รีวิว)

Hypothesis: ‘ยิ่งปีเข้าใกล้ปัจจุบัน จะมียอดขายหนังสือมากขึ้น เนื่องจากคนหันมาซื้อหนังสือทางออนไลน์มากขึ้น’

ทดสอบโดยเปรียบเทียบปีที่ออกหนังสือและจำนวนรีวิว เพื่อนำมาหาความสัมพันธ์ว่าช่วงปีที่ออกหนังสือมีผลต่อยอดขายหนังสือหรือไม่

4. ประเภทของหนังสือ

อยากทราบว่าประเภทของหนังสือมีผลต่อราคาหรือไม่ ? (ประเภท — ราคา)

Hypothesis: ‘หนังสือประเภท fiction มีราคาที่แพงกว่าหนังสือประเภท nonfiction’

ทดสอบโดยเปรียบเทียบประเภทของหนังสือและราคา เพื่อนำมาหาความสัมพันธ์ว่าประเภทของหนังสือมีผลต่อราคาของหนังสือหรือไม่

5. ปัจจัยในการตัดสินใจออกหนังสือใหม่

อยากทราบว่าจำนวนรีวิวและเรทติ้งมีผลต่อการตัดสินใจของ JK rowling ในการออกหนังสือใหม่หรือไม่ ?

Hypothesis: ‘ถ้าหนังสือเล่มก่อนหน้าได้รับการตอบรับที่ดี ทั้งจากรีวิวและเรทติ้ง จะส่งผลให้ผู้แต่งออกหนังสือเล่มใหม่’

ยกตัวอย่าง ผู้เขียนหนังสือชื่อดังอย่างJK rowling เพื่อนำมาหาความสัมพันธ์ว่านักแต่งหนังสือได้นำปัจจัยด้านจำนวนรีวิวและเรทติ้งมาใช้ในการตัดสินใจในการออกหนังสือเล่มใหม่หรือไม่

6. คำที่ใช้ตั้งชื่อหนังสือ

อยากทราบว่าสำนักพิมพ์/ผู้แต่ง มักใช้คำไหนในการตั้งชื่อหนังสือ

Hypothesis: ‘หนังสือมักจะมีคำว่า Life’

ทดสอบโดยใช้ Word cloud เพื่อหาว่าสำนักพิมพ์มักจะใช้คำไหนในการตั้งชื่อหนังสือ

3. การสร้างฐานข้อมูลเพื่อการวิเคราะห์ (Data Mart/ Data Exploration)

หลังจากที่ตั้งสมมติฐานแล้ว ขั้นตอนถัดมาเราจะเริ่มทำการ Clean และจัดระเบียบข้อมูล เพื่อทำการสร้างฐานข้อมูล ดังนี้

3.1 review data

Data set ที่เรานำมาใช้นั้นมีทั้งหมด 7 column ได้แก่

Name : Name of the Book ชื่อหนังสือ

Author : The author of the Book ชื่อผู้เขียน หรือชื่อผู้แต่ง

User Rating : Amazon User Rating คะแนนเฉลี่ยเรตติ้งหนังสือจากผู้อ่าน

Reviews : Number of written reviews on amazon จำนวนรีวิวหนังสือบนเว็บไซต์อเมซอน

Price : The price of the book (As at 13/10/2020) ราคาหนังสือ

Year : The Year(s) it ranked on the bestseller ปีที่ติดอันดับหนังสือขายดีบนเว็บไซต์อเมซอน

Genre : Whether fiction or nonfiction ประเภทของหนังสือ แบ่งออกเป็น 2 ประเภท ได้แก่ fiction และ nonfiction

3.2 การจัดข้อมูล

  1. ตรวจสอบรายละเอียดของข้อมูลดังนี้

-แสดงชื่อคอลัมน์ จำนวนข้อมูล และประเภทของข้อมูลดังนี้

-ค่าทางสถิติเบื้องต้น ของ คอลัมน์ User Rating, Reviews, Price, Year

-ตรวจสอบค่าข้อมูล Missing Value

2. จัดรูปแบบข้อมูลเพื่อการวิเคราะห์

  • แปลงชื่อผู้แต่งให้อยู่ในรูปแบบเดียวกัน จากการตรวจสอบข้อมูลพบว่าข้อมูลผู้แต่งบางรายการมีข้อผิดพลาด ยกตัวอย่างเช่นชื่อผู้แต่งคนเดียวกัน แต่มีการเว้นวรรคที่ต่างกัน ทำให้ต้องมีการจัดการข้อมูลผู้แต่งให้อยู่ในรูปแบบเดียวกันดังนี้
  • นับจำนวนหนังสือที่ติดอันดับ Amazing Top 50 Bestselling Books 2009–2019 หนังสือสามารถติดอันดับขายดีบนเว็บอเมซอนได้หลายปี จึงนับจำนวนปีที่หนังสือแต่ละเล่มติดอันดับ Amazing Top 50 Bestselling Books ซ้ำกี่ครั้งในช่วง 2009–2019 ที่ผ่านมาเพื่อจัดกลุ่มชื่อหนังสือเดียวกัน
  • เพิ่มคอลัมน์ text_count เพื่อนับความยาวของชื่อหนังสือ

4. การหาคำตอบจากข้อมูล (Hypothesis Testing)

ก่อนที่เราจะไปทำการตอบคำถามที่ได้ตั้งเอาไว้นั้น ทางเราได้ทำการหา insights จากข้อมูลเพื่อใช้ประกอบการวิเคราะห์

กราฟวงกลมแสดงเปอร์เซ็นต์ของหนังสือแต่ละประเภทที่ติด Top 50 Amazon bestselling books ระหว่างปี 2009–2019

4.1 ตอบคำถาม

  1. Top 3 หนังสือขายดีในแต่ละปี

หนังสือทีมียอดขายดี 3 อันดับแรกของทุกปีได้แก่อะไรบ้าง?

Hypothesis: ชื่อหนังสือ1.Harry Potter 2. Hunger game 3.The Fault in our star หนังสือ 3เล่มนี้น่าจะเป็นหนังสือที่มียอดขายดี เนื่องจากเป็นหนังสือยอดนิยมและเป็นที่รู้จักแพร่หลาย

จากการวิเคราะห์จะเห็นได้ว่า

  1. ในช่วงปี 2010–2011 อันดับไม่มีการเปลี่ยนแปลง
  2. ในช่วงปี 2012–2013 อันดับไม่มีการเปลี่ยนแปลง
  3. ในช่วงปี 2014 -2019 อันดับมีการเปลี่ยนแปลงทุกปี

2. Top 3 ผู้แต่งหนังสือขายดี

จากการวิเคราะห์จะเห็นได้ว่า

  1. ปี 2012–2013 เป็นปีเดียวที่อันดับไม่มีการเปลี่ยนแปลง

3. ยอดขายหนังสือ

3.1 ชื่อเสียงของผู้แต่งหนังสือมีผลต่อยอดขายของหนังสือเฉลี่ยต่อเล่มหรือไม่? (ผู้แต่ง — รีวิวเฉลี่ยต่อเล่ม)

Hypothesis: ‘ยิ่งเป็นผู้แต่งหนังสือที่มีชื่อเสียงมากเท่าไหร่ ยอดขายหนังสือเฉลี่ยต่อเล่มก็จะมากขึ้นเท่านั้น’

ผู้เขียนหนังสือ 15 อันดับแรก ที่ออกหนังสือมากที่สุด ระหว่างปี 2009–2019
หนังสือที่มีจำนวนรีวิวเฉลี่ยมากที่สุด 10 อับดับแรก ระหว่างปี 2009–2019

จากการวิเคาระห์จะเห็นได้ว่าหนังสือที่มี Reviews มากที่สุดคือ Where the Crawdads Sing แต่งโดย Delia Owens เป็นหนังสือใหม่ทีติดอันดับ the New York Times Fiction Best Sellers of 2019 เป็นเวลา 25 สัปดาห์

ผู้เขียนหนังสือ ที่มีจำนวนรีวิวเฉลี่ยต่อหนังสือมากที่สุด 10 อันดับแรกระหว่างปี 2009–2019

เมื่อต้องการตอบคำถามว่าชื่อผู้แต่งหนังสือมีผลต่อยอดขายหนังสือเฉลี่ยต่อเล่มหรือไม่นั้น จากข้อมูลเบื้องต้นยังไม่สามารถสรุปได้ เนื่องจากผู้แต่งบางคนไม่ได้ตีพิมพ์หนังสือหลายเล่ม แต่มีจำนวนรีวิวที่เยอะมากหรือผู้แต่งที่แต่งหนังสือเยอะ แต่จำนวนรีวิวเฉลี่ยไม่ได้เยอะมากตาม

สรุป — ไม่สามารถสรุปได้ว่าชื่อเสียงของผู้แต่งหนังสือ มีผลต่อยอดขายเฉลี่ยต่อเล่มของหนังสือ

3.2 หนังสือที่มีราคาถูกจะส่งผลให้ยอดขายหนังสือเพิ่มขึ้นหรือไม่? (ราคา — รีวิว)

Hypothesis: ‘หนังสือที่มีราคาถูก จะดึงดูดให้คนมาซื้อหนังสือมากขึ้น ส่งผลให้ยอดขายหนังสือมากกว่าหนังสือที่มีราคาแพง’

Heat map แสดงความสัมพันธ์ระหว่างจำนวนรีวิวและราคา
Heat map แสดงความสัมพันธ์ระหว่างจำนวนรีวิวและราคา
กราฟแสดงความสัมพันธ์ระหว่างราคาและจำนวนรีวิวของหนังสือ Top 50

จากกราฟจะพบว่าหนังสือที่มีจำนวนรีวิวมาก มักจะมีราคาไม่เกิน 20 เหรียญ ซึ่งสะท้อนให้เห็นว่าหนังสือที่ขายดีส่วนใหญ่แล้วจะมีราคาไม่เกิน 20 เหรียญ

กราฟแสดงความสัมพันธ์ระหว่างช่วงราคาและจำนวนหนังสือ Top 50
ตารางแสดงราคาเฉลี่ยต่อเล่มของหนังสือแต่ละประเภท

จากกราฟนี้สามารถสังเกตุได้ว่าหนังสือทั้งสองประเภทนั้นมักจะมีราคาอยู่ในช่วงไม่เกิน 20 เหรียญ โดยหนังสือประเภท non-fiction จะมีราคาเฉลี่ยอยู่ที่ 14.84 เหรียญ และหนังสือ fiction มีราคาเฉลี่ยที่ 10.85 เหรียญ

สรุป — ราคาและยอดขายของหนังสือมีความสัมพันธ์กัน หนังสือที่มีราคาต่ำจะมียอดขาย(รีวิว)ที่สูงกว่าหนังสือที่มีราคาสูง

3.3 ความยาวของชื่อหนังสือส่งผลให้ยอดขายหนังสือเพิ่มขึ้นหรือไม่ ? (ความยาวชื่อหนังสือ — รีวิว)

Hypothesis: ‘ชื่อหนังสือที่มีความยาวมาก จะดึงดูดให้คนซื้อหนังสือมากกว่าชื่อหนังสือที่มีความยาวสั้น’

กราฟแสดงความสัมพันธ์ระหว่างความยาวชื่อหนังสือและจำนวนหนังสือ

จากกราฟจะเห็นได้ว่าหนังสือส่วนใหญ่แล้วจะมีชื่อยาว 36 ตัวอักษรที่น่าสนใจคืออันดับรองลงมาคือหนังสือที่มีชื่อยาวเพียง 16 ตัวอักษร

Heat map แสดงความสัมพันธ์ระหว่างความยาวชื่อหนังสือและ review

จากกราฟจะเห็นได้ว่าชื่อหนังสือไม่มีความสัมพันธ์กับยอดขายของหนังสือ (รีวิว)

กราฟแสดงความสัมพันธ์ระหว่างความยาวชื่อหนังสือและจำนวนรีวิว

สรุป — ความยาวของชื่อหนังสือไม่มีนัยยะสำคัญกับยอดขายหนังสือ ทั้งนี้ชื่อหนังสือส่วนใหญ่มักมีความยาวในช่วง 18–30 ตัวอักษร

3.4 การที่มีจำนวนรีวิวเยอะส่งผลให้ Rating ดีหรือไม่ ? (เรทติ่ง — รีวิว)

Hypothesis: ‘หนังสือที่มีรีวิวเยอะ มักจะเป็นหนังสือที่มี rating ที่ดี’

Heat map แสดงความสัมพันธ์ระหว่าง rating และ review
กราฟแสดงจำนวนรีวิวและช่วงเรทติ้งของหนังสือ Top 50

จากกราฟจะเห็นได้ว่าโดยเฉลี่ยแล้ว หนังสือที่ติด Top 50 นั้นผู้ซื้อจะให้เรทติ้งตั้งแต่ 3 เป็นต้นไป โดยถ้ามองเป็นช่วงกว้างจะพบว่าโดยเฉลี่ยแล้วหนังสือจะมีเรทติ้งช่วง 4.00–5.00 มากที่สุด

สรุป — จำนวนรีวิวหนังสือมีความสอดคล้องกับเรทติ้งของหนังสือเล็กน้อย โดยส่วนใหญ่หนังสือที่มีการรีวิวมักจะอยู่ในช่วง 4.00–5.00

3.5 ประเภทของหนังสือมีผลต่อยอดขายหนังสือหรือไม่ ? (ประเภท — รีวิว)

Hypothesis: ‘หนังสือประเภท fiction มียอดขายที่ดีกว่าหนังสือประเภท non-ficton

ตารางแสดงจำนวนหนังสือและช่วงจำนวนรีวิวของหนังสือ Top 50
ตารางแสดงค่าเฉลี่ยจำนวนรีวิวหนังสือ Top 50 แต่ละประเภทตลอด 10 ปี

จากกราฟ เมื่อนำมาหาจำนวนรีวิวเฉลี่ยต่อเล่มของหนังสือแต่ละประเภท จะพบว่าหนังสือประเภท fiction นั้นมียอดขาย(รีวิว)เฉลี่ยต่อเล่มที่เยอะกว่าเมื่อเปรียบเทียบกับหนังสือประเภท non-fiction ทั้งๆที่ใน Top 50 มีจำนวนหนังสือประเภท non-fiction มากกว่า

สรุป — ประเภทของหนังสือส่งผลต่อยอดขายของหนังสือ โดยหนังสือประเภท fiction มียอดขายเฉลี่ยมากกว่าหนังสือ non-fiction ประมาณ 73%

3.6 อยากทราบว่าช่วงปีที่ออกหนังสือมีผลต่อยอดขายหนังสือหรือไม่ ? (ช่วงปีที่ได้รางวัล — รีวิว)

Hypothesis: ‘ยิ่งปีเข้าใกล้ปัจจุบัน จะมียอดขายหนังสือมากขึ้น เนื่องจากคนหันมาซื้อหนังสือทางออนไลน์มากขึ้น’

ตารางแสดงจำนวนรีวิวรวมของหนังสือ Top 50 ระหว่างปี 2009–2019

จากกราฟจะเห็นได้ว่าตั้งแต่ช่วงปี 2011 เป็นต้นไป หนังสือที่ติด Top 50 มีจำนวนรีวิวโดยรวมเพิ่มขึ้นอย่างเห็นได้ชัด โดยจากปี 2011 ไปถึง 2014 มีจำนวนรีวิวเพิ่มขึ้นประมาณ 100% แต่หลังจากปี 2014 ถึง ปี 2019 จำนวนรีวิวนั้นขึ้นๆลงๆ แต่เมื่อเทียบกับปี 2011 แล้วถือว่ามีจำนวนรีวิวที่มากกว่ามาก ซึ่งสะท้อนให้เห็นว่าคนหันมาซื้อหนังสือทางออนไลนมากขึ้น

สรุป — แนวโน้มโดยรวมคือคนหันมาซื้อหนังสือออนไลน์มากขึ้นหลังจากปี 2011 แต่ทั้งนี้คาดว่ามีปัจจัยอย่างอื่นร่วมด้วยที่ส่งผลต่อจำนวนรีวิว ซึ่งทำให้มีการแกว่งขึ้นลงของกราฟในช่วงปี 2014–2019

4. ประเภทของหนังสือ

อยากทราบว่าประเภทของหนังสือมีผลต่อราคาหรือไม่ ? (ประเภท — ราคา)

Hypothesis: ‘หนังสือประเภท fiction มีราคาที่แพงกว่าหนังสือประเภท nonfiction’

กราฟแสดงราคาเฉลี่ยของหนังสือในแต่ละปี

จากกราฟจะเห็นได้ว่าทุกปี ยกเว้นปี 2009 หนังสือประเภท fiction จะมีราคาที่สูงกว่าหนังสือประเภท

non-fiction อย่างชัดเจน ซึ่งปี 2009 จะพบว่ามีราคาใกล้เคยกัน เฉลี่ยอยู่ที่ 15 เหรียญ ส่วนปี 2014 พบว่าหนังสือประเภท fiction มีราคาที่สูงกว่าหนังสือ nonfiction ประมาณ 1 เท่าตัว ที่ราคาประมาณ 20 เหรียญและ 10 เหรียญตามลำดับ ซึ่งเมื่อเทียบแต่ละปีแล้วพบว่าหนังสือประเภท fiction ช่วงปี 2009–2014 มีราคาที่เพิ่มสูงขึ้นมาโดยตลอด และหลังจากนั้นก็มีราคาเฉลี่ยลดลง โดยปี 2015–2019 มีราคาเฉลี่ยอยู่ที่ประมาณ 13 เหรียญ ในขณะที่หนังสือ non-fiction มีราคาที่ใกล้เคียงกันในทุกๆปี

กราฟแสดงจำนวนหนังสือในช่วงราคาต่างๆ
ตารางแสดงค่าเฉลี่ยราคาหนังสือ Top 50 แต่ละประเภทตลอด 10 ปี

จากกราฟนี้ก็สามารถสังเกตุได้ว่าหนังสือประเภท non-fiction ทั้ง 10 ปี จะมีราคาเฉลี่ยอยู่ที่ 14.84 เหรียญ และหนังสือ fiction มีราคาเฉลี่ยที่ 10.85 เหรียญ

สรุป — โดยเฉลี่ยแล้วหนังสือประเภท fiction จะมีราคาเฉลี่ยที่สูงกว่าหนังสือประเภท non-fiction

5. ปัจจัยในการตัดสินใจออกหนังสือใหม่

อยากทราบว่าจำนวนรีวิวและเรทติ้งมีผลต่อการตัดสินใจของ JK rowling ในการออกหนังสือใหม่หรือไม่ ?

Hypothesis: ‘ถ้าหนังสือเล่มก่อนหน้าได้รับการตอบรับที่ดี ทั้งจากรีวิวและเรทติ้ง จะส่งผลให้ผู้แต่งออกหนังสือเล่มใหม่’

ตารางแสดงจำนวนรีวิวหนังสือแต่ละเล่มของ J.k. rowling ที่ติด Top 50

จากการยกตัวอย่างนักเขียน J.K. rowling เพื่อนำมาทดสอบปัจจัยในการออกหนังสือว่าขึ้นอยู่กับเรทติ้งและรีวิวของหนังสือเล่มก่อนหน้าหรือไม่ ทั้งนี้ผลจากการวิเคราะห์พบว่า ในช่วงปี2016หนังสือของ J.K.Rowling ได้รับความนิยมและมียอดขายที่เยอะ(รีวิว) และพบว่าในช่วงปี 2016 นักเขียนมีหนังสือจำนวนมากที่มีรีวิวเยอะ แต่หลังจากปีที่ 2017 หนังสือมียอดขาย(รีวิว)ที่น้อยลง และพบว่าในปี 2018 นักเขียนไม่ได้แต่งหนังสือออกมาก

ทั้งนี้ทางทีมพบว่าในการใช้ J.K. rowling เพื่อมาทดสอบสมมติฐานนี้ อาจจะได้คำตอบที่ไม่ถูกต้อง เนื่องจากหนังสือ Harry potter และ Fantastic Beasts ทั้งคู่ได้มีการทำออกมาเป็นภาพยนตร์ชุด ซึ่งเป็นปัจจัยหนึ่งที่ทำให้ยอดขายหนังสือเพิ่มขึ้น นอกจากนี้หนังสือของ J.K. rowling ที่ขายดีช่วงปี 2016 ก็เป็นหนังสือที่นำออกมาตีพิมพ์ซ้ำ ไม่ได้เกิดจากการแต่งขึ้นใหม่ ดังนั้นจึงไม่สามารถสรุปได้แน่ชัดว่าเรทติ้งและรีวิวมีผลต่อการออกหนังสือเล่มใหม่ของนักเขียน J.K. rowling หรือไม่

สรุป — ไม่สามารถสรุปได้แน่ชัดว่าเรทติ้งและรีวิวมีผลต่อการออกหนังสือเล่มใหม่ของนักเขียน J.K. rowling หรือไม่ เนื่องจากมีปัจจัยทางด้านภาพยนตร์มาประกอบด้วย

6. คำที่ใช้แต่งชื่อหนังสือ

อยากทราบว่าสำนักพิมพ์/ผู้แต่ง มักใช้คำไหนในการตั้งชื่อหนังสือ

Hypothesis: ‘ชื่อหนังสือมักจะมีคำว่า Life ประกอบอยู่’

Word cloud แสดงคำที่พบในชื่อหนังสือ

จากการทำ word cloud พบว่าคำที่เด่นออกมามักเป็นชื่อหนังสือไปเลย เช่น fifty shades และ Diary wimpy เป็นต้น เนื่องจากเป็นหนังสือชุดจึงทำให้มีชื่อที่ซ้ำกันในฐานข้อมูล แต่สำหรับคำที่ไม่ใช่ชื่อเฉพาะของหนังสือ มักพบคำว่า Life Girl Guide Man และ Kid กลุ่มคำพวกนี้มักพบบ่อยอยู่ในชื่อหนังสือ

5. สรุปผล (Conclusion)

จากการทำ Data Analytics พบว่าปัจจุบันนี้ ผู้อ่านหันมาซื้อหนังสือผ่านช่องทางออนไลน์มากขึ้น โดยอ้างอิงจากข้อมูลจำนวนรีวิวหนังสือตั้งแต่ปี 2009–2019 ที่มีการเติบโตเพิ่มขึ้นอย่างสม่ำเสมอ จากข้อมูล 550 รายการ ตั้งแต่ปี 2009–2019 ที่ได้ทำ การวิเคราะห์ออกมานั้น พบว่าจำนวนประเภทหนังสือที่ขายดีบนเว็บไซต์อเมซอน คือหนังสือประเภท Non-fiction เพราะมีจำนวนที่ติดอันดับ Top 50 ของหนังสือมากกว่าหนังสือ Fiction แต่ในทางกลับกัน หนังสือประเภท Fiction มีจำนวนรีวิวที่มากกว่า ซึ่งสะท้อนให้เห็นว่า หนังสือประเภท Fiction ติดอันดับต้นๆของหนังสือขายดีในช่วง10ปีที่ผ่านมา ส่วนหนังสือประเภท Non-Fiction ติดอันดับท้ายๆของหนังสือขายดี ถ้าหากว่าเมื่อนับตามจำนวนหนังสือที่ติดอันดับ Top 50 แล้วหนังสือประเภท Non-Fiction นั้นมีจำนวนติดอันดับที่มากกว่าอยู่ดี

จากข้อมูลที่ได้ทำการวิเคราะห์นั้น ยังพบว่าราคา เป็นอีกปัจจัยหนึ่งที่ทำให้ ผู้อ่านหันมาอ่านหนังสือประเภท Fiction มากกว่า Non-fiction เนื่องจากหนังสือประเภท Fiction มีราคาถูกกว่า และหนังสือ Fiction ส่วนมากมักเป็นหนังสือ ประเภท นวนิยาย เรื่องแต่ง เรื่องสั้น ที่เน้นให้ความบันเทิงแก่ผู้อ่าน ซึ่งผู้อ่านส่วนใหญ่อาจเน้นอ่านเพื่อผ่อนคลาย คลายเครียด จากเรื่องต่างๆ ที่เจอมาในชีวิตประจำวัน ส่วนหนังสือ Non-Fiction จากข้อมูลพบว่า มีผู้อ่านน้อยกว่าหนังสือ Fiction อยู่ 73 % และมีราคาสูงกว่า หนังสือ Fiction อยู่ 40 % โดยหนังสือ Non-Fiction ส่วนมากมักเป็น หนังสือสารคดี หนังสือชีวประวัติ หนังสือสอบ ฯลฯ ซึ่งอาจมีต้นทุนการผลิตหนังสือที่สูงกว่าหนังสือประเภท Fiction นอกจากนี้ยังพบว่าข้อมูลจำนวนรีวิวหนังสือมีความสัมพันธ์ต่อยอดขายหนังสือบนเว็บไซต์อเมซอน ซึ่งจำนวนการรีวิวหนังสือที่มากก็สะท้อนให้เห็นว่าหนังสือเล่มนั้นมียอดขายสัมพัทธ์บนเว็บไซต์อเมซอนที่สูง

ทางทีมหวังว่าการวิเคราะห์ข้อมูลครั้งนี้จะเป็นประโยชน์แก่ นักเขียน สำนักพิมพ์ ร้านขายหนังสือออนไลน์ เพื่อใช้ประโยชน์ในการทำการตลาดต่อไปในอนาคต

--

--