TOPIC : Default of credit card (DSEs_G14)

DSEs_G14
botnoi-classroom
Published in
4 min readAug 15, 2020

Team member : DSEs_G14 Line group Member

Objective : บทความนี้เป็นส่วนหนึ่งของ Data Science Essential ของ Botnoi Classroom หัวข้อ Data Analytic

1.การเก็บข้อมูล

https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients

X1:วงเงินของบัตร
X2:เพศ (1=ผู้ชาย, 2=ผู้หญิง)
X3:การศึกษา (1=ป.เอก ป.โท, 2=ป.ตรี, 3=มัธยม, 4=อื่นๆ)
X4:สถานะ (1=แต่งงาน, 2=โสด, 3=อื่นๆ)
X5:อายุ
X6:ประวัติการชำระเงินที่ผ่านมา ของเดือนกันยายน 2005
X7:ประวัติการชำระเงินที่ผ่านมา ของเดือนสิงหาคม 2005
X8:ประวัติการชำระเงินที่ผ่านมา ของเดือนกรกฎาคม 2005
X9:ประวัติการชำระเงินที่ผ่านมา ของเดือนมิถุนายน 2005
X10:ประวัติการชำระเงินที่ผ่านมา ของเดือนพฤษภาคม 2005
X11:ประวัติการชำระเงินที่ผ่านมา ของเดือนเมษายน 2005
(ค่าที่ใช้ใน X6-X11
-1 = จ่ายตรงกำหนด
1 = ชำระเงินล่าช้า 1 เดือน
2 = ชำระเงินล่าช้า 2 เดือน
3 = ชำระเงินล่าช้า 3 เดือน
4 = ชำระเงินล่าช้า 4 เดือน
5 = ชำระเงินล่าช้า 5 เดือน
6 = ชำระเงินล่าช้า 6 เดือน
7 = ชำระเงินล่าช้า 7 เดือน
8 = ชำระเงินล่าช้า 8 เดือน
9 = ชำระเงินล่าช้า 9 เดือนขึ้นไป)

X12:ยอดที่ต้องชำระของเดือนกันยายน 2005 (หน่วยเงินเป็น NT dollar — New Taiwan dollar)
X13:ยอดที่ต้องชำระของเดือนสิงหาคม 2005 (หน่วยเงินเป็น NT dollar — New Taiwan dollar)
X14:ยอดที่ต้องชำระของเดือนกรกฎาคม 2005 (หน่วยเงินเป็น NT dollar — New Taiwan dollar)
X15:ยอดที่ต้องชำระของเดือนมิถุนายน 2005 (หน่วยเงินเป็น NT dollar — New Taiwan dollar)
X16:ยอดที่ต้องชำระของเดือนพฤษภาคม 2005 (หน่วยเงินเป็น NT dollar — New Taiwan dollar)
X17:ยอดที่ต้องชำระของเดือนเมษายน 2005 (หน่วยเงินเป็น NT dollar — New Taiwan dollar)

X18:จำนวนเงินที่ชำระของเดือนกันยายน 2005 (หน่วยเงินเป็น NT dollar — New Taiwan dollar)
X19:จำนวนเงินที่ชำระของเดือนสิงหาคม 2005 (หน่วยเงินเป็น NT dollar — New Taiwan dollar)
X20:จำนวนเงินที่ชำระของเดือนกรกฎาคม 2005 (หน่วยเงินเป็น NT dollar — New Taiwan dollar)
X21:จำนวนเงินที่ชำระของเดือนมิถุนายน 2005 (หน่วยเงินเป็น NT dollar — New Taiwan dollar)
X22:จำนวนเงินที่ชำระของเดือนพฤษภาคม 2005 (หน่วยเงินเป็น NT dollar — New Taiwan dollar)
X23:จำนวนเงินที่ชำระของเดือนเมษายน 2005 (หน่วยเงินเป็น NT dollar — New Taiwan dollar)

2.การตั้งคำถาม ตั้งสมมติฐาน ตั้งเป้าหมายของการวิเคราะห์

2.1 ตั้งคำถาม

  • กลุ่มไหนที่ได้รับ วงเงินเยอะ และวงเงินเฉลี่ยคือเท่าไหร่
  • กลุ่มไหนที่มีโอกาสไม่ชำระเงินในเดือนหน้า และเฉลี่ยที่เท่าไหร่

2.2 ตั้งสมมติฐาน

  • อายุ, เพศ, การศึกษา และประวัติการชำระเงิน มีผลต่อโอกาสการไม่ชำระเงินเดือนหน้า

3.การสร้างฐานข้อมูลเพื่อการวิเคราะห์ (Data Mart)

3.1 ภาพรวมของลูกค้าบัตรเครดิต

  • Credit Balance

ลูกค้าส่วนใหญ่มีวงเงินอยู่ที่ 10,000–50,000 (25%) และ วงเงิน 10,000–250,000 เป็นสัดส่วนที่มีมากถึง 85%

  • Sex

ลูกค้าส่วนใหญ่เป็นเพศหญิงมากกว่าเพศชาย

  • Education

โดยในการจัดทำข้อมูลมีการให้ข้อมูลเป็น 0,5,6 จึงได้ทำการจัดเรียงเข้าเป็น 4(Other)

ลูกค้าส่วนใหญ่มีการศึกษาในระดับมหาวิทยาลัยและปริญญาโท

  • Marriage

โดยในการจัดทำข้อมูลมีการให้ข้อมูลเป็น 0 จึงได้ทำการจัดเรียงเข้าเป็น 3(Other)

ลูกค้าที่แต่งงานแล้วน้อยกว่ายังไม่แต่งงาน

  • Age

กลุ่มลูกค้าอายุ 26–40 มีมากถึง 60% และกลุ่มอายุ 21–45 มีมากถึง 85%

3.2 วงเงินบัตรเครดิต

  • Sex

เพศชายและหญิงได้รับวงเงินเฉลี่ย พอๆ กัน เพศจึงไม่มีผลต่อการให้วงเงิน

  • Education

จากตารางพบว่าการศึกษาในระดับที่สูงกว่ามีแนวโน้มที่จะได้วงเงินมากกว่า

  • Marriage

ลูกค้ากลุ่มที่แต่งงานแล้ว มีวงเงินมากกว่ายังไม่ได้แต่งงาน อย่างไรก็ตามการแต่งงานก็เป็นสถานะทางสังคงที่ต้องพิจารณาอายุด้วย จึงต้องเพิ่มการวิเคราะห์อายุและการแต่งงาน

  • Age

กลุ่มลูกค้าอายุ 2o -35 มีแน้วโน้มจะได้วงเงินสูงขึ้น แล้วหลังจาก 35 ก็มีแนวโน้มลดลง

  • Age X Marriage (อยากรู้เพิ่มเติม)

จากตารางจะพบว่า ยิ่งลูกค้ามีอายุมากขึ้น ยิ่งมีโอกาสแต่งงานมากขึ้น การวิเคราะห์อาจต้องพิจารณาเรื่องภาวะร่วมของตัวแปรในตัวแบบเส้นตรง(Multicollinearity)

3.3 โอกาสที่จะไม่จ่ายเงินในเดือนหน้า

พิจารณาโดยภาพรวมทั้ง DataSet พบว่ามีโอกาสไม่จ่าย 22.12%

  • Limit Balance

พบว่าวงเงินที่น้อยกว่า 100K จะมีโอกาสไม่จ่ายในเดือนหน้าสูงกว่าค่าเฉลี่ยของข้อมูล

  • Sex

พบว่าลูกค้าเพศชาย มีโอกาสไม่จ่ายเงินในเดือนหน้าสูงกว่าเพศหญิง และมีค่าสูงกว่าค่าเฉลี่ย

  • Education

พบว่าลูกค้าที่มีการศึกษาสูง มีโอกาสที่จะไม่จ่ายเงินในเดือนหน้าน้อยกว่า และคนที่มีการศึกษาในระดับปริญาโท จะมีโอกาสไม่จ่ายในเดือนหน้าน้อยกว่าค่าเฉลี่ย

  • Marriage

พบว่าลูกค้าที่แต่งงานแล้วมีโอกาสที่จะไม่จ่ายเงินในเดือนหน้าสูงกว่าค่าเฉลี่ย

  • Age

กลุ่มลูกค้าที่มีอายุน้อยกว่า 25 มีโอกาสสูงกว่าค่าเฉลี่ยที่จะไม่จ่ายเงินในเดือนหน้า (อาจเป็นเพราะฐานเงินเดือนยังไม่สูงพอ) และกลุ่มลูกค้าที่มีอายุ 45 เป็นต้นไปมีโอกาสในการจ่ายเงินในเดือนหน้าน้อยกว่าค่าเฉลี่ย (อาจเป็นเพราะงานยุ่งจนไม่มีเวลาจ่ายบัตรเครดิต -> พัฒนาอะไรบางอย่างเพื่อช่วงคนกลุ่มนี้ เพราะเป็นกลุ่มที่มีเงิน)

  • Pay_0 (เทียบว่ามีการจ่ายหรือไม่จ่ายในเดือนที่แล้ว)

พบว่าในกรณีที่มีการจ่ายเงิน มีโอกาสไม่จ่ายเงินในเดือนหน้าน้อยกว่าค่าเฉลี่ย ในทางตรงกันข้ามถ้าพบว่าไม่มีการจ่าย จะมีโอกาสในการไม่จ่ายเงินในเดือนหน้าสูงมากกก

  • Pay_2 (เทียบว่ามีการจ่ายหรือไม่จ่ายใน 2 เดือนที่แล้ว)

พบว่าในกรณีที่มีการจ่ายเงิน มีโอกาสไม่จ่ายเงินในเดือนหน้าน้อยกว่าค่าเฉลี่ย ในทางตรงกันข้ามถ้าพบว่าไม่มีการจ่าย จะมีโอกาสในการไม่จ่ายเงินในเดือนหน้าสูงมากกก

  • Pay_3 (เทียบว่ามีการจ่ายหรือไม่จ่ายใน 3 เดือนที่แล้ว)

พบว่าในกรณีที่มีการจ่ายเงิน มีโอกาสไม่จ่ายเงินในเดือนหน้าน้อยกว่าค่าเฉลี่ย ในทางตรงกันข้ามถ้าพบว่าไม่มีการจ่าย จะมีโอกาสในการไม่จ่ายเงินในเดือนหน้าสูงมากกก

  • Pay_4 (เทียบว่ามีการจ่ายหรือไม่จ่ายใน 4 เดือนที่แล้ว)

พบว่าในกรณีที่มีการจ่ายเงิน มีโอกาสไม่จ่ายเงินในเดือนหน้าน้อยกว่าค่าเฉลี่ย ในทางตรงกันข้ามถ้าพบว่าไม่มีการจ่าย จะมีโอกาสในการไม่จ่ายเงินในเดือนหน้าสูงมากกก

  • Pay_5 (เทียบว่ามีการจ่ายหรือไม่จ่ายใน 5 เดือนที่แล้ว)

พบว่าในกรณีที่มีการจ่ายเงิน มีโอกาสไม่จ่ายเงินในเดือนหน้าน้อยกว่าค่าเฉลี่ย ในทางตรงกันข้ามถ้าพบว่าไม่มีการจ่าย จะมีโอกาสในการไม่จ่ายเงินในเดือนหน้าสูงมากกก

  • Pay_6 (เทียบว่ามีการจ่ายหรือไม่จ่ายใน 6 เดือนที่แล้ว)

พบว่าในกรณีที่มีการจ่ายเงิน มีโอกาสไม่จ่ายเงินในเดือนหน้าน้อยกว่าค่าเฉลี่ย ในทางตรงกันข้ามถ้าพบว่าไม่มีการจ่าย จะมีโอกาสในการไม่จ่ายเงินในเดือนหน้าสูงมากกก

***จุดที่น่าสนใจของข้อมูลการจ่ายเงินของลูกค้าในหลายๆ เดือนที่ผ่านมาคือ เมื่อไรก็ตามที่เกิดการไม่จ่ายเงิน จะมีโอกาสสูงมากๆ ที่จะไม่มีการจ่ายเงินในเดือนหน้า และพบว่า “คนที่จ่ายเงินใน 6 เดือนที่แล้ว” มีโอกาสไม่จ่ายเงินในเดือนหน้าสูงกว่า “คนที่จ่ายเงินใน 2 เดือนที่แล้ว” บริษัทจึงไม่ควรละเลย หรือเพิกเฉย ต่อการเกิด Default ซึ่งจะมีผลโดยตรงต่อการเกิด Default ต่อๆกันไปเหมือนเป็นปฏิกิริยาลูกโซ่

การที่บริษัทสามารถพยากรณ์การเกิด Default จึงเป็นความได้เปรียบในเชิงการแข่งขัน ในธุรกิจบัตรเครดิต ทางผู้เขียนจึงได้ทำการศึกษาต่อจนพบว่า วิธีการพยากรณ์ที่เหมาะสมในกรณีนี้ ควรเลือกใช้วิธีแบบ Logistic Regression ที่มีรูปแบบสมการตามนี้

จึงได้ทำการใช้โปรแกรม SPSS เพื่อสร้างแบบจำลองขึ้นมา และทำการปรับตัวแปร และสร้าง Dummy Variable เพื่อให้สามารถทำแบบจำลองได้ และได้ผลดังต่อไปนี้

จาก Confuse Matrix พบว่าโมเดล มีความแม่นยำมากถึง 80% (เทียบกับการเดาว่าไม่เกิด Default เลย จะมีความแม่นยำที่ 77.88%) และได้สมการว่า

logit(π) = -2.781–0.152(Female)+[0.985(Graduate)+1.136(University)+1.167(HighSchool)]-0.119(Single)+[1.373(NotPay1)+0.818(NotPay2)]

โดยพิจารณาจากค่าสัมประสิทธิ์ขอโมเดล Logistic Regression จะพบว่า “ระดับการศึกษา” และ “การไม่จ่ายในเดือนที่ 1 และ เดือนที่ 2” ส่งผลต่อโอกาสที่จะเกิด Default ในเดือนถัดไป ซึ่งสอดคล้องกับการวิเคราะห์ข้อมูลข้างต้น

อย่างไรก็ตาม ผู้วิเคราะห์ยังถือว่าไม่มีประสบการณ์ในวงการการวิเคราะห์ข้อมูล จึงขอให้ผู้อ่านใช้วิจารณญาณ ในการอ่านและการวิเคราะห์ข้อมูล

ขอขอบคุณครับ
DSEs_G14

Colab Link
https://colab.research.google.com/drive/1Zm-hJLs8PGvn8xEL2ob1dmyVr-kziKuY?usp=sharing#scrollTo=Kv8soPkEG3Fu

--

--