Weight of Evidence และ Information Value

NUTHDANAI WANGPRATHAM
QUANT I LOVE U
Published in
2 min readNov 20, 2022

ผมเคยเขียนการเลือก Feature เพื่อนำเข้า Model กันไปแล้ว ใครที่สนใจลองตามไปอ่านกันได้เลย ในบทความนั้นผมมีการใช้วิธีหนึ่งในการเลือก Feature คือ Weight of Evidence และ Information Value มีคำถามเข้ามาหลังไมล์ว่ามันคืออะไรและใช้ยังไงวันนี้เราจะมาขยายความกัน

Weight of Evidence คืออะไร

Weight of Evidence คือความน่าจะเป็นของสองเหตุการณ์ที่จะเกิดหรือไม่เกิดเหตุการณ์ Weight of Evidence จะบอกเราถึงพลังการทำนายของตัวแปรอิสระที่สัมพันธ์กับตัวแปรตาม โดยค่า WoE จะแยกมาแต่ละประเภทของตัวแปร เพื่อให้เข้าใจมากขึ้นสมมติว่าตัวแปร x คือเพศ WoE จะแยกกันระหว่างเพศหญิงและเพศชาย

โดย Weight of Evidence วิวัฒนาการมาจากโลกของการให้คะแนนเครดิต จึงมักถูกอธิบายว่าเป็นตัวชี้วัดการแยกลูกค้าที่ดีและไม่ดีออกจากกัน “ลูกค้าไม่ดี” หมายถึงลูกค้าที่ผิดนัดเงินกู้ และ “ลูกค้าดี” หมายถึง ลูกค้าที่ชำระคืนเงินกู้โดยมีสมการดังนี้

จากสมการแม้ Weight of Evidence จะเหมือนใช้เฉพาะกับตัวแปรที่เป็นกลุ่ม (catagory) เท่านั้นแต่เราสามารถใช้เทคนิคการแบ่งช่วงเพื่อทำนาย WoE ของข้อมูลแบบต่อเนื่องได้ และใช้กันมากในางการเงินเช่นในช่วงก่อนตลาดหุ้นจะตกอย่างรุนแรงปริมาณการซื้อขายมักอยู่ในระดับสูงมาก

Weight of Evidence บอกถึงพลังในการทำนายของคุณลักษณะเดียวที่เกี่ยวข้องกับคุณลักษณะที่เป็นอิสระของมัน หากหมวดหมู่/ช่องรายการใดของฟีเจอร์มีสัดส่วนของเหตุการณ์ที่มากเมื่อเทียบกับสัดส่วนของเหตุการณ์ที่ไม่ใช่ เราจะได้รับค่า WoE ที่สูงซึ่งจะบอกว่าคลาสของฟีเจอร์นั้นแยกเหตุการณ์ออกจากเหตุการณ์ที่ไม่ใช่เหตุการณ์ .

ตัวอย่างเช่น พิจารณาหมวดหมู่ C ของฟีเจอร์ X ในตัวอย่างข้างต้น สัดส่วนของเหตุการณ์ (0.16) นั้นน้อยมากเมื่อเทียบกับสัดส่วนของเหตุการณ์ที่ไม่ใช่ (0.37) นี่หมายความว่าหากค่าของคุณลักษณะ X เป็น C มีแนวโน้มว่าค่าเป้าหมายจะเป็น 0 (ไม่ใช่เหตุการณ์) ค่า WoE เป็นเพียงการบอกเราว่าเรามั่นใจเพียงใดว่าคุณลักษณะนี้จะช่วยทำนายความน่าจะเป็นของเหตุการณ์ได้อย่างถูกต้อง

ประโยชน์ของ WoE

  1. ค่า WoE สำหรับประเภทต่างๆ ของตัวแปรเชิงหมวดหมู่สามารถใช้เพื่อระบุคุณลักษณะเชิงหมวดหมู่และแปลงเป็นคุณลักษณะเชิงตัวเลข เนื่องจากแบบจำลองการถดถอยโลจิสติกต้องการให้คุณลักษณะทั้งหมดเป็นตัวเลข จากการตรวจสอบสูตรของ WoE และสมการการถดถอยโลจิสติกอย่างละเอียดเพื่อแก้ไข เราจะเห็นว่า WoE ของคุณลักษณะมีความสัมพันธ์เชิงเส้นตรงกับอัตราต่อรองของล็อก สิ่งนี้ทำให้มั่นใจได้ว่าข้อกำหนดของคุณสมบัติที่มีความสัมพันธ์เชิงเส้นตรงกับอัตราเดิมพันบันทึกนั้นเป็นไปตามข้อกำหนด
  2. ด้วยเหตุผลเดียวกับข้างต้น หากคุณสมบัติต่อเนื่องไม่มีความสัมพันธ์เชิงเส้นกับอัตราเดิมพันบันทึก คุณสมบัตินี้สามารถรวมเข้าด้วยกันเป็นกลุ่ม และคุณสมบัติใหม่ที่สร้างขึ้นโดยแทนที่แต่ละช่องด้วยค่า WoE จะสามารถใช้แทนค่า คุณสมบัติเดิม ดังนั้น WoE เป็นวิธีการแปลงตัวแปรที่ดีสำหรับการถดถอยโลจิสติก
  3. ในการจัดเรียงคุณลักษณะเชิงตัวเลขโดยเรียงลำดับจากน้อยไปมาก หากค่า WoE เป็นเชิงเส้นทั้งหมด เราทราบว่าคุณลักษณะนั้นมีความสัมพันธ์เชิงเส้นที่ถูกต้องกับเป้าหมาย อย่างไรก็ตาม หากคุณลักษณะของ WoE ไม่เป็นเชิงเส้น เราควรเลิกใช้หรือ พิจารณาการแปลงตัวแปรอื่น ๆ เพื่อให้แน่ใจว่าเป็นเชิงเส้น ดังนั้น WoE จึงให้เครื่องมือแก่เราในการตรวจสอบความสัมพันธ์เชิงเส้นกับคุณลักษณะที่ขึ้นต่อกัน
  4. WoE ดีกว่าการเข้ารหัสแบบ one-hot เนื่องจากการเข้ารหัสแบบ one-hot จะทำให้คุณต้องสร้างคุณสมบัติใหม่ h-1 เพื่อรองรับคุณสมบัติหมวดหมู่เดียวที่มีหมวดหมู่ h นี่หมายความว่าแบบจำลองจะไม่ต้องทำนายค่าสัมประสิทธิ์ h-1 (bi) แทนที่จะเป็น 1 อย่างไรก็ตาม ในการแปลงตัวแปร WoE เราจะต้องคำนวณค่าสัมประสิทธิ์เดียวสำหรับคุณลักษณะในการพิจารณา

Information Value คืออะไร

IV คือ ความสามารถในการอธิบายผลตัวแปรตามของตัวแปรที่เราระบุ

ส่งท้าย

จะเห็นได้ว่า WoE และ IV มีประโยชน์และช่วยให้เราวิเคราะห์ ตรวจสอบความสัมพันธ์เชิงเส้นของคุณลักษณะกับFeatureที่ขึ้นต่อกันที่จะใช้ในแบบจำลอง IV เป็นตัววัดที่ดีของพลังการคาดเดาของฟีเจอร์ และยังช่วยชี้ให้เห็นฟีเจอร์ที่น่าสงสัย

แม้ว่า WoE และ IV จะมีประโยชน์อย่างมาก แต่โดยปกติจะเหมาะปัญหา Classification และ ค่า IV อาจไม่ใช่Featureที่ดีที่สุดสำหรับการสร้างแบบจำลองที่ไม่ใช่เชิงเส้น

อ้างอิง

--

--

NUTHDANAI WANGPRATHAM
QUANT I LOVE U

I am a learner and have a multipotential life. You can contact me at nutdnuy@gmail.com