Fraud Detection : EP 4 บทสรุปการแข่งขันจับคนโกงบัตรเครดิต

Phiratath Nopratanawong
SiamFriends
Published in
2 min readOct 26, 2019

บทปิดท้ายของการแข่งขันโจทย์ Fraud Detection กับ Data Scientist ทั่วโลก

สุดท้ายเมื่อผลได้ประกาศออกมาว่าทีมของผมได้อันดับที่ 244 ตกมาเพียง 36 อันดับ แต่คะแนนของโมเดลที่ดีที่สุดของผมจะอยู่อันดับที่ 101 เพียงแต่ไม่ได้เลือกส่งผลจากโมเดลนั้นไป

อันดับที่มีการเพิ่มขึ้นอย่างมากของแต่ละทีมเนื่องจาก over-fitting ของผู้เข้าแข่งขันอันดับต้นๆ

หลังจากเข้าแข่งขันมา 2 เดือนทำให้ผมได้ตกผลึกความรู้ต่าง ๆ ที่ได้รับจากการทำงานและจากการแข่งขันทั้งหลักการทำ Feature Engineering และ Feature Selection รวมไปถึง Model ใหม่ ๆ อย่าง Catboost ซึ่งการแข่ง kaggle นั้นจะช่วยให้เราสามารถทำการ Validate ตัวเองกับ Data Scientist คนอื่น ๆ ว่าตอนนี้ เขาไปถึงไหนกันแล้วหรือแม้แต่สิ่งต่าง ๆ ที่เราทำมาในการทำงานทั้งหลายนั้นถูกต้องหรือไม่ดีพอหรือไม่ซึ่งสิ่งเหล่านี้เราจะเรียนรู้ด้วยตัวเองได้ยากมากและใช้เวลานาน

ส่วนด้าน Code ที่ผมใช้ EDA, Preprocessing และ modeling ล้วนเกิดจากแนวทางของ Notebook ที่แต่ละคนแชร์ในการแข่งขันซะส่วนใหญ่ มีเพียง feature engineering ที่ผมคิดขึ้นเองและทำเอง ดังนั้นสำหรับคนที่กลัวการแข่ง kaggle เพราะ coding ไม่แข็งหรือ coding ไม่เป็น ผมแนะนำให้เรียนแค่ Python คราว ๆ พอให้อ่าน code คนอื่นรู้เรื่อง เพราะส่วนใหญ่ Data science จะใช้ความคิดสร้างสรรค์ การตั้งสมมติฐาน และการทำการทดลองเหมือนที่ผมเคยกล่าวไว้ในบทแรก ๆ เพียงเท่านี้ก็เพียงพอสำหรับการแข่ง kaggle แล้ว

หากรู้จัก pandas, sklearn และ numpy แล้ว การแข่งขันโจทย์ Data Science ก็ไม่ใช่เรื่องยาก

สถิติผู้เข้าร่วมการแข่งขัน kaggle

การแข่งขันโจทย์ผ่าน kaggle ในไทยนั้นยังไม่ได้แพร่หลายมากนักทั้ง ๆ ที่ในไทยมี Data Scientist เก่ง ๆ อยู่เยอะมาก ผมเลยจะมาแสดงสถิติคราว ๆ ของ kaggle ให้ดู

สถิติ Ranked User ในไทยและประเทศเพื่อนบ้าน

ในไทยนั้นมี Ranked kaggle หรือผู้เข้าแข่งขันแล้วได้รับเหรียญอย่างน้อย 2 เหรียญ อยู่เพียง 5 คนเท่านั้น ซึ่งถ้าเทียบกับประเทศเพื่อนบ้านอย่างเวียดนามซึ่งมีถึง 34 คน อาจแสดงให้เห็นว่าในไทยยังไม่ได้ตื่นตัวเรื่อง Data Science มากเท่าเวียดนามก็เป็นได้

สำหรับคนที่อยากเป็น Data Scientist การแข่ง kaggle สักหนึ่งรายการอย่างจริงจังน่าจะเป็นสิ่งที่สร้างประสบการณ์และวัดว่าตัวเองเหมาะสมกับสายงาน Data Science ไหมได้เป็นอย่างดีเพราะจะได้ทั้งความรู้ การวาง Process งาน วัดและประเมินผลได้ด้วยตัวคนเดียวซึ่งกระบวนการเหล่านี้ไม่แตกต่างจากโลกความเป็นจริงมากนัก

งานแข่งขัน Data Science ของคนไทย

นอกจาก kaggle ที่เป็นเว็บไซด์สำหรับการแข่งขันโจทย์ Data Science แล้ว ในไทยเราเองก็มีการจัดการแข่งขันอยู่หลายงาน โดยส่วนใหญ่จะเป็นลักษณะของ Hackathon ที่ให้ผู้เข้าแข่งขันมาหน้างานเพื่อรับโจทย์และทำให้เสร็จภายในเวลาที่กำหนด

ตัวอย่างงานแข่งขันที่ผมหรือคนรู้จักเคยเข้าร่วมได้แก่

ซึ่งงานเหล่านี้ เนื่องจากเวลาอันสั้นอาจจะไม่ได้มี session สำหรับการแลกเปลี่ยนและแบ่งปันสิ่งที่ได้เรียนรู้มากเท่ากับการอ่านและแชร์ notebook ใน kaggle แต่งานเหล่านี้จะเปิดโอกาสให้ผู้ที่สนใจ Data Science เหมือนๆกัน ได้มาพบปะและพูดคุยกันแบบตัวเป็นๆ ซึ่งเป็นสิ่งที่หาไม่ได้ใน platform ออนไลน์อย่าง kaggle นั่นเอง

หากใครอ่านมาถึงตรงนี้แล้วเริ่มรู้สึกอยากลองแข่งขันเพื่อพิสูจน์ความสามารถทางด้าน Data Science หรืออยากมาพบเพื่อนใหม่ที่สนใจใน Data Science เหมือนๆกัน พวกผมก็ขอแนะนำให้ลองสมัครเข้าร่วมการแข่งขัน Techjam 2019 ที่กำลังเปิดรับสมัครถึง 11 พฤศจิกายนนี้ละกันครับ เนื่องจากชอบความชิลของออฟฟิศ KBTG เป็นการส่วนตัว ฮ่าๆ

techjam พิเศษกว่า data science hackathon ที่อื่น เนื่องจากเป็นการแข่งขันที่รวม hackathon สามสายมาไว้ที่งานเดียว ไม่ว่าจะเป็น code, design และ data science

สุดท้ายนี้อยากให้ทุกคนเข้ามาลองแข่งขันกันเยอะๆครับ ไม่ว่าจะใน kaggle หรือในงาน hackathon ต่างๆ อย่าไปกลัวว่าเราจะไม่ได้รางวัล เพราะต่อให้เราไม่ได้รางวัล แต่อย่างน้อยก็จะได้บทเรียนกลับไปปรับปรุงการทำงานของเราแน่นอนครับ

Fail fast; learn faster

--

--