ທິດສະດີ Machine Learning : Generalization [ Machine Learning Crash Course ]
ຄຳວ່າ Generalization ໃນດ້ານ Machine Learning ມີຄວາມໝາຍວ່າ: ເປັນຄວາມສາມາດຂອງ Model ທີ່ຈະປັບຕົວໃຫ້ເຂົ້າກັບຂໍ້ມູນແບບໃຫມ່ທີ່ມາຈາກການແຈກຢາຍອັນດຽວ ( Distribution ) ກັນ, ເປັນການແຈກຢາຍທີ່ຖືກໃຊ້ເພື່ອສ້າງ Model ນັ້ນໆ.
ຖ້າບໍ່ມີການປັບໂຕ ມັນຈະເກີດ Overfitting ( Model ດີເກີນໄປ )

Peril of Overfitting: ຜົນເສຍຂອງ Overfitting
- Overfit: ແມ່ນການເຮັດໃຫ້ Model ມີຄວາມຊັບຊ້ອນເກີນໄປ, ຖືກຕ້ອງເກີນໄປ ຫຼື ດີໂພດ, ມັນມີຄ່າ Loss ກໍຈິງ ແຕ່ມັນກໍດີແຕ່ຂໍ້ມູນຊຸດເກົ່າ ສະນັ້ນ, ເພື່ອເຮົາໄປ Predict ຂໍ້ມູນຊຸດໃຫມ່ກໍເກີດຂໍ້ຜິດພາດສູງ.
ຕົວຢ່າງເຮົາມີ ຂໍ້ມູນເມັດສີຟ້າ ແລະເມັດສີແດງຕາມຮູບ, ເຊິ່ງເຮົາຢາກແຍກຫມວດຫມູ່ສອງເມັດສີນີ້.

ຂໍ້ສັງເກດ :
ເສັ້ນສີດຳ: ເປັນ Model ທີເບິ່ງແລ້ວ ສາມາດແຍກສີແດງ ແລະສີດຳໄດ້ ແຕ່ກໍມີ Noise ຢູ່ໜ້ອຍໜຶ່ງ (Noise ແມ່ນຈຸດທີ່ຢູ່ບໍ່ຖືກບ່ອນ ໃນເຂດການແບ່ງໝວດຫມູ່)
ເສັ້ນສີຂຽວ: ເປັນ Model ທີ່ສາມາດແຍກເມັດສີຟ້າ ແລະເມັດສີແດງອອກຈາກກັນ ໄດ້ຢ່າງສົມບູນແບບ, ຂະໜາດ Noise ທີ່ຢູ່ນອກເສັ້ນສີດຳກະຍັງໄປກວມເອົາໝົດ ຈົນບໍ່ມີ Noise ເກີດຂຶ້ນເລີຍ.
ແຕ່ ເສັ້ນສີຂຽວ ຈະເກີດການ Overfitting ເພາະມັນເຂົ້າກັບຂໍ້ມູນຊຸດນີ້ໄດ້ດີເກີນໄປ ເມື່ອມີຂໍ້ມູນຊຸດໃຫມ່ ເຂົ້າມາມັນກໍເກີດຂໍ້ມູນພາດຍ້ອນ ຂໍ້ມູູນຊຸດໃຫມ່ບໍ່ໄດ້ມີລັກສະນະຄືກັບຊຸດເກົ່າໝົດທຸກໂຕ ແລະຂໍ້ມູນແຕ່ລະຊຸດລ້ວນແຕ່ມີລັກສະນະຕ່າງກັນ.
ວິທີການແບ່ງຂໍ້ມູນຕົວຢ່າງໄວ້ ເພື່ອບໍ່ໃຫ້ເກີດການ Overfitt:
- ແບ່ງສ່ວນໜຶ່ງໄວ້ເປັນ Training Set : ຂໍ້ມູນຊຸດຍ່ອຍເພື່ອການ Train
- ແບ່ງອີກສ່ວນໜຶ່ງເປັນ Test Set: ຂໍ້ມູນຍ່ອຍເພື່ອເຮັດການທົບສອບ Test

ເມື່ອທຳການ Test ກັບ Test Set ແລ້ວເຫັນວ່າ ໄດ້ຜົນລັບທີ່ດີ ( Good Performance ) ເວົ້າໄດ້ວ່າ: Model ນັ້ນໆ ສາມາດເຮັດວຽກໄດ້ດີກັບຂໍ້ມູນຊຸດໃຫມ່ ຖ້າຫາກ Test Set ມີຂະໜາດໃຫຍ່ພໍ ແລະເຮົາບໍ່ຕົວະ Model ທີ່ເຮົາໃຊ້ Test Set ຊຸດເກົ່າຊ້ຳໄປຊ້ຳມາ.
ຄຳແນະນຳໃນການເລືອກຕົວຢ່າງມີ 3 ຢ່າງຄື:
- ເລືອກຕົວຢ່າງແບບ i.i.d (independently & identically )ເວົ້າງ່າຍໆແມ່ນ ການເລືອກແບບສຸ່ມ
- ການແຈກຢາຍຕ້ອງຄົງທີ ( ບໍ່ປຽນການແຈກຢາຍ )
- ໃຊ້ຂໍ້ມູນຈາກການແຈກຢາຍດຽວກັນ.
ໃນທາງປະຕິບັດແລ້ວ, ເຮົາກໍຕ້ອງເບິ່ງຕາມຄວາມເປັນຈິງຂອງ Model ແລະຂໍ້ມູນວ່າ ມັນເໝາະສົມທີ່ຈະທຳການເລືອກຕົວຢ່າງແບບສຸ່ມຫຼືບໍ່. ສົມມຸດວ່າ ຂໍ້ມູນເຮົາເປັນຂໍ້ມູນທີ່ປ່ຽນຕາມລະດູການ ຫຼື ຊ່ວງເວລາ ເຊິ່ງຈະເຮັດໃຫ້ການແຈກຢາຍບໍ່ຄົງທີ ຫຼື ບໍ່ປົກກະຕິ ເຊັ່ນ: ຂໍ້ມູນການຂາຍເຄື່ອງໃນໄລຍະ 1 ປີ. ອີກຢ່າງແມ່ນຂໍ້ມູນມີຫຼາຍປັດໄຈມາກ່ຽວຂ້ອງເຊັ່ນ: ການເລືອກໂຄສະນາເພື່ອສະແດງໃຫ້ຜູ້ໃຊ້ເຫັນ ເຊິ່ງອີງຕາມໂຄສະນາທີ່ຜູ້ໃຊ້ໄດ້ເຫັນແລ້ວ ມັນອາດຈະບໍ່ຄືກັນ.
Key Term:
Overfitting : Model ມີຄວາມຊັບຊ້ອນ ຫຼື ເຂົ້າກັບຂໍ້ມູນຊຸດເກົ່າໄດ້ດີເກີນໄປ.
Generalization : ການປັບຕົວຂອງ Model ເພື່ອໃຫ້ເຂົ້າກັບຂໍ້ມູນຊຸດໃຫມ່.
Prediction : ການພະຍາກອນ
Stationarity : ຄວາມຄົງຄ່າ ຫຼື ຄົງທີ
Test set : ຊຸດຂໍ້ມູນເພື່ອການທົດສອບ
Training set : ຊຸດຂໍ້ມູນເພື່ອການສອນ
