ທິດສະດີ Machine Learning : Generalization [ Machine Learning Crash Course ]

No Rattanavong
Sep 2, 2018 · 2 min read

ຄຳວ່າ Generalization ໃນດ້ານ Machine Learning ມີຄວາມໝາຍວ່າ: ເປັນຄວາມສາມາດຂອງ Model ທີ່ຈະປັບຕົວໃຫ້ເຂົ້າກັບຂໍ້ມູນແບບໃຫມ່ທີ່ມາຈາກການແຈກຢາຍອັນດຽວ ( Distribution ) ກັນ, ເປັນການແຈກຢາຍທີ່ຖືກໃຊ້ເພື່ອສ້າງ Model ນັ້ນໆ.

ຖ້າບໍ່ມີການປັບໂຕ ມັນຈະເກີດ Overfitting ( Model ດີເກີນໄປ )

Peril of Overfitting: ຜົນເສຍຂອງ Overfitting

  • Overfit: ແມ່ນການເຮັດໃຫ້ Model ມີຄວາມຊັບຊ້ອນເກີນໄປ, ຖືກຕ້ອງເກີນໄປ ຫຼື ດີໂພດ, ມັນມີຄ່າ Loss ກໍຈິງ ແຕ່ມັນກໍດີແຕ່ຂໍ້ມູນຊຸດເກົ່າ ສະນັ້ນ, ເພື່ອເຮົາໄປ Predict ຂໍ້ມູນຊຸດໃຫມ່ກໍເກີດຂໍ້ຜິດພາດສູງ.

ຕົວຢ່າງເຮົາມີ ຂໍ້ມູນເມັດສີຟ້າ ແລະເມັດສີແດງຕາມຮູບ, ເຊິ່ງເຮົາຢາກແຍກຫມວດຫມູ່ສອງເມັດສີນີ້.

Overfitting — wikipedia

ຂໍ້ສັງເກດ :

ເສັ້ນສີດຳ: ເປັນ Model ທີເບິ່ງແລ້ວ ສາມາດແຍກສີແດງ ແລະສີດຳໄດ້ ແຕ່ກໍມີ Noise ຢູ່ໜ້ອຍໜຶ່ງ (Noise ແມ່ນຈຸດທີ່ຢູ່ບໍ່ຖືກບ່ອນ ໃນເຂດການແບ່ງໝວດຫມູ່)

ເສັ້ນສີຂຽວ: ເປັນ Model ທີ່ສາມາດແຍກເມັດສີຟ້າ ແລະເມັດສີແດງອອກຈາກກັນ ໄດ້ຢ່າງສົມບູນແບບ, ຂະໜາດ Noise ທີ່ຢູ່ນອກເສັ້ນສີດຳກະຍັງໄປກວມເອົາໝົດ ຈົນບໍ່ມີ Noise ເກີດຂຶ້ນເລີຍ.

ແຕ່ ເສັ້ນສີຂຽວ ຈະເກີດການ Overfitting ເພາະມັນເຂົ້າກັບຂໍ້ມູນຊຸດນີ້ໄດ້ດີເກີນໄປ ເມື່ອມີຂໍ້ມູນຊຸດໃຫມ່ ເຂົ້າມາມັນກໍເກີດຂໍ້ມູນພາດຍ້ອນ ຂໍ້ມູູນຊຸດໃຫມ່ບໍ່ໄດ້ມີລັກສະນະຄືກັບຊຸດເກົ່າໝົດທຸກໂຕ ແລະຂໍ້ມູນແຕ່ລະຊຸດລ້ວນແຕ່ມີລັກສະນະຕ່າງກັນ.


ວິທີການແບ່ງຂໍ້ມູນຕົວຢ່າງໄວ້ ເພື່ອບໍ່ໃຫ້ເກີດການ Overfitt:

  1. ແບ່ງສ່ວນໜຶ່ງໄວ້ເປັນ Training Set : ຂໍ້ມູນຊຸດຍ່ອຍເພື່ອການ Train
  2. ແບ່ງອີກສ່ວນໜຶ່ງເປັນ Test Set: ຂໍ້ມູນຍ່ອຍເພື່ອເຮັດການທົບສອບ Test

ເມື່ອທຳການ Test ກັບ Test Set ແລ້ວເຫັນວ່າ ໄດ້ຜົນລັບທີ່ດີ ( Good Performance ) ເວົ້າໄດ້ວ່າ: Model ນັ້ນໆ ສາມາດເຮັດວຽກໄດ້ດີກັບຂໍ້ມູນຊຸດໃຫມ່ ຖ້າຫາກ Test Set ມີຂະໜາດໃຫຍ່ພໍ ແລະເຮົາບໍ່ຕົວະ Model ທີ່ເຮົາໃຊ້ Test Set ຊຸດເກົ່າຊ້ຳໄປຊ້ຳມາ.

ຄຳແນະນຳໃນການເລືອກຕົວຢ່າງມີ 3​ ຢ່າງຄື:

  • ເລືອກຕົວຢ່າງແບບ i.i.d (independently & identically )ເວົ້າງ່າຍໆແມ່ນ ການເລືອກແບບສຸ່ມ
  • ການແຈກຢາຍຕ້ອງຄົງທີ ( ບໍ່ປຽນການແຈກຢາຍ )
  • ໃຊ້ຂໍ້ມູນຈາກການແຈກຢາຍດຽວກັນ.

ໃນທາງປະຕິບັດແລ້ວ, ເຮົາກໍຕ້ອງເບິ່ງຕາມຄວາມເປັນຈິງຂອງ Model ແລະຂໍ້ມູນວ່າ ມັນເໝາະສົມທີ່ຈະທຳການເລືອກຕົວຢ່າງແບບສຸ່ມຫຼືບໍ່. ສົມມຸດວ່າ ຂໍ້ມູນເຮົາເປັນຂໍ້ມູນທີ່ປ່ຽນຕາມລະດູການ ຫຼື ຊ່ວງເວລາ ເຊິ່ງຈະເຮັດໃຫ້ການແຈກຢາຍບໍ່ຄົງທີ ຫຼື ບໍ່ປົກກະຕິ ເຊັ່ນ: ຂໍ້ມູນການຂາຍເຄື່ອງໃນໄລຍະ 1 ປີ. ອີກຢ່າງແມ່ນຂໍ້ມູນມີຫຼາຍປັດໄຈມາກ່ຽວຂ້ອງເຊັ່ນ: ການເລືອກໂຄສະນາເພື່ອສະແດງໃຫ້ຜູ້ໃຊ້ເຫັນ ເຊິ່ງອີງຕາມໂຄສະນາທີ່ຜູ້ໃຊ້ໄດ້ເຫັນແລ້ວ ມັນອາດຈະບໍ່ຄືກັນ.

Key Term:

Overfitting : Model ມີຄວາມຊັບຊ້ອນ ຫຼື ເຂົ້າກັບຂໍ້ມູນຊຸດເກົ່າໄດ້ດີເກີນໄປ.

Generalization : ການປັບຕົວຂອງ Model ເພື່ອໃຫ້ເຂົ້າກັບຂໍ້ມູນຊຸດໃຫມ່.

Prediction : ການພະຍາກອນ

Stationarity : ຄວາມຄົງຄ່າ ຫຼື ຄົງທີ

Test set : ຊຸດຂໍ້ມູນເພື່ອການທົດສອບ

Training set : ຊຸດຂໍ້ມູນເພື່ອການສອນ

    No Rattanavong

    Written by

    #ContentLover #VideoEditor #Book #Creativity #Technology #Photography #Inspiration

    Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
    Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
    Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade