เล่าแบบย่อๆ “Data Science and Engineering Workshop 2019: The future of Thai NLP”

Published in

AIResearch.in.th

4 min readSep 28, 2019

คลังชุดข้อมูลสาธารณะควรถูกมองเป็นโครงสร้างพื้นฐานของประเทศ ที่ภาครัฐ ภาคการศึกษา และภาคเอกชนร่วมกันพัฒนา By. Dr. Sarana Nutanong

บทความนี้จะเป็นการบอกเล่าประสบการณ์งาน NLP ที่จัดขึ้นเมื่อวันที่ 27 กันยายน 2562 โดยจะเป็นการสรุปเหตุการณ์สำคัญต่างๆ สำหรับคนที่พลาดไปไม่ต้องเสียใจนะครับ จะมีวิดีโออัพโหลดในภายหลัง (ถ้ามีแล้วจะอัพเดทภายในบล็อกนี้)

เริ่มจากแนะนำ Speaker ภายในงานก่อน

แต่ละท่านเป็นผู้เชี่ยวชาญในสายงาน NLP และ Data เลยก็ว่าได้ เช่น

Dr. Attapol Thamrongrattanarit อาจารย์จากคณะอักษรศาสตร์ที่จุฬา
Charin Polpanumas จากเซ็นทรัลกรุ๊ป และ PyThaiNLP contributor Open source ด้าน NLP ชื่อดังของประเทศไทย
Arthit Suriyawongkul Former AI Engineer จาก Wisesight
Dr. Ekapol Chuangsuwanich อาจารย์จากคณะวิศวกรรมคอมพิวเตอร์ของจุฬา (ที่มีคลิปสอน NLP คลิปละ 3 ชม. สิบกว่าคลิป ฮาๆ)
Dr. Nat Dilokthanakul นักวิจัยที่สถาบันวิทยสิริเมธีหรือ VISTEC
Assoc. Prof. Dr. Sarana Nutanong รักษาการ Dean School of Information Science and Technology ที่ VISTEC

โดยหัวข้อที่พูดภายในงานประกอบไปด้วยหัวข้อด้าน NLP ทั้งไม่ว่าจะเป็นด้าน Text หรือ Speech อีกทั้งยังมีด้านการ Create “Thai NLP Datasets” อีกด้วย

ซึ่งงานนี้ถูกจัดขึ้นที่ สำนักงานส่งเสริมเศรษฐกิจดิจิทัล (Depa) ชั้น 7 ซึ่งมีผู้เข้าร่วมทั้งหมดประมาณ 100 ท่าน

เริ่มงาน !

Session 1 : เป็น Warm welcome จาก ดร.สรณะ จากนั้น ดร.สรณะมาบอกเล่าถึงที่มาของ AIResearch.in.th และความสำคัญว่าทำไมเราถึงต้องสร้าง “Open Data” สร้างเพื่ออะไร สร้างเพื่อใคร

Session ที่ 1 : Introduction to AIResearch.in.th

Session 2 & 3 : Why Developing our own Thai NLP Technology & Thai Text Processing

อาจารย์เต้ก็ได้มาพูดว่าทำไมเราต้องสร้าง NLP Model เป็นของตัวเอง ทำไมไม่ใช้ของต่างประเทศ และ Session ที่ 3 ก็ได้มาพูดเกี่ยวกับการทำ NLP ด้าน Text processing โดยยกตัวอย่างงานที่ทาง AIResearch.in.th กำลังทำนั้นคือ Machine Translation

โดยภายในงานผมก็ได้ไปพูดภายในหัวข้อ Thai Text Processing เช่นกันโดยพูดเรื่อง “สถานการณ์ของ Word Segmentation & NER corpus”

Session 3.5 : โดยมาพูดถึงเรื่อง Experiment ของ Word segmentation & NER Model ที่มีในปัจจุบันว่าดีพอที่จะใช้งานจริงๆได้หรือยัง

Session 4 : AI to Create Thai NLP Datasets

เป็นการพูดถึงการสร้าง Thai NLP Dataset โดยได้มีการพูดถึง wang.in.th

Wang | Data Market

Wang | Data Marketwww.wang.in.th

ที่เป็น Platform สำหรับคนว่างๆมาหาอะไรทำ โดยการให้คนว่างๆมา Label data นั้นเอง โดยใช้เวลาว่างให้มีรายได้ (Concept ให้ 10/10)

และได้พูดถึงการทำ Selective Sampling data เพื่อเลือก data จากทั้งหมดให้เกิดประโยชน์สูงสุดนั้นเอง

Session 5 : Panel Discussion เป็นการบอกเล่าประสบการณ์และโปรเจกต์ด้าน NLP ของแต่ละ Speaker โดยจะมีตัวแทนจากทั้งภาครัฐและเอกชนมาบอกเล่าและแสดงความคิดเห็นต่อวงการ NLP

Session 6 : Thai Speech Processing

โดยอาจารย์เอกพลจากจุฬา ซึ่งมาบอกเล่าการทำ Speech ในปัจจุบันพร้อมทั้งมีวิดีโอสาธิตว่าโมเดล สามารถทำงานได้ดีแค่ไหนโดยการให้ทำ Speech-to-Text

จากตัวอย่างด้านขวามือ ตัวอักษรสีแดงคือที่ผิด (ไม่ยอมแปลงข้อความสุดท้าย)

Session 7 : Thai Natural Language Processing in Python

โดยพี่ชารินมาเล่าถึงจุดเริ่มต้นของ PyThaiNLP จนมาถึงการร่วมมือกันจนเกิดเป็น AIResearch.in.th

ผู้มีส่วนร่วมที่ทำให้เกิดงานนี้ได้

สำหรับงานนี้ต้องขอขอบคุณ Depa, SCB, AIS, VISTEC และ AIResearch.in.th

ที่ทำให้เกิดงานดีๆแบบนี้และขอบคุณ Speaker ที่มาแชร์ประสบการณ์ด้าน NLP ในวันนี้ต้องขอขอบพระคุณจริงๆครับ

Speaker ภายในงานและผู้จัดงานที่ทำให้เกิดงานนี้

สรุปปิดท้าย

สำหรับใครที่ได้ไปงานนี้จะสังเกตได้ว่าทางทีม AIResearch.in.th ได้มีแผนในการพัฒนา Open data สำหรับทุกคน เพื่อเกิดการพัฒนาด้าน NLP ที่มากขึ้นและยังกระตุ้น Community ของ Thai NLP อีกด้วย

โดยผมขอปิดท้ายด้วยเจตนารมณ์ของ ดร.สรณะที่ได้มีต่องานนี้ด้วยรูปนี้ครับ

เล่าแบบย่อๆ “Data Science and Engineering Workshop 2019: The future of Thai NLP”

เริ่มจากแนะนำ Speaker ภายในงานก่อน

เริ่มงาน !

Wang | Data Market

Wang | Data Market

ผู้มีส่วนร่วมที่ทำให้เกิดงานนี้ได้

สรุปปิดท้าย

บทความนี้สนับสนุนโดย

Written by Mr.P L