เล่าแบบย่อๆ “Data Science and Engineering Workshop 2019: The future of Thai NLP”

Mr.P L
AIResearch.in.th
Published in
4 min readSep 28, 2019

คลังชุดข้อมูลสาธารณะ​ควรถูกมองเป็นโครงสร้างพื้นฐาน​ของ​ประเทศ​ ที่ภาครัฐ ภาคการศึกษา​ และภาคเอกชน​ร่วมกันพัฒนา By. Dr. Sarana Nutanong

บทความนี้จะเป็นการบอกเล่าประสบการณ์งาน NLP ที่จัดขึ้นเมื่อวันที่ 27 กันยายน 2562 โดยจะเป็นการสรุปเหตุการณ์สำคัญต่างๆ สำหรับคนที่พลาดไปไม่ต้องเสียใจนะครับ จะมีวิดีโออัพโหลดในภายหลัง (ถ้ามีแล้วจะอัพเดทภายในบล็อกนี้)

เริ่มจากแนะนำ Speaker ภายในงานก่อน

แต่ละท่านเป็นผู้เชี่ยวชาญในสายงาน NLP และ Data เลยก็ว่าได้ เช่น

  • Dr. Attapol Thamrongrattanarit อาจารย์จากคณะอักษรศาสตร์ที่จุฬา
  • Charin Polpanumas จากเซ็นทรัลกรุ๊ป และ PyThaiNLP contributor Open source ด้าน NLP ชื่อดังของประเทศไทย
  • Arthit Suriyawongkul Former AI Engineer จาก Wisesight
  • Dr. Ekapol Chuangsuwanich อาจารย์จากคณะวิศวกรรมคอมพิวเตอร์ของจุฬา (ที่มีคลิปสอน NLP คลิปละ 3 ชม. สิบกว่าคลิป ฮาๆ)
  • Dr. Nat Dilokthanakul นักวิจัยที่สถาบันวิทยสิริเมธีหรือ VISTEC
  • Assoc. Prof. Dr. Sarana Nutanong รักษาการ Dean School of Information Science and Technology ที่ VISTEC

โดยหัวข้อที่พูดภายในงานประกอบไปด้วยหัวข้อด้าน NLP ทั้งไม่ว่าจะเป็นด้าน Text หรือ Speech อีกทั้งยังมีด้านการ Create “Thai NLP Datasets” อีกด้วย

ซึ่งงานนี้ถูกจัดขึ้นที่ สำนักงานส่งเสริมเศรษฐกิจดิจิทัล (Depa) ชั้น 7 ซึ่งมีผู้เข้าร่วมทั้งหมดประมาณ 100 ท่าน

ภาพบรรยากาศตอนเช้าก่อนเริ่มงาน

เริ่มงาน !

Session 1 : เป็น Warm welcome จาก ดร.สรณะ จากนั้น ดร.สรณะมาบอกเล่าถึงที่มาของ AIResearch.in.th และความสำคัญว่าทำไมเราถึงต้องสร้าง “Open Data” สร้างเพื่ออะไร สร้างเพื่อใคร

Session ที่ 1 : Introduction to AIResearch.in.th

Session 2 & 3 : Why Developing our own Thai NLP Technology & Thai Text Processing

อาจารย์เต้ก็ได้มาพูดว่าทำไมเราต้องสร้าง NLP Model เป็นของตัวเอง ทำไมไม่ใช้ของต่างประเทศ และ Session ที่ 3 ก็ได้มาพูดเกี่ยวกับการทำ NLP ด้าน Text processing โดยยกตัวอย่างงานที่ทาง AIResearch.in.th กำลังทำนั้นคือ Machine Translation

Session ที่ 2 & 3 จากอาจารย์เต้

โดยภายในงานผมก็ได้ไปพูดภายในหัวข้อ Thai Text Processing เช่นกันโดยพูดเรื่อง “สถานการณ์ของ Word Segmentation & NER corpus”

Session 3.5 : โดยมาพูดถึงเรื่อง Experiment ของ Word segmentation & NER Model ที่มีในปัจจุบันว่าดีพอที่จะใช้งานจริงๆได้หรือยัง

Session ที่ 3.5 จากผมเอง

Session 4 : AI to Create Thai NLP Datasets

เป็นการพูดถึงการสร้าง Thai NLP Dataset โดยได้มีการพูดถึง wang.in.th

Wang.in.th

ที่เป็น Platform สำหรับคนว่างๆมาหาอะไรทำ โดยการให้คนว่างๆมา Label data นั้นเอง โดยใช้เวลาว่างให้มีรายได้ (Concept ให้ 10/10)

Selective Sampling data

และได้พูดถึงการทำ Selective Sampling data เพื่อเลือก data จากทั้งหมดให้เกิดประโยชน์สูงสุดนั้นเอง

Session 5 : Panel Discussion เป็นการบอกเล่าประสบการณ์และโปรเจกต์ด้าน NLP ของแต่ละ Speaker โดยจะมีตัวแทนจากทั้งภาครัฐและเอกชนมาบอกเล่าและแสดงความคิดเห็นต่อวงการ NLP

Session ที่ 5 : จาก SCB / AIS / NECTEC

Session 6 : Thai Speech Processing

โดยอาจารย์เอกพลจากจุฬา ซึ่งมาบอกเล่าการทำ Speech ในปัจจุบันพร้อมทั้งมีวิดีโอสาธิตว่าโมเดล สามารถทำงานได้ดีแค่ไหนโดยการให้ทำ Speech-to-Text

จากตัวอย่างด้านขวามือ ตัวอักษรสีแดงคือที่ผิด (ไม่ยอมแปลงข้อความสุดท้าย)

Session 7 : Thai Natural Language Processing in Python

โดยพี่ชารินมาเล่าถึงจุดเริ่มต้นของ PyThaiNLP จนมาถึงการร่วมมือกันจนเกิดเป็น AIResearch.in.th

Session ที่ 7 : บอกเล่า PyThaiNLP

ผู้มีส่วนร่วมที่ทำให้เกิดงานนี้ได้

สำหรับงานนี้ต้องขอขอบคุณ Depa, SCB, AIS, VISTEC และ AIResearch.in.th

ที่ทำให้เกิดงานดีๆแบบนี้และขอบคุณ Speaker ที่มาแชร์ประสบการณ์ด้าน NLP ในวันนี้ต้องขอขอบพระคุณจริงๆครับ

Speaker ภายในงานและผู้จัดงานที่ทำให้เกิดงานนี้

สรุปปิดท้าย

สำหรับใครที่ได้ไปงานนี้จะสังเกตได้ว่าทางทีม AIResearch.in.th ได้มีแผนในการพัฒนา Open data สำหรับทุกคน เพื่อเกิดการพัฒนาด้าน NLP ที่มากขึ้นและยังกระตุ้น Community ของ Thai NLP อีกด้วย

โดยผมขอปิดท้ายด้วยเจตนารมณ์ของ ดร.สรณะที่ได้มีต่องานนี้ด้วยรูปนี้ครับ

บทความนี้สนับสนุนโดย

--

--

Mr.P L
AIResearch.in.th

Lifestyle of Programmer & IoT (Node-RED|Blynk) & Data Science (ML,DL,NLP) and Whatever I want to do | cat can coding too | Ph.D. -> VISTEC -> IST