เทคโนโลยีการรู้จำอารมณ์จากเสียงพูด (Speech Emotion Recognition: SER)
Artificial Intelligence (AI) หรือ “ปัญญาประดิษฐ์” เป็นคำที่ได้ยินกันอย่างแพร่หลายในทุกวันนี้ โดย AI มีจุดมุ่งหมายเพื่ออำนวยความสะดวกสบายในการใช้ชีวิตประจำวัน ตัวอย่างเช่น Google Home เป็น Smart Device ที่ติดตั้งภายในบ้าน เพื่ออำนวยความสะดวกสบายต่าง ๆ ภายในบ้าน
หรือจะเป็นงานที่ทีม AIResearch.in.th กำลังพัฒนาอยู่ คือ เทคโนโลยีการรู้จำเสียง (Speech Recognition) ซึ่งนำเทคโนโลยีการเรียนรู้ของเครื่อง (Machine learning) มาประยุกต์ใช้กับการประมวลผลสัญญาณเสียง เพื่อช่วยให้เข้าใจคุณลักษณะของเสียง และนำมาใช้ประโยชน์ในชีวิตได้มากยิ่งขึ้น โดยในการวิจัยของทีม AIResearch.in.th ได้นำ “อารมณ์” ที่ AI ยากจะเข้าใจ เพราะแม้แต่มนุษย์ยังยากจะเข้าใจซึ่งกันและกัน มาพัฒนาระบบที่เรียกว่า “การรู้จำอารมณ์เสียงพูด หรือ Speech Emotion Recognition (SER)”
“อารมณ์” เป็นสิ่งที่ AI ยากจะเข้าใจ เพราะแม้แต่มนุษย์ยังยากจะเข้าใจซึ่งกันและกัน
ประโยชน์ของ SER มีมากมายหลายด้าน เช่น แอปพลิเคชันสร้างความบันเทิง เมื่อรับรู้ได้ว่าผู้ใช้มีอารมณ์เศร้า หรือ ระบบประเมินความพึงพอใจของลูกค้าต่อการบริการ เป็นต้น
รูปแบบของเสียงพูด ขึ้นอยู่กับลักษณะเฉพาะของแต่ละบุคคล ไม่ว่าจะเป็นสรีระ เชื้อชาติ และรวมไปถึงความแตกต่างของภาษาที่มีความซับซ้อนอีกมากมาย
การวิเคราะห์เสียงพูดที่อารมณ์แตกต่างกัน จะต้องคำนึงถึงลักษณะของเสียง เช่น โทนเสียง น้ำเสียง ความดัง และอื่น ๆ แต่อย่างไรก็ตาม SER ยังขาดเทคนิคและวิธีการเชิงวิทยาศาสตร์ที่ให้ประสิทธิภาพได้แม่นยำเพียงพอ เพราะรูปแบบของเสียงพูด ขึ้นอยู่กับลักษณะเฉพาะของแต่ละบุคคล ไม่ว่าจะเป็นสรีระ เชื้อชาติ และรวมไปถึงความแตกต่างของภาษาที่มีความซับซ้อนอีกมากมาย
ปัจจุบัน ได้มีการสร้างชุดข้อมูลเสียงพูดขึ้นมาจากทีมนักวิจัยจากทั่วโลก เช่น
และได้เปิดให้นักวิจัยนำออกมาพัฒนางานวิจัยต่อ แต่เนื่องจากโครงสร้างภาษามีลักษณะเฉพาะแตกต่างกัน และปริมาณข้อมูลยังไม่เพียงพอต่อความต้องการสำหรับงานวิจัย นักวิจัยจากแต่ละประเทศ จึงมีจุดมุ่งหมายที่จะพัฒนาชุดข้อมูลของแต่ละภาษาขึ้นมา
สำหรับชุดข้อมูลภาษาไทยนั้น ยังมีให้ศึกษาไม่มาก และที่สำคัญที่สุด ! ยังขาดชุดข้อมูลที่ได้รับการระบุอารมณ์ ดังนั้นทีม AIResearch.in.th และ Advanced Info Service (AIS) ได้มองเห็นปัญหาในส่วนนี้ จึงได้ทำการพัฒนาชุดข้อมูลเสียงพูดภาษาไทยที่ได้รับการระบุอารมณ์ขึ้นมา และจะปล่อยสู่สาธารณะเพื่อให้งานวิจัยด้านการรู้จำเสียงภาษาไทยได้พัฒนาต่อไป
ในส่วนกระบวนการเก็บข้อมูล โปรดติดตามตอนต่อไป To be continued…
WRITTEN BY Soravitt Sangnark and Jilamika Wongpithayadisai
บทความที่ 2 : การออกแบบสถานที่บันทึกเสียงและวิดีโอสำหรับพัฒนาเทคโนโลยีการรู้จำอารมณ์จากเสียงพูด (Speech Emotion Recognition : SER)
References
- C. Busso, M. Bulut, C.C. Lee, A. Kazemzadeh, E. Mower, S. Kim, J.N. Chang, S. Lee, and S.S. Narayanan, “IEMOCAP: Interactive emotional dyadic motion capture database,” Journal of Language Resources and Evaluation, vol. 42, no. 4, pp. 335–359, December 2008.
- Livingstone SR, Russo FA (2018) The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. PLoS ONE 13(5): e0196391.
- Cao, Houwei et al. “CREMA-D: Crowd-Sourced Emotional Multimodal Actors Dataset.” IEEE Transactions on Affective Computing 5 (2014): 377–390.