การออกแบบสถานที่บันทึกเสียงและวิดีโอสำหรับพัฒนาเทคโนโลยีการรู้จำอารมณ์จากเสียงพูด (Speech Emotion Recognition : SER)

Soravitt Sangnark
AIResearch.in.th
Published in
3 min readNov 19, 2019

ปฏิเสธไม่ได้ว่าห้องบันทึกเสียง คือปัจจัยสำคัญที่ส่งผลต่อคุณภาพเสียง หากคุณอยากได้เสียงที่คุณภาพดีและมีเงินทุน เราแนะนำให้ลงทุนสร้างห้องอัดเสียงใหม่ แต่ถ้าคำนวณดูแล้วออกจะเกินตัวไปมาก เพราะจะไม่จบแค่หลักแสนแน่นอน เราแนะนำให้คุณแก้ปัญหา โดยการเช่าห้องอัดเสียง ซึ่งมีอุปกรณ์ที่พร้อมและ มีให้เลือกใช้มากมายหลายที่ในไทย

แต่อย่างไรก็ตาม โอกาสที่งบจะบานปลายคือ 100% อย่างแน่นอน โดยเฉพาะงานวิจัย Thai Speech Emotion Recognition ของเราที่ต้องใช้นักแสดงคณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย 200 คน มาแสดงอารมณ์ในแบบ Script (ใช้คนแสดง 1 คน มีบทพูดให้) และ Improvise (ใช้ 2 คนแสดง มีสถานการณ์ให้ คิดบทพูดเอง) และกำกับโดยผู้กำกับมืออาชีพ เพื่ออารมณ์ที่สมจริงที่สุด คงควบคุมเวลาให้อยู่ในงบและเวลาห้องอัดได้ยาก

นักแสดงคณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย 200 คน มาแสดงอารมณ์ในแบบ Script และ Improvise และกำกับโดยผู้กำกับมืออาชีพ เพื่ออารมณ์ที่สมจริงที่สุด

ดังนั้นทีม AIResearch.in.th จึงได้หาห้องบันทึกเสียงที่เหมาะสมกับงาน และซื้ออุปกรณ์บันทึกเสียง/วิดีโอมาใช้ในงานนี้ เพื่อความยืดหยุ่นของเวลาที่ใช้ในการบันทึก ในส่วนของรายละเอียดอุปกรณ์และห้องบันทึกเสียงจริง เราจะมาพูดถึงในบทความต่อ ๆ ไป

บทความนี้จะพูดถึงการบันทึกเสียง, ติดตั้งอุปกรณ์ ในห้องบันทึกเสียงก่อนการบันทึกข้อมูลจริง

อุปกรณ์ที่ใช้ประกอบไปด้วย

  • คอนเดนเซอร์ไมโครโฟน (Condenser Microphone) 3 ตัว
  • ไมค์ติดปกเสื้อ (Lavalier Microphone) 2 ตัว
  • กล้องมิลเลอร์เลส (Mirrorless Camera) 2 ตัว
  • กล้องแอคชั่น 4K (Action Camera) 4 ตัว
  • กล้องถ่ายรูประยะชัดลึก (Depth Camera) 2 ตัว
รูปที่ 1 แผนภาพการจัดวางอุปกรณ์

จากรูปที่ 1 แสดงให้เห็นว่า นักแสดงทั้ง 2 คน ถูกจัดให้หันหน้าเข้าหากันตามธรรมชาติของการสนทนา โดยระยะห่างระหว่างนักแสดงคือประมาณ 2 เมตร ตามกฎของระยะพูดคุยทางสังคม (Social Distance) ซึ่งให้ความรู้สึกว่าอยู่ในบทสนทนาเดียวกัน

การจัดวางไมโครโฟน

คอนเดนเซอร์ไมโครโฟน 3 ตัว ถูกจัดวางในตำแหน่งดังต่อไปนี้

  1. บริเวณด้านหน้านักแสดงคนที่ 1 ห่างจากปากประมาณ 10–20 เซนติเมตร
  2. บริเวณด้านหน้านักแสดงคนที่ 2 ห่างจากปากประมาณ 10–20 เซนติเมตร
  3. บริเวณตรงกลางระหว่างวงสนทนาของนักแสดง

โดยคอนเดนเซอร์ไมโครโฟนตัวที่ 1, 2 เลือกรูปแบบการรับเสียงเป็นแบบ Cardioid (รับเสียงเฉพาะด้านหน้า) และตัวที่ 3 รูปแบบการรับเสียงเป็นแบบ Figure Eight (รับเสียงจากด้านหน้าและด้านหลัง)

สำหรับไมค์ติดปกเสื้อ 2 ตัว ถูกติดไว้ที่กลางปกเสื้อ โดยให้ตรงกับปากนักแสดง

รูปที่ 2 การวางไมค์คอนเดนเซอร์และไมค์ติดปกเสื้อ

การจัดวางกล้องวีดีโอ

กล้องมิลเลอร์เลส, กล้องแอคชั่น 4K และ กล้องถ่ายรูประยะชัดลึก ถูกวางให้ห่างจากตัวนักแสดงประมาณ 50 เมตร เพื่อจับใบหน้าขณะสนทนา

  1. กล้องมิลเลอร์เลส 2 ตัว ถูกจัดวางในตำแหน่งด้านหน้าทำมุม 90 องศา จากนักแสดง ตั้งค่าบันทึกวิดีโอด้วยความละเอียดระดับ 4K/60 FPS
  2. กล้องแอคชั่น 4K 2 ตัว ถูกจัดวางในตำแหน่งด้านข้างทำมุม 0 องศา จากนักแสดง และอีก 2 ตัวที่ตำแหน่ง 60 องศา ตั้งค่าให้บันทึกวิดีโอด้วยความละเอียดระดับ 4K/60 FPS
  3. กล้องถ่ายรูประยะชัดลึก ถูกจัดวางในตำแหน่งด้านหน้าทำมุม 90 องศา จากนักแสดง

การเก็บข้อมูลครั้งนี้ สามารถนำไปใช้ในงานวิจัยอื่น ๆ ได้นอกเหนือจากงาน SER เช่น การวิเคราะห์สีหน้าจากวิดีโอ หรือการอ่านคำจากรูปปาก จึงได้ออกแบบการถ่ายวิดีโอด้วยคุณภาพที่สูงที่สุดเท่าที่เป็นได้ เพราะการอ่านสีหน้าและรูปปากจำเป็นต้องใช้ความไวของกล้องในการจับรายละเอียด

รูปที่ 3 การจัดวางอุปกรณ์ทั้งหมดในสถานที่จริง

ปัญหาเหล่านี้คือโจทย์ความท้าทายเบื้องต้นที่พวกเราจะต้องแก้ให้ได้

การออกแบบสถานที่สำหรับบันทึกเสียงและวิดีโอ มีปัญหาหลักที่ต้องคำนึงถึงอยู่ 3 ประการ

ปัญหาที่ 1 คือ การออกแบบมุมกล้องและไมโครโฟนให้เก็บข้อมูลได้อย่างสมบูรณ์ เนื่องจากจำเป็นต้องเก็บภาพใบหน้าของนักแสดง โดยเฉพาะรูปปากที่อาจนำมาใช้วิจัยต่อในอนาคต ซึ่งเป็นบริเวณที่ใกล้ไมโครโฟนที่สุด หากอยากได้รูปปากที่ชัดเจน อาจจะต้องแลกด้วยระยะห่างของปากและไมโครโฟนที่มาก ทำให้คุณภาพเสียงที่ได้ไม่ชัดเจนพอ และอาจรวมไปถึงการออกท่าทางของนักแสดงมืออาชีพเมื่อเกิดอารมณ์ร่วมกับบทบาท ดังนั้นการเก็บข้อมูลเสียงและภาพทุกกล้องของนักแสดง 200 คน ให้ได้ตามที่ต้องการ 100% ถือเป็นความท้าทายอย่างมาก

ปัญหาที่ 2 ในส่วนของ Scenario Session ที่ให้นักแสดง 2 คนสนทนากัน โดยธรรมชาติของการสนทนานั้น ผู้สนทนาจะต้องสบตากัน เพราะการสบตาทำให้รู้สึกถึงความเชื่อมโยงระหว่างกัน และช่วยเพิ่มคุณภาพของการสนทนาได้ ในช่วงแรกของการทดลองพบว่า ถ้าต้องการบันทึกวิดีโอเป็นหน้าตรงของผู้พูด กล้องที่ตั้ง 90 องศาจากผู้พูดจะไปบังระดับสายตาของผู้พูดทำให้ไม่เห็นผู้ที่สนทนาด้วย ซึ่งผิดวิสัยของการสนทนา ดังนั้นจึงต้องปรับระดับกล้องลงมาเล็กน้อย แล้วเงยกล้องขึ้นแทน เพื่อให้ผู้สนทนาเห็นหน้ากันและกัน

การปรับระดับ Gain ของสัญญาณไมค์จึงต้องปรับให้อยู่ในระดับที่เหมาะสมมากที่สุด เพราะนี่คือกุญแจสำคัญในงานด้านเสียง

ปัญหาสุดท้าย คือ เรื่องของระดับความดังของเสียงนักแสดง เนื่องจากนักแสดงทั้ง 2 ไม่ได้อยู่ห่างกันมาก และนั่งอยู่ในห้องเดียวกัน การปรับระดับ Gain ของสัญญาณไมค์จึงต้องปรับให้อยู่ในระดับที่เหมาะสมมากที่สุด นี่คือกุญแจสำคัญในงานด้านเสียง หากปรับระดับ Gain มากไป แน่นอนว่า เสียงของนักแสดงหลักจะชัดเจน แต่เสียงของ Head room และนักแสดงอีกฝั่งซึ่งถูกระบุว่าเป็น Noise ทั้งคู่ ก็จะชัดเจนเช่นกัน ซึ่งระดับ Gain ของเสียงพูดที่เหมาะสมจะต้องปรับเปลี่ยนไปตามนักแสดง

เราได้ทำการทดสอบกับนักแสดงไม่อาชีพ 5 คน และนักแสดงอาชีพ 1 คน สิ่งที่ทำให้เห็นความแตกต่างระหว่างนักแสดงอาชีพ/ไม่อาชีพ ก็คือการออกเสียงที่ถูกต้อง ซึ่งรวมไปถึงท่านั่งที่ทำให้ออกเสียงได้อย่างเต็มประสิทธิภาพ นักแสดงอาชีพจะถูกฝึกในด้านนี้ ในขณะที่คนทั่วไปมักจะละเลย

ปัญหาเหล่านี้คือโจทย์ของความท้าทายเบื้องต้นที่พวกเราจะต้องแก้ให้ได้

และคลิปด้านล่างนี้เป็นตัวอย่างของนักแสดงจริง ในมุมกล้อง 0, 60 และ 90 องศา พูดประโยคเดียวกัน แต่สื่ออารมณ์ทั้ง 4 แบบ ได้แก่ มีความสุข, โกรธ, เศร้า และปกติ ลองทายกันดูครับว่าเสียงไหนคืออารมณ์แบบใด มีความคลุมเครือหรือชัดเจนแค่ไหน

คลิปตัวอย่างนักแสดงจากสถานที่จริง

ในบทความต่อ ๆ ไป เราจะได้เริ่มต้นเก็บข้อมูลจากโจทย์และสถานที่จริง ซึ่งจะนำมาเล่าประสบการณ์ให้ฟังอย่างแน่นอน โปรดติดตามได้ที่ AIResearch.in.th

ขอขอบคุณ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

นางสาวศศิกานต์ เสียงจันทร์

นิสิตชั้นปีที่ 4 คณะอักษรศาสตร์ ภาควิชาศิลปการละคร จุฬาลงกรณ์มหาวิทยาลัย

และที่ขาดไม่ได้ ขอขอบคุณผู้สนับสนุนหลักบริษัท Advanced Info Service (AIS)

WRITTEN BY Soravitt Sangnark and Jilamika Wongpithayadisai

--

--

Soravitt Sangnark
AIResearch.in.th

I am a music cognition and science researcher at Interfaces lab, VISTEC, Thailand