การออกแบบสถานที่บันทึกเสียงและวิดีโอสำหรับพัฒนาเทคโนโลยีการรู้จำอารมณ์จากเสียงพูด (Speech Emotion Recognition : SER)
ปฏิเสธไม่ได้ว่าห้องบันทึกเสียง คือปัจจัยสำคัญที่ส่งผลต่อคุณภาพเสียง หากคุณอยากได้เสียงที่คุณภาพดีและมีเงินทุน เราแนะนำให้ลงทุนสร้างห้องอัดเสียงใหม่ แต่ถ้าคำนวณดูแล้วออกจะเกินตัวไปมาก เพราะจะไม่จบแค่หลักแสนแน่นอน เราแนะนำให้คุณแก้ปัญหา โดยการเช่าห้องอัดเสียง ซึ่งมีอุปกรณ์ที่พร้อมและ มีให้เลือกใช้มากมายหลายที่ในไทย
แต่อย่างไรก็ตาม โอกาสที่งบจะบานปลายคือ 100% อย่างแน่นอน โดยเฉพาะงานวิจัย Thai Speech Emotion Recognition ของเราที่ต้องใช้นักแสดงคณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย 200 คน มาแสดงอารมณ์ในแบบ Script (ใช้คนแสดง 1 คน มีบทพูดให้) และ Improvise (ใช้ 2 คนแสดง มีสถานการณ์ให้ คิดบทพูดเอง) และกำกับโดยผู้กำกับมืออาชีพ เพื่ออารมณ์ที่สมจริงที่สุด คงควบคุมเวลาให้อยู่ในงบและเวลาห้องอัดได้ยาก
นักแสดงคณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย 200 คน มาแสดงอารมณ์ในแบบ Script และ Improvise และกำกับโดยผู้กำกับมืออาชีพ เพื่ออารมณ์ที่สมจริงที่สุด
ดังนั้นทีม AIResearch.in.th จึงได้หาห้องบันทึกเสียงที่เหมาะสมกับงาน และซื้ออุปกรณ์บันทึกเสียง/วิดีโอมาใช้ในงานนี้ เพื่อความยืดหยุ่นของเวลาที่ใช้ในการบันทึก ในส่วนของรายละเอียดอุปกรณ์และห้องบันทึกเสียงจริง เราจะมาพูดถึงในบทความต่อ ๆ ไป
บทความนี้จะพูดถึงการบันทึกเสียง, ติดตั้งอุปกรณ์ ในห้องบันทึกเสียงก่อนการบันทึกข้อมูลจริง
อุปกรณ์ที่ใช้ประกอบไปด้วย
- คอนเดนเซอร์ไมโครโฟน (Condenser Microphone) 3 ตัว
- ไมค์ติดปกเสื้อ (Lavalier Microphone) 2 ตัว
- กล้องมิลเลอร์เลส (Mirrorless Camera) 2 ตัว
- กล้องแอคชั่น 4K (Action Camera) 4 ตัว
- กล้องถ่ายรูประยะชัดลึก (Depth Camera) 2 ตัว
จากรูปที่ 1 แสดงให้เห็นว่า นักแสดงทั้ง 2 คน ถูกจัดให้หันหน้าเข้าหากันตามธรรมชาติของการสนทนา โดยระยะห่างระหว่างนักแสดงคือประมาณ 2 เมตร ตามกฎของระยะพูดคุยทางสังคม (Social Distance) ซึ่งให้ความรู้สึกว่าอยู่ในบทสนทนาเดียวกัน
การจัดวางไมโครโฟน
คอนเดนเซอร์ไมโครโฟน 3 ตัว ถูกจัดวางในตำแหน่งดังต่อไปนี้
- บริเวณด้านหน้านักแสดงคนที่ 1 ห่างจากปากประมาณ 10–20 เซนติเมตร
- บริเวณด้านหน้านักแสดงคนที่ 2 ห่างจากปากประมาณ 10–20 เซนติเมตร
- บริเวณตรงกลางระหว่างวงสนทนาของนักแสดง
โดยคอนเดนเซอร์ไมโครโฟนตัวที่ 1, 2 เลือกรูปแบบการรับเสียงเป็นแบบ Cardioid (รับเสียงเฉพาะด้านหน้า) และตัวที่ 3 รูปแบบการรับเสียงเป็นแบบ Figure Eight (รับเสียงจากด้านหน้าและด้านหลัง)
สำหรับไมค์ติดปกเสื้อ 2 ตัว ถูกติดไว้ที่กลางปกเสื้อ โดยให้ตรงกับปากนักแสดง
การจัดวางกล้องวีดีโอ
กล้องมิลเลอร์เลส, กล้องแอคชั่น 4K และ กล้องถ่ายรูประยะชัดลึก ถูกวางให้ห่างจากตัวนักแสดงประมาณ 50 เมตร เพื่อจับใบหน้าขณะสนทนา
- กล้องมิลเลอร์เลส 2 ตัว ถูกจัดวางในตำแหน่งด้านหน้าทำมุม 90 องศา จากนักแสดง ตั้งค่าบันทึกวิดีโอด้วยความละเอียดระดับ 4K/60 FPS
- กล้องแอคชั่น 4K 2 ตัว ถูกจัดวางในตำแหน่งด้านข้างทำมุม 0 องศา จากนักแสดง และอีก 2 ตัวที่ตำแหน่ง 60 องศา ตั้งค่าให้บันทึกวิดีโอด้วยความละเอียดระดับ 4K/60 FPS
- กล้องถ่ายรูประยะชัดลึก ถูกจัดวางในตำแหน่งด้านหน้าทำมุม 90 องศา จากนักแสดง
การเก็บข้อมูลครั้งนี้ สามารถนำไปใช้ในงานวิจัยอื่น ๆ ได้นอกเหนือจากงาน SER เช่น การวิเคราะห์สีหน้าจากวิดีโอ หรือการอ่านคำจากรูปปาก จึงได้ออกแบบการถ่ายวิดีโอด้วยคุณภาพที่สูงที่สุดเท่าที่เป็นได้ เพราะการอ่านสีหน้าและรูปปากจำเป็นต้องใช้ความไวของกล้องในการจับรายละเอียด
ปัญหาเหล่านี้คือโจทย์ความท้าทายเบื้องต้นที่พวกเราจะต้องแก้ให้ได้
การออกแบบสถานที่สำหรับบันทึกเสียงและวิดีโอ มีปัญหาหลักที่ต้องคำนึงถึงอยู่ 3 ประการ
ปัญหาที่ 1 คือ การออกแบบมุมกล้องและไมโครโฟนให้เก็บข้อมูลได้อย่างสมบูรณ์ เนื่องจากจำเป็นต้องเก็บภาพใบหน้าของนักแสดง โดยเฉพาะรูปปากที่อาจนำมาใช้วิจัยต่อในอนาคต ซึ่งเป็นบริเวณที่ใกล้ไมโครโฟนที่สุด หากอยากได้รูปปากที่ชัดเจน อาจจะต้องแลกด้วยระยะห่างของปากและไมโครโฟนที่มาก ทำให้คุณภาพเสียงที่ได้ไม่ชัดเจนพอ และอาจรวมไปถึงการออกท่าทางของนักแสดงมืออาชีพเมื่อเกิดอารมณ์ร่วมกับบทบาท ดังนั้นการเก็บข้อมูลเสียงและภาพทุกกล้องของนักแสดง 200 คน ให้ได้ตามที่ต้องการ 100% ถือเป็นความท้าทายอย่างมาก
ปัญหาที่ 2 ในส่วนของ Scenario Session ที่ให้นักแสดง 2 คนสนทนากัน โดยธรรมชาติของการสนทนานั้น ผู้สนทนาจะต้องสบตากัน เพราะการสบตาทำให้รู้สึกถึงความเชื่อมโยงระหว่างกัน และช่วยเพิ่มคุณภาพของการสนทนาได้ ในช่วงแรกของการทดลองพบว่า ถ้าต้องการบันทึกวิดีโอเป็นหน้าตรงของผู้พูด กล้องที่ตั้ง 90 องศาจากผู้พูดจะไปบังระดับสายตาของผู้พูดทำให้ไม่เห็นผู้ที่สนทนาด้วย ซึ่งผิดวิสัยของการสนทนา ดังนั้นจึงต้องปรับระดับกล้องลงมาเล็กน้อย แล้วเงยกล้องขึ้นแทน เพื่อให้ผู้สนทนาเห็นหน้ากันและกัน
การปรับระดับ Gain ของสัญญาณไมค์จึงต้องปรับให้อยู่ในระดับที่เหมาะสมมากที่สุด เพราะนี่คือกุญแจสำคัญในงานด้านเสียง
ปัญหาสุดท้าย คือ เรื่องของระดับความดังของเสียงนักแสดง เนื่องจากนักแสดงทั้ง 2 ไม่ได้อยู่ห่างกันมาก และนั่งอยู่ในห้องเดียวกัน การปรับระดับ Gain ของสัญญาณไมค์จึงต้องปรับให้อยู่ในระดับที่เหมาะสมมากที่สุด นี่คือกุญแจสำคัญในงานด้านเสียง หากปรับระดับ Gain มากไป แน่นอนว่า เสียงของนักแสดงหลักจะชัดเจน แต่เสียงของ Head room และนักแสดงอีกฝั่งซึ่งถูกระบุว่าเป็น Noise ทั้งคู่ ก็จะชัดเจนเช่นกัน ซึ่งระดับ Gain ของเสียงพูดที่เหมาะสมจะต้องปรับเปลี่ยนไปตามนักแสดง
เราได้ทำการทดสอบกับนักแสดงไม่อาชีพ 5 คน และนักแสดงอาชีพ 1 คน สิ่งที่ทำให้เห็นความแตกต่างระหว่างนักแสดงอาชีพ/ไม่อาชีพ ก็คือการออกเสียงที่ถูกต้อง ซึ่งรวมไปถึงท่านั่งที่ทำให้ออกเสียงได้อย่างเต็มประสิทธิภาพ นักแสดงอาชีพจะถูกฝึกในด้านนี้ ในขณะที่คนทั่วไปมักจะละเลย
ปัญหาเหล่านี้คือโจทย์ของความท้าทายเบื้องต้นที่พวกเราจะต้องแก้ให้ได้
และคลิปด้านล่างนี้เป็นตัวอย่างของนักแสดงจริง ในมุมกล้อง 0, 60 และ 90 องศา พูดประโยคเดียวกัน แต่สื่ออารมณ์ทั้ง 4 แบบ ได้แก่ มีความสุข, โกรธ, เศร้า และปกติ ลองทายกันดูครับว่าเสียงไหนคืออารมณ์แบบใด มีความคลุมเครือหรือชัดเจนแค่ไหน
ในบทความต่อ ๆ ไป เราจะได้เริ่มต้นเก็บข้อมูลจากโจทย์และสถานที่จริง ซึ่งจะนำมาเล่าประสบการณ์ให้ฟังอย่างแน่นอน โปรดติดตามได้ที่ AIResearch.in.th
ขอขอบคุณ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย
นางสาวศศิกานต์ เสียงจันทร์
นิสิตชั้นปีที่ 4 คณะอักษรศาสตร์ ภาควิชาศิลปการละคร จุฬาลงกรณ์มหาวิทยาลัย
และที่ขาดไม่ได้ ขอขอบคุณผู้สนับสนุนหลักบริษัท Advanced Info Service (AIS)
WRITTEN BY Soravitt Sangnark and Jilamika Wongpithayadisai