History of Speech Synthesis: Mechanical & Electrical Era

การสังเคราะห์เสียงด้วยคอมพิวเตอร์เริ่มต้นได้อย่างไร

Thanat Lapthawan
Vulcan Coalition
5 min readDec 28, 2020

--

ปัจจุบัน เทคโนโลยีปัญญาประดิษฐ์ (artificial intelligence หรือ AI) ไปไกลในระดับที่เริ่มสามารถเทียบเท่ากับมนุษย์ในบางมุมได้ ไม่ว่าจะเป็นด้านภาษาเช่น GPT-3 เป็น AI ที่สามารถสร้างสรรค์ภาษาออกมา ซึ่งสามารถเขียนเป็นบทความได้เลยทีเดียว ในด้านของเสียงเอง AI ก็สามารถรับคำสั่งเสียง (speech recognition) และนำคำสั่งเสียงไปประมวณผลทางภาษา (natural language processing) จากนั้นก็โต้ตอบกับเราผ่าน AI สังเคราะห์เสียง (speech synthesis)

ในยุคที่การใช้งานเทคโนโลยีมีความเปลี่ยนแปลงไป การใช้งานผ่านหน้าจอสัมผัสเริ่มเป็นเรื่องที่ทุกคนเริ่มเคยชิน การใช้งานผ่านระบบเสียง (voice interface) เริ่มเป็นที่จับตามองกันมากขึ้น เนื่องจากเราสื่อสารผ่านการพูดคุยกันเป็นเรื่องปกติอยู่แล้ว การที่เราสามารถใช้งานผ่านการพูดคุยนี้ได้ ทำให้เทคโนโลยีเป็นส่วนหนึ่งกับชีวิตของเราได้ดีขึ้น (seamless experience) ตัวอย่างเทคโนโลยีที่ใช้งานผ่านระบบเสียงได้แก่ Google Home, Alexa, Siri, และ Microsoft Cortana โดยสามารถรับคำสั่งผ่านการออกเสียงและทำตามคำสั่งเหล่านั้นได้ อีกทั้งยังมีการตอบโต้กลับผ่านภาษาพูด ซึ่งมีน้ำเสียงที่เริ่มเหมือนมนุษย์เข้าไปทุกวัน

แน่นอนว่าการที่ AI สามารถพูดโดยมีน้ำเสียงที่คล้ายกับมนุษย์ได้มากเท่าไหร่ ประสบการณ์และความรู้สึกที่ดีจากการใช้งานก็มีมากขึ้นเท่านั้น อีกทั้งยังสามารถปรับเปลี่ยนน้ำเสียง ตามความชื่นชอบของเราได้อีกด้วย

แต่กว่าจะมาเป็น AI สังเคราะห์เสียงที่เราได้ยินในปัจจุบันนั้น มันมีความเป็นมาอย่างไร ในบทความนี้จะพาไปชมระบบสังเคราะห์เสียงในยุคแรกที่เรียกว่าเป็นยุคของการสังเคราะห์เสียงด้วยระบกลไกและวงจรไฟฟ้า (The mechanical and electro-mechanical era)

อะไรคือ Speech Synthesis

การสังเคราะห์เสียงด้วยระบบคอมพิวเตอร์ (speech synthesis) เป็นการสร้างเสียงที่มีลักษณะคล้ายเสียงมนุษย์ผ่านการควบคุมในรูปแบบต่าง ๆ เช่นการป้อนข้อความในรูปแบบตัวอักษรหรือการปรับเปลี่ยนค่าพารามิเตอร์ (parameter) ของระบบ ซึ่งระบบ speech synthesis ที่เป็นที่นิยมมากที่สุดคือระบบแปลงจากข้อความเป็นเสียง (text-to-speech) เนื่องจากเราสามารถใช้งานได้ง่าย เหมือนกับการที่เราเตรียมแค่บทพูดและให้ AI อ่านบทพูดนั้น ๆ ให้เรา

เป้าหมายในการพัฒนา Speech synthesis นั้นมีอยู่สองอย่างหลัก ๆ ได้แก่เรื่องของความแม่นยำในการสังเคราะห์เสียง (accuracy) และความเป็นธรรมชาติของเสียง (naturalness)

The mechanical and electro-mechanical era

หลังจากที่ได้มีการศึกษาเรื่องของคลื่นเสียงในช่วงปี 1750 ความรู้เรื่องขอกออกสร้างเสียงของมนุษย์เรานั้น ยังมีน้อยมาก ในปี 1773 นักวิจัย Christian Gottlieb Kratzenstein ได้ตั้งคำถามว่า เราสร้างเสียงต่าง ๆ จากการพ่นลมจากปอดได้อย่างไร ซึ่งก็เป็นจุดเริ่มต้นที่ทำให้เขาสร้างเครื่องดลตรีที่พยายามเลี่ยนแบบเสียงสระต่าง ๆ ของมนุษย์เรียกว่า Vowel organ น่าเสียดายที่เครื่องต้นแบบนั้นศูนย์หายไประหว่างการจัดแสดง

เป้าหมายแรก ๆ ของการพัฒนาอุปกรณ์สังเคราะห์เสียงคือการสร้างกลไกที่ทำให้เกิดเสียงได้เทียบเคียงกับมนุษย์ โดยมุ่งเน้นให้สร้างคลื่นเสียงแบบต่าง ๆ ให้ใกล้เคียงกับเสียงที่มนุษย์พูดได้มากที่สุด หรือก็คือความแม่นยำในการออกเสียง (accuracy) เพื่อที่จะเรียนรู้และเข้าใจวิธีการออกเสียงของมนุษย์ ส่วนความเป็นธรรมชาติของเสียงนั้น (naturalness) ตามมาทีหลัง หลังจากที่เราเริ่มเข้าใจเกี่ยวกับกลไลการออกเสียงของมนุษย์มากยิ่งขึ้น

ในยุคแรก ๆ นั้น ระบบสังเคราะห์เสียงเป็นอุปกรณ์ที่มีกลไก (mechanical device) ลักษณะคล้ายระบบทางเดินเสียงของคน (vocal tract) โดยมีลักษณะเป็นตัวสะท้อนเสียง (acoustic resonator) รูปทรงต่าง ๆ ที่เมื่อส่งคลื่นเข้าไปแล้ว ตัวสะท้อนเสียงจะดัดแปลงคลื่นให้เป็นเสียงสระต่าง ๆ ในปี 1791 Wolfgang von Kempelen ได้พัฒนาเครื่องจักรสังเคราะห์เสียงชื่อว่า Acoustic-Mechanical Speech Machine หรือ Speaking machine [1] โดยมีลักษณะเลียนแบบปอดซึ่งเป็นแหล่งกำเนิดเสียง เส้นเสียง (vocal cord) ซึ่งเป็นตัวสร้างคลื่นเสียงด้วยการสั่นในจัวหว่ะที่เท่า ๆ กัน และตัว acoustic resonator ซึ่งเป็นตัวดัดแปลงคลื่นเสียงให้เป็นเสียงต่าง ๆ ด้วยการสะท้อน โดยเครื่องนี้สามารถสร้างเสียงสระและพยันชนะอย่างง่ายได้ อีกทั้งยังสร้างเป็นประโยคสั้น ๆ ง่าย ๆ ได้อีกด้วย ต่อจากนั้นก็ได้มีการพัฒนาเครื่องจักรตัวสังเคราะห์เสียงหลากหลายแบบ แต่ก็ยังไม่ประสบความสำเร็จการการใช้งานที่ยาก และข้อจำกัดต่าง ๆ ที่ทำให้ตัวเครื่องจักรไม่สามารถสังเคราะห์เสียงได้หลากหลายเหมือนกับมนุษย์ได้

Figure 1 Speaking Machine ที่มา

ต่อมา ได้มีการพัฒนาระบบสังเคราะห์เสียงบนอุปกรณ์ไฟฟ้า (electronic device) โดยใช้หลักการเดียวกันกับระบบสังเคราะห์เสียงด้วยกลไก ในปี 1922 Stewart ได้สร้างวงจรไฟฟ้าสำหรับเพื่อสังเคราะห์เสียงในยุคแรก ๆ [2] โดยตัววงจรจะสังเคราะห์ formant สองอันดับแรกขึ้นมา (formant คือความเข้มข้นของเสียงในแต่ละช่วงความถี่ โดยไล่จากช่วงคลื่นความถี่ต่ำไปยังคลื่นความถี่สูง ซึ่ง formant นี้เกี่ยวข้องกับการสะท้อนของคลื่นเสียงในระบบการเดินเสียงของเรา โดยเสียงที่ต่างกัน จะมีรูปแบบ formant ที่แตกต่างกันออกไป) โดย formant สองอันดับนี้ เพียงพอที่จะสังเคราะห์เสียงสระขึ้นมาได้ แต่ยังคงไม่สามารถสร้างเสียงพยันชนะได้ อีกทั้งเสียงที่สังเคราะห์ขึ้นมายังฟังได้ยาก หลังจากนั้นในปี 1932 ก็ได้มีการเพิ่ม formant ลำดับที่สามเข้าไปทำให้เกิดเสียงที่ใกล้เคียงกับเสียงสระที่เราสามารถฟังออกได้ อุปกรณ์นี้ยังถือว่าเป็นแค่อุปกรณ์ที่สร้างเสียงจากค่าที่กำหนดไว้เท่านั้น ยังไม่ได้เป็นอุปกรณ์ที่สามารถพูดได้ (speaking machine) ซึ่ง Stewart ได้สรุปไว้ว่าการสร้างเสียงที่เหมือนกับเสียงพูดง่ายกว่าการออกแบบและควบคุมอุปกรณ์ให้สามารถพูดเหมือนมนุษย์จริง ๆ ได้

ในปี 1938 Homer Dudley ร่วมกับ Bell Lab ได้พัฒนาระบบสังเคราะห์เสียงบนเครื่องคอมพิวเตอร์สำหรับการสื่อสารชื่อว่า VOCODER (Voice coder) [3] ซึ่งเกิดจากข้อจำกัดในการส่งสัญญาณระหว่างผู้ส่งสารกับผู้รับสาร โดย VOCODER นั้นใช้หลักการของ encoder-decoder ในการบีบอัดคลื่นเสียงจากผู้พูดเป็นสัญญาณและแปลงสัญญาณกลับเป็นคลื่นเสียง ด้วยพลังของ decoder นี้ ทำให้ VOCODER เป็นที่จับตามองและถูกนำไปแสดงโดยการสร้างเสียงเพลง “Daisy Bell” และถูกนำไปประกอบหนัง 2001: A Space Odyssey ส่วนในเรื่องของการใช้งานจริงนั้น VOCODER ถูกนำไปใช้ในการสื่อสารช่วงสงครามโลกครั้งที่สอง

Figure 2 Vocoder ที่มา
Clip 1 Daisy Bell by IBM 7094 Bell Lab

ต่อยอดจาก VOCODER ในปี 1939 Homer Dudley ได้พัฒนาเครื่องที่ได้ถูกเรียกว่าเป็นเครื่องสังเคราะห์เสียงบนอุปกรณ์อิเล็กโทรนิคเครื่องแรกเรียกว่า VODER (Voice Operating Demonstrator) เนื่องจากเป็นเครื่องสังเคราะห์เสียงตัวแรกที่สามารถควบคุมเพื่อสร้างเสียงตามที่ต้องการได้ โดยตัว VODER มีลักษณะคล้ายเปียโน มีปุ่มกดและที่เหยียบเพื่อควบคุมเครื่องสังเคราะห์เสียง ตัว VODER นั้นคือแนวคิดที่เรียกว่าเป็น source-filter model ซึ่งก็คือระบบที่มีแหล่งกำเนิดคลื่นเสียงและระบบกรองคลื่นเสียงให้เป็นรูปแบบเสียงต่าง ๆ ถึงแม้ว่าคุณภาพเสียงจะยังห่างไกลกับความเหมือนคน อีกทั้งการใช้งานที่ยากและต้องฝึกฝนกันเป็นหลักปี แต่ก็ถือว่าเป็นการเริ่มต้นที่ดี อีกทั้งยังเป็นตัวที่ทำให้นักวิจัยจากทั่วมุมโลกหันมาสนใจในด้านของระบบสังเคราะห์เสียง

Clip 2 VODER with example of a synthesized speech
Figure 3 VODER diagram ที่มา

นอกจากนี้แล้ว ในปี 1945 Ralph Potter นักวิจัยใน Bell Lab ยังพัฒนา Sound Spectrograph รูปแบบของคลื่นเสียงที่แสดงถึงความถี่ในช่วงเวลาที่เปลี่ยนไป ซึ่งภายหลังก็ได้ชื่อว่า Spectrogram โดยตัว spectrogram นี้เองก็ได้ถูกนำไปใช้ในสงครามโลกครั้งที่สอง และได้เปิดสู่สาธารณะหลังจากสิ้นสุดสงคราม หลังจากที่เปิดสู่สาธารณะแล้ว ก็ได้มีการนำ spectrogram ไปใช้ในหลากหลายบริบท โดย Ralph Potter ได้ตีพิมพ์บทความในชื่อ Visible patterns of sound [4] ซึ่งตัวอย่างหนึ่งในการใช้งานนั้น คือการช่วนเหลือผู้พิการทางการได้ยิน โดยฝึกให้เขาอ่าน spectrogram เพื่อสื่อสารแทน ต่อยอดจากนี้ ในปี 1951 นักวิจัย Cooper, Liberman, และ Borst ได้พัฒนาเครื่องอ่าน spectrogram เป็นคลื่นเสียงที่ชื่อว่า Pattern Playback [5]โดยใช้ผู้ใช้งานวาดหรือดัดแปลงรูป spectrogram ลงไป ตัว Pattern Playback นี้เองได้ถูกใช้ในการทดลองเกี่ยวกับโครงสร้างของคลื่นเสียงมากมายด้วยความที่ว่า เราจะวาดอะไรลงไปก็ได้ ทำให้เราสามารถศึกษาหน่วยย่อยของคลื่นเสียงได้ด้วยการดัดแปลง spectrogram ในรูปแบบต่าง ๆ อย่างเป็นระบบ

Figure 4 Sound Spectrogram ที่มา
Figure 5 Pattern Payback diagram and machine ที่มา

นอกจากใน Bell Lab แล้ว นักวิจัย Walter Lawrence จาก Signals Research and Development Establishment in Christchurch ได้พัฒนาเครื่อง Parametric Artificial Talker หรือ PAT [6] ในปี 1953 ซึ่งเป็นเครื่องวงจรสังเคราะห์เสียงประกอบด้วยแหล่งกับเนิดเสียงและวงจรการสั่นสะท้อนของเสียง (resonant circuits) สามอันต่อขนานกัน ซึ่งตัวนี้เองได้ถูกใช้ในการทดลองเรื่องของบริบทในการสื่อสาร [7] ซึ่งได้ผลสรุปว่าการรับรู้ของเสียงสระนั้น ขึ้นกับพยางค์ก่อนหน้าด้วย ในเวลาเดียวกันนั้นเอง Gunnar Fant ได้พัฒนา Orator Verbis Electris หรือ OVE I [8] โดย เป็นเครื่องวงจรไฟฟ้าสังเคราะห์เสียงซึ่งต่างจาก PAT ตรงที่จัดเรียงวงจรการสั่นสะท้อนเสียงแบบอนุกรม โดยในการนำเสนอ OVE I นั้น Gunnar Fant และ Walter Lawrence ได้จัดแสดงการสนทนาระหว่าง OVE I และ PAT ด้วย ในช่วงเวลาต่อมา ทั้ง PAT และ OVE จัดเป็นระบบสังเคราะห์เสียงในหมวดของ Formant synthesis เนื่องจากทั้งคู่เป็นระบบที่สังเคราะห์ formant ออกมาเพื่อให้เกิดเป็นคลื่นเสียง

Figure 6 PAT ที่มา

นอกจากวิธี Formant Synthesis แล้ว ยังมีอีกวิธีที่ได้ถูกพัฒนามาควบคู่กันนั่นก็คือ Articulatory Synthesis หรือวิธีการสังเคราะห์เสียงด้วยวิธีแบบจำลองการออกเสียงของมนุษย์ ในปี 1950 วิศวกรชื่อ H.K. Dunn [8] และทีมใน Bell Lab เองก็พัฒนาวงจรการสังเคราะห์เสียงที่เป็นแบบจำลองของระบบทางเดินเสียงของมนุษย์ โดยวงจรประกอบไปด้วยตัวเก็บประจุ ตัวต้านทาน และตัวเหนี่ยวนำ มาประกอบกันเป็นแบบจำลองของ คอหอยและโพรงอากาศในช่องทางเดินเสียง ซึ่งแบบจำลองนี้สามารถควบคุมขนาดของช่องทางเดินเสียง (cross-sectional area)ให้มีขนาดต่าง ๆ เพื่อให้ได้เสียงที่มีความหลากหลาย

Figure 7 Articulatory Synthesis Circuit [8]

ในขณะที่วิธี Formant Synthesis จะเน้นไปในการใช้เพื่อทดลองเกี่ยวกับส่วนประกอบของคลื่นเสียง Articulatory Synthesis จะเน้นไปในการทดลองเพื่อหาความเกี่ยวข้องระหว่างกระบวนการออกเสียงของมนุษย์ (articulatory) และเสียง (acoustic) ทำให้การวิจัยมุ่งเน้นไปที่ความเหมือนจริงของแบบจำลองของระบบทางเดินเสียง

งานของ Dunn ได้ถูกต่อยอดและพัฒนาออกไป โดยนักวิจัย Stevens Kasowski และ Fant ได้ต่อยอดและตีพิมพ์บทความชื่อ An Electrical Analog of the Vocal Tract [9] และ Fant เองก็ได้ทำงานวิจัยของตัวเองอีกด้วย ซึ่งแบบจำลองนี้ถูกนำมาใช้ทำความเข้าใจในการออกเสียงสระของมนุษย์ ซึ่งเรียกได้ว่าเป็นอีกหนึ่งผลงานที่ทำให้เราเข้าใจเรื่องของการออกเสียง (speech production) มากขึ้น

Figure 8 Electricalanalogof thevocaltract, showing the switches and various other controls [9]

งานของ Stevens Kasowski และ Fant นั้นยังไม่ถึงขั้นที่สามารถสังเคราะห์เสียงยาว ๆ ได้ ทำได้เพียงแค่สังเคราะห์เสียงสระทีละเสียงเท่านั้น ในปี 1958 นักวิจัย George Rosen ได้พัฒนา dynamic analog of the vocal tract หรือ DAVO [10] ซึ่งสามารถสังเคราะห์เสียงควบสระสองตัว (dipthongs) หรือเสียงควบสระและพยันชนะได้ แต่ถึงอย่างนั้น ก็ยังไม่สามารถสร้างเป็นประโยคได้

Figure 9 Photograph of the synthesizer. Principal units, from left to right: rack 1, function generators; rack 2, timer with time-selection matrix; rack 3, buzz and noise generators and part of configuration matrix; rack 4, configuration matrix; rack 5, transmission line; rack 6, power supplies for transmission line [10]

ด้วยความก้าวหน้าในเรื่องของการบันทึกเสียง ทำให้นักวิจัยพัฒนาวิธีการที่เรียกได้ว่าเป็น Concatenative Synthesis ซึ่งเกิดจากการบันทึกเสียงและตัดให้เสียงอยู่ในหน่วยย่อยอย่างเช่นเสียงสระและเสียงพยันชนะ ในปี 1953 นักวิจัย Harris จาก Bell Lab ทำการทดลองศึกษาเกี่ยวกับโครงสร้างย่อย ๆ ของเสียงพูด โดยออกแบบระบบที่นำหน่วยย่อยของเสียง (allophone) ที่บันทึกบนเทปแม่เหล็ก มาประกอบกันให้เป็นประโยค [11] ซึ่งแน่นอนว่าวิธีการนี้สามารถสร้างเสียงที่มีความแม่นยำได้ แต่ยังห่างไกลจากคำว่าเป็นธรรมชาติ เนื่องจากเป็นการตัดต่อ ทำให้เสียงไม่มีความไหลลื่น จากการทำลอง Harris ให้ข้อสรุปว่าหน่วยย่อยของเสียงพูดเพื่อที่จะประกอบกันให้ได้เสียงที่มีลักษณะเหมือนมนุษย์นั้น มีมากเกินกว่าที่จะรู้ได้ ซึ่งทางเดียวที่จะคาดการหน่วยย่อยทั้งหมดได้ คือผ่านการทดลองไปเรื่อย ๆ เท่านั้น ในปี 1958 นักวิจัย Peterson, Wang, และ Sivertsen ได้เปลี่ยนไปใช้หน่วยทางเสียงที่เรียกว่า dyad [12] ซึ่งเป็นกลุ่มเสียงสองเสียงเช่นเสียง พยันชนะ-สระ หรือเสียงสระ-สระ โดยกล่าวไว้ว่าแทนที่จะมุ่งเน้นไปที่พยันชนะหรือสระแค่ตัวเดียว การใช้กลุ่มเสียงแบบนี้จะทำให้ได้เสียงที่แม่นยำกว่า อีกทั้งยังทำให้การเปลี่ยนแปลงของเสียง (transition) มีความสมจริงมากขึ้น ข้อจำกัดของวิธีนี้คือขนาดของที่เก็บเสียงจะมีความใหญ่ขึ้นตามจำนวนของหน่วยย่อยของเสียง ยิ่งต้องการให้ได้เสียงที่มีความหลายหลายในเชิงของน้ำเสียงมาก ยิ่งต้องใช้ dyad ที่มากขึ้นเพื่อคงความเป็นธรรมชาติ

จากนั้นไม่นาน ในปี 1960 ก็เริ่มมีการใช้คอมพิวเตอร์มาใช้ในการทำวิจัยมากขึ้น ทำให้เกิดการเปลี่ยนผ่านจากวิธีการแบบ analog ไปเป็น digital ถึงอย่างนั้น วิธีการสังเคราะห์เสียงยังคงมีพื้นฐานมาจาก Formant Synthesis, Articulatory Synthesis, และ Concatenative Synthesis ตามที่กล่าวไว้ในบทความนี้ จนมาถึงปัจจุบันที่ใช้ Concatenative Synthesis ผสมกับ Statistical parametric model speech synthesis เช่น Hidden-Markov Model หรือพวก Deep Learning ก็ตาม

อภิปรายและสรุป

บทความนี้ชวนดูภาพรวมของเครื่องสังเคราะห์เสียงในสมัยของเครื่องกลและวงจรไฟ้ฟ้าว่ามีความเป็นมาอย่างไร จากตอนที่เรายังไม่เข้าใจเรื่องของการออกเสียงมากนัก ว่าเราสามารถสร้างเสียงต่าง ๆ ได้อย่างไร สิ่งที่ใกล้เคียงกับการสร้างเสียงมากที่สุดในสมัยนั้นก็คือเครื่องดลตรี ที่มีการเป่าลมผ่านท่อที่มีรูปทรงต่าง ๆ ทำให้เกิดเสียงที่มีลักษณะที่ต่างกัน จากแบบจำลองง่าย ๆ ตรงนี้ เราก็พัฒนาต่อยอดมาเป็นเครื่องที่มีความซับซ้อนมากขึ้น ซึ่งระหว่างนี้ เราก็มีความรู้เกี่ยวกับคลื่นเสียง และระบบการออกเสียงของมนุษย์มากขึ้น ตามนวัตกรรมที่ถูกพัฒนาออกมา จนกลายมาเป็นพื้นฐานความรู้ในการพัฒนาระบบสังเคราะห์เสียงในปัจจุบัน ถึงแม้ผ่านมามากกว่า 70 ปีแล้ว แต่โครงสร้างพื้นฐานเหล่านี้ก็ยังคล้ายเดิม

หวังว่าผู้อ่านจะได้พบอะไรใหม่ ๆ ในบทความนี้ไม่มากก็น้อย แล้วเจอกันบทความหน้าครับ :D

Reference

[1] Dudley, H., & Tarnoczy, T. H. (1950). The speaking machine of Wolfgang von Kempelen. The Journal of the Acoustical Society of America, 22(2), 151–166.

[2] Stewart, J. Q. (1922). An electrical analogue of the vocal organs. Nature, 110(2757), 311–312.

[3] Dudley, H. W. (1938). U.S. Patent №2,121,142. Washington, DC: U.S. Patent and Trademark Office.

[4] Potter, R. K. (1945). Visible patterns of sound. Science.

[5] Cooper, F. S., Liberman, A. M., & Borst, J. M. (1951). The interconversion of audible and visible patterns as a basis for research in the perception of speech. Proceedings of the National Academy of Sciences of the United States of America, 37(5), 318.

[6] Lawrence, W. (1953). The synthesis of speech from signals which have a low information rate. Information Theory.

[7] Ladefoged, P., & Broadbent, D. E. (1957). Information conveyed by vowels. The Journal of the acoustical society of America, 29(1), 98–104.

[8] Dunn, H. K. (1950). The calculation of vowel resonances, and an electrical vocal tract. The Journal of the Acoustical Society of America, 22(6), 740–753.

[9] Stevens, K. N., Kasowski, S., & Fant, C. G. M. (1953). An electrical analog of the vocal tract. The Journal of the Acoustical Society of America, 25(4), 734–742.

[10] Rosen, G. (1958). Dynamic analog speech synthesizer. The Journal of the Acoustical Society of America, 30(3), 201–209.

[11] Harris, C. M. (1953). A study of the building blocks in speech. The Journal of the Acoustical Society of America, 25(5), 962–969.

[12] Peterson, G. E., Wang, W. S. Y., & Sivertsen, E. (1958). Segmentation techniques in speech synthesis. The Journal of the Acoustical Society of America, 30(8), 739–742.

--

--

Thanat Lapthawan
Vulcan Coalition

AI, Deep learning, Data science, Machine learning, UX, Design Thinking, Math