Speech Emotion Analyzer from Github
Published in
2 min readJul 8, 2019
語音情緒偵測(分析),也是語音研究一塊大餅
目的在於可以根據語音裡的資訊,帶出一個人說話當下的心情、情緒
可以藉由此方式來判讀一個人的心情,近一步地,依據業務流程
例如: 經銷公司可以透過此方式,讓系統推薦使用者當下的情緒適合的商品
自動駕駛也可以偵測駕駛人當下語氣,來間接的操作自駕車的時速。
DataSet
以下介紹的數劇集,是第一次接觸到數據,並非大量,零零總總約1920個音檔,每個音檔約3–5秒左右。
- RAVDESS :
Ryerson Audio-Visual Dataset of Emotional Speech and Song
https://zenodo.org/record/1188976
此資料集涵蓋了1500個音檔,從24個不同的演員,
其中12位男生、12位女生
錄製了8種不同情緒的短語音,
1: 中性、2:冷靜、3: 開心、4:難過、5:生氣、6:害怕、7:厭惡、8:驚喜 - SAVEE : Surrey Audio-Visual Expressed Emotion
http://kahlan.eps.surrey.ac.uk/savee/Download.html
約有500個短語音,由四位不同的男性所錄製的短語音。
一位男性有15句,也分別對應到不同的七種情緒
(與上面一樣,只少一個冷靜)
透過將波形訊號,轉換成頻譜圖、MFCCs(此文是使用13維的資訊,並對特徵做正規化)
以此特徵值作為輸入,藉由四層CNN
(此處沒有完全連接層 Fully connection ),
所以此模型算是FCN 全卷積神經網絡 ( Fully Convolution Network )
並且只有在第二層卷積層有應用Max-Pooling
語音情緒偵測,隸屬於分類的屬性,所以此任務總共有16個類別,其中還得判別出性別是否為男或女。
最後訓練跟測試出的結果,反應此模型的有效性,
並且有實際側錄一則語音進行outside test
也正確判讀出情緒。
但必須說,因為此模型、此任務訓練的資料集不多,
且語音資訊都是text-dependent
意思就是,每個語者以及每個情緒,雖然說不同,
但語音的內容實際上是一樣的(講一樣的話)