Speech Separation

由 Nima & Yi Luo 在2017年左右提出的全新深度學習框架，應用處理於語音分離(語者分群)的議題。

本篇論文通過在語音訊號的高維嵌入空間中(Embedding Space)創建吸引點(Attractor Points)來提出用於單聲道語音分離的新型深度學習框架，其對應於每個聲源的T-F bins合在一起(類似聚類但又不是)。

由Google團隊及其科學研究者Quan Wang所發布：VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking. 透過聲紋辨識技術的輔助，來提升人聲(語音)分離的效能。

此篇由IEEE Fellow, DeLiang Wang撰寫。

本文僅擷取部分我認為重要的部分，並參照其論文的Reference，附加於文末

Speech Separation 語音分離已經是一個被議論許久的議題，更是語音領域最具有挑戰性的領域，其應用涉及非常廣，Speech Enhancement, Speaker…