AI從「語音辨識應用」談起

3 min readAug 10, 2018

說到人工智慧，大家腦中浮出的第一印象，也許是好萊塢名導史蒂芬史匹柏，在2001年推出的電影作品《A.I.人工智慧》中，那個名叫大衛的機器人男孩。然而今日，人工智慧一詞頻見於報章媒體，不同於17年前的電影想像，現今的人工智慧，已經滲透到我們的日常生活場景，為生活帶來便利，而其發展與應用，更受到了高度矚目。

所謂「人工智慧」（Artificial Intelligence），意指用人工方式，來實現人類所具有之智慧的技術。不過，目前實現同等於人類智能的技術尚不存在，即使是近年IBM打造出聞名遐邇的華生（Watson），它能夠使用自然語言來回答問題，2011年還在美國著名益智問答節目《危險邊緣》（Jeopardy）擊敗了真人選手取得冠軍，但充其量只是「看起來」好像能跟人一樣思考、反應、作答而已，它是稱為「認知運算（Cognitive computing）」的電腦演算法邏輯下的產物。其實世界上絕大多數的人工智慧應用，還是局限在某個特定場景，解決某些特定問題。

一般認為現今人工智慧的應用領域主要有三：分別是語音辨識、影像辨識與自然語音處理。其中語音識別研究早在1970年代便已著手展開，歷經數十年來的蟄伏，未能普及應用，直到蘋果iPhone 4S問世，首將人工智慧助理Siri搭載其中，美國各家資訊科技大廠接連推出自家版的語音助理服務，一場虛擬助理服務大戰順勢迸發，如谷歌的Google Now（2012）、亞馬遜Alexa（2014）、微軟的Cortana（2014），就連LINE的Clova，目前雖然只會說日文、韓文，估計不久後就能開始說中文了。

語音辨識（speech recognition）技術，也被稱為自動語音識別（Automatic Speech Recognition, ASR）、電腦語音識別（Computer Speech Recognition）或是語音轉文本識別（Speech To Text, STT），其目標是透過電腦，自動將人類的語音內容轉換為相應的文字。大家所熟悉的語音助理便是其應用。例如Google Now使用自然語言使用者介面（Natural language user interface），透過一系列的Web服務來回答問題、提供建議、執行動作，擴充了Google搜尋手機應用程式的功能。又如你可以和Siri互動對話，它除了能幫忙搜尋資料、查詢天氣、設定手機日曆、設定鬧鈴、傳送電子郵件之外，有時它的趣味回應，也讓人不禁莞爾。

同時，語音不只是表達語言而已，更進一步，最近的研究，已經希望在辨識的過程中能進一步將發音人的情緒與其他參數考慮進去，相信在不久的將來，語音辨識不但能辨認發音人的發音內容，也能進一步的了解發音人當下的情緒狀態。

Jenny Liu（政治大學傳播系、日文系雙主修，目前服務於日商公司)
Michael Han（政治大學語言所碩士，科技公司執行長）

AI從「語音辨識應用」談起

Written by 韓駿逸 (Michael)