科技女伶 Toolbox. 1— — 自動化逐字稿工具:雅婷逐字稿,最在地化的語音辦識APP

感謝科技,聽打逐字稿的效率已可以大幅的提昇,本篇是使用聽的懂臺灣國語的「雅婷逐字稿」APP的實測與心得

Kao Yue Yin-Joy
20-20 Women Lead Podcast
7 min readAug 9, 2019

--

Women Who Code Taipei 志工群製作每集「20–20科技女伶播客|20–20 Women Lead Podcast」時,除了錄音、剪輯、文案等,最花時間的就是聽打逐字稿了,為了讓聽眾可以完整了解訪談內容,我們每次都至少請3位志工聯手撰寫20分鐘音檔的逐字稿。原本人工聽打的速度大概是1:10 = 1分鐘的音檔需要花10分鐘完成,意思是每集20分的音檔,要花3個小時又20分才能完成。感謝科技,聽打逐字稿的效率已可以大幅的提昇,以下是使用聽的懂臺灣國語的「雅婷逐字稿」APP的實測與心得。

「雅婷逐字稿」實測以及介面

那我們就一段6月份的中文訪談內容來實際測試「雅婷逐字稿」APP。
該次使用手機Iphone 8s,並於App Store下載「雅婷逐字稿」

使用介面

點選「好」,並允許使用麥克風

在下載APP介紹當中,開發團隊表示,他們是第一個自製且公開的AI語音轉文字服務,並不用有資料被傳出台灣的隱私合資安的疑慮,可以安心使用。

操作頁面

錄製錄音檔的語音辨識範例影片畫面

「雅婷逐字稿」APP使用感想

「雅婷逐字稿」APP的辨識速度、依語意自動修正字詞、單一語言辨識正確度表現皆極為優秀

第一點,是其他的語音辨識工具大部分都無法達到即時捕捉語音的速度,適合使用在訪談性的場合,可以快速捕捉大部分語音內容。

第二點,在語音辨識當中,不斷修正語意的邏輯性,在範例影片當中可以看到,APP會自行辨識修正段落間語音的語言辨識,可以讓使用者在整理逐字稿時能夠更理解當時大概的語音內容,提升聽打的工作效率。

第三點,該次示範影片中,觀察到很有意思的部分。講者原本是說facebook,但辨識的結果為「飛牛牧場」。雖然該APP在辨識英文的部分還沒有完善,但在辨識一些現今新的詞彙或是名詞上,確令人驚訝。

在測試的結果中,雖然沒有達到中英文夾雜都語音辨識的要求,但是在地化的語音辨識方面卻值得讚賞。而目前該APP尚未有標點符號的自動辨識,是以直接跳下一個段落的方式清楚區隔段落,對於逐字稿講求效率方面,未有標點符號的辨識,我認為影響並不大,是能夠使用各種場合的語音辨識系統。

如何有效製作逐字稿 ?

口語表達的邏輯比文字還要鬆散,所以逐字稿若只聽著錄音檔,一字不漏的打出來,可能會因為語順、用字不精確、贅字等狀況,讓沒聽過音檔的人看不懂。 所以要如何在「詮釋意思、原始用詞、文字」間取得平衡,是紀錄者的一大難題。

分享Podcast錄音檔逐字稿的製作四步驟:

  1. 先理解大致上的內容跟和方向以及熟悉會經常出現的詞彙,習慣先將整個訪談內容聽一遍,並同時使用逐字稿APP截取語音內容。
  2. 會以主持人的每個提問為一個段落再聽一遍,並去修改辨識錯誤或缺少的內容,這時候逐字稿大約會達到8成的完整度
  3. 再將逐字稿潤飾一遍,即是提升文字流暢度以及留意內容是否足以傳達講者所表達的,因為有時候在訪談時,講者在闡述時,內容前因後果可能會跳著講,導致讀者會較難閱讀逐字稿,故在最後潤飾時,要大致上稍微調內容但不失原意
  4. 因為受訪者專業領域太廣,從心理、地政、醫療到行銷,等等⋯⋯,某些不確定的專有名詞或詞彙可以和主持人確認,主要能讓只看逐字稿的讀者容易閱讀。

製作Podcast不僅需要團隊合作,還需要選對增加效率的工具。英語自動辦識工具發展的較成熟,所以有較多選擇,如Google Doc裡的Voice Typing、Otranscribe等。中文訪談我們推薦使用台灣人工智慧實驗室研發的「雅婷逐字稿」APP,讓我們能將時間投資在更有價值的事情上。

接下來團隊會持續分享製作Podcast方式的文章,像視覺素材製作方式等。

CAREhER搭配逐字稿收聽

https://lihi1.cc/majQQ/medium-yating

用習慣的APP收聽:

從Anchor選擇

關於「雅婷逐字稿」APP

「雅婷逐字稿」是由台灣PTT之父杜奕瑾創立的台灣人工智慧實驗室於2018年研發推出AILabs的語音辨識系統,該使用語音轉文字(ASR or Speech to Text)、以及自然語言處理(NLP)的技術來開發。其中技術的基礎包括,語音模型(acoustic model)和語言模型(language model),語音模型是指各種聲音在講一個字,意指該APP可以多用來辨識與語言模型,主要是指文字的使用,當該APP對該領域的詞彙熟悉度越高,模型便會更完整。而導入模型的資料,包括多種等公開的臺灣在地資料。目前也廣泛應用在訪談、會議紀錄等場合。官方表示,「雅婷逐字稿」在一般對話的場景中,準確率可達9成。台灣國語或是中英夾雜都可以辨識,可以提升6成的聽打效率。

iOS 載點:

Andoird 載點:

Taiwan AI Labs

--

--