同聲計畫 (Common Voice) 語音資料正式釋出!
作者:George Roter
Mozilla 釋出史上最大的多語開源語音資料集 — — Common Voice (同聲計畫)。此資料集包含來自逾 4.2 萬名貢獻者以 18 種不同語言錄製的語音資料,總長近 1,400 小時。
從一開始,Mozilla 就希望將 Common Voice 打造成全球最多元、專為語音辨識技術優化的語音資料集。同時,我們也承諾保障其開放性:透過公開募集高品質的轉譯語音資料,開放新創公司、研究人員及每一位有志開發語音輔助技術的人使用。
最近我們很高興能釋出第一批多語語音資料集,其中共涵蓋 18 種語言的錄音紀錄,包括:英文、法文、德文和中文(繁體) 等廣泛通行的語言,以及威爾斯語及卡拜爾語 (Kabyle) 等較為冷門的語言。Common Voice 共收集到逾 4.2 萬人貢獻的錄音,總長度約 1,400 小時,且語音資料量仍持續成長中。
在此資料集釋出後,Common Voice 已是同類型的資料集中規模最大者,將數萬人的錄音音檔及對應文字開放給公眾使用 (採CC0 授權)。未來,完整的語音資料集將放在 Common Voice 網站上開放下載。
語音資料品質
在全球社群踴躍參與錄音之下,Common Voice 資料集無論在語音資料量、授權模式和多元性上都無與倫比。貢獻者還可選擇提供年齡、性別和腔調等後設資料,其錄音檔也將附帶一些有助於訓練語音引擎的資訊。
這種做法有別於其他的公開語音資料集。現有的公開資料集不是靠強制手段達成多元 (限制男女比例各半),就是其多元性受制於基礎的語音資料 (如:TEDLIUM 語料庫因資料來自 TED Talks 的演講,男女比例也約為 3:1)。
Common Voices 成長茁壯:8 個月內支援語種從 3 躍增為 22
Common Voice 在 2018 年 6 月開始收集多語語音資料。從那時起,此專案不斷壯大,變得更全球化、更具包容性。其成果已遠遠超出我們的期待:在過去 8 個月間,大批的熱血貢獻者踴躍響應,在 Common Voice 網站上發起 22 種語言錄音檔的收集計畫,另外還有高達 70 種語言的計畫正在進行中。
Common Voice 專案是由社群主導。因為希望有自己母語的語音資料集,世界各地的社群成員主動發起每一種新語言的音檔收集計畫。這些成員有的是熱心的志願者,有的則是平時工作便和語音息息相關的語言學家和科技學家。每推出一種新語言的錄音計畫,網站內容都必須經過在地化翻譯,才能支援該語的語音貢獻和提供貢獻者閱讀的相應文本。
最新加入資料集的語種是荷語、哈卡語 (Hakha-Chin)、世界語、波斯語 (Farsi), 巴斯克語 (Basque) 和西語。在某些情況下,當 Common Voice 推出新語種專案時,那個語言在網路上才開始有能見度。這些由社群自發性推展的計畫在在證明每一種語言 — — 而不只是能為科技公司帶入豐厚利潤的語言 — — 都應該享有一席之地。
我們將繼續和不同語言社群合作,確保其聲音得到應有的尊重,進而催生出該語種的語音辨識科技。在此精神下,Mozilla 最近與德國國際合作機構 (Deutsche Gesellschaft für Internationale Zusammenarbeit,GIZ) 聯手於盧安達首都吉加利 (Kigali) 舉辦問題發想 (ideation) 黑客松,以建立盧安達語 (Kinyarwanda) 的語料庫,藉此為該國開發開源母語語音科技奠定基礎。
改善音檔貢獻體驗,增加提供額外資料的選項
Common Voice 網站是 Mozilla 為支援語音互動技術而建立資料集的重要計畫之一。歷經持續不斷的疊代演進,此計畫才發展成今日的規模。在疊代的過程中,我們認真聆聽社群的聲音、了解貢獻者使用上的疑難雜症,並同時研究網站的可用度,以提高貢獻體驗的便捷性、互動性與趣味性。
貢獻者不僅能掌握每種語言的錄音和驗證進度,還不斷精進整體的錄音體驗,包括:引導錄音的說明會隨每次錄音的片段改變、增加檢查錄音內容及掠過錄音片段的新功能。另外,使用者現在也能更快在「聆聽」和「說話」動作之間切換,並可跳過特定的錄音片段。
另一方面,我們還加入了保留專案紀錄的選項,讓貢獻者掌握自己的錄音紀錄及不同語言音檔的現況。貢獻者也可選擇提供人口特徵資訊,以協助我們改善用以訓練語音識別引擎的語音資料。
去中心化的產品創新:這是馬拉松,不是百米賽跑
Mozilla 致力於促進更多元創新之語音科技生態系的發展。我們不但希望能推出自家的語音技術產品,也立志傾力支援研究人員及小公司的發展,因此,我們一方面透過 Common Voice 釋出語音資料,另一方面,也藉由 Mozilla 機器學習部門的深度語音辨識專案 (Project DeepSpeech) 提供開源語音轉文字和文字轉語音的引擎,以及經過訓練的模型。
我們很清楚這些工作都需要時間,我們也相信,盡早公開釋出和開放使用就能吸引到更多科技學家、企業和組織的參與及回饋,讓專案發展得更好、更符合需求。目前,兩項專案都還在研究階段,其中,DeepSpeech 正穩步朝商品化邁進。
在 Common Voice 資料集和其他資料源的輔助下,DeepSpeech 在技術上已經能夠以人類的精確度即時 (即在語音串流的當下) 將語音轉文字,而可在有人說話的同時,如:演講、電話溝通、電視節目播出、廣播和直播等各種活動進行之際將語音轉譯為文字。
DeepSpeech 引擎現已應用於幾個非 Mozilla 的專案上,包括:開源語音助理技術 Mycroft、開源個人助理技術 Leon,以及被一家私人機構用來轉譯電話語音訊息的 FusionPBX 電話交換系統。Deep Speech 未來將鎖定智慧手機和車用系統等小型的平台設備,以在 Mozilla 內部及市場上推升產品創新。
至於 Common Voice,我們在 2018 年間努力落實計畫理念,使其成為每個語言社群都能使用的工具,並優化網站和建置強大的後台 (如:貢獻者的個人帳號系統)。在未來幾個月間,我們將透過社群的參與和新的夥伴關係,嘗試以不同的方式提高語音音檔的質與量。
我們的目標始終如一:為世界各地有意打造及使用語音技術的每一個人提供更好與更多的資料──因為市場競爭與開放性有益創新。因為小眾語言的保障攸關平等與近用性。因為隱私權及主控權至關重要,對您的語音來說更是如此。
歡迎加入 Mozilla Taiwan Line@ 好友,隨時與我們保持互動!