Mozilla 同聲計畫(Common Voice)打開多語大門 壯大開源語音資料

現正收集德、法語和威爾斯語錄音檔 後續將募集包含正體中文在內的40多種語言

Mozilla Taiwan

致力推動網路平等、開放與自由的美商謀智 (Mozilla) ,宣佈其最大開源語音募集專案- 同聲計畫 (Common Voice),將正式打開多語大門!從今日起,同聲計畫已開始收集德語、法語和威爾斯語的音檔,並緊鑼密鼓計畫在後續另募集其他包含正體中文在內的 40 多種語系的語音資料

同聲計畫是 Mozilla 發起的史上最大開源語音募集專案,希望透過此一專案收集用於訓練語音辨識技術的聲音數據。自去年 7 月啟動計畫以來,Mozilla 已透過網站iOS 應用募集到數十萬筆的英語語音樣本。Mozilla 也在去年 11 月發表 同聲計畫第一版資料集。這批語音資料的下載量至今已達數千次,並已用於開發商用語音產品、包括 Kaldi 在內的開源軟體,以及 Mozilla 自己的語音辨識引擎「深入語音辨識」(Deep Speech) 上。

目前,同聲計畫只接受英語音檔,但其目標是支援多種語言,以實現 Mozilla 促成語音技術更開放、便於使用和更具包容性的願景。因此,Mozilla 在過去幾個月間積極與在地語言社群合作,希望於當地推廣同聲計畫,以收集更多種語系和方言的語音資料。

在努力將專案網站在地化之際,這些社群還設計許多建立高品質語音資料集所須特點的語句,以供有意捐聲音的人誦讀和錄音。此外,他們還在各自的國家中推廣這個網站,建立起語音貢獻者的社群,藉此達成各語言音檔總收集時數的目標。

除了英文以外,同聲計畫現在也開始收集法、德、威爾斯語的語音錄音檔,並規劃另增 40 多種 語言,包括正體中文、西班牙文、印尼文和俄文等大眾語言,以及使用者較少的菲士蘭語 (Frysian)、挪威語和楚瓦什語 (Chuvash)。弱勢語言往往不受現有商用數位及語音辨識服務重視,所以,Mozilla 認為有必要收集這些小語言的語音資料。有了資料以後,創業者和社群便有能量來縮短強勢與弱勢語言之間的落差。

同聲計畫開始收集多國語言的音檔,是極為重要的一大步。Mozilla 希望,這對語音辨識技術的整體發展是別具意義的進展。語音技術的民主化不僅能降低全球創新的門檻,也將降低取得資訊的門檻。對於傳統的資訊弱勢族群來說,如:視障者、未受教育者、兒童、年長者等等,此一重要性不容小覷。

Mozilla 在打造全球最大的開源多語語音資料庫之際,很榮幸能獲得越來越多社群的支持。如果您想助我們一臂之力,歡迎您一起捐出聲音。您也可透過 iOS 應用來捐獻語音錄音檔。如果您想將您的語言納入同聲計畫和語音辨識科技,請造訪專案計畫的語言頁。若您所隸屬的組織也想參與此計畫,請與 Mozilla 聯繫。

您也可在論壇找到更多有關參與同聲計畫的資訊,也可在上面提問和與社群互動。

關於同聲計畫 (Common Voice)

同聲計畫是 Mozilla 為充實其語音辨識技術開發工作 — — 「深度語音識別」(Deep Speech) 專案 — — 所推出的計畫。Deep Speech 為精確處理人類語音的開源語音辨識引擎模型,於 2017 年 11 月釋出。隨著專案語音資料日漸茁壯,我們相信此技術將能催生出新一波的創新產品與服務,使人人都能受惠。

原文連結

歡迎加入 Mozilla Taiwan Line 好友,了解更多好文:https://mzl.la/2mcqn79

    Mozilla Taiwan

    Written by

    我們是Mozilla 美商謀智台灣分公司,由非營利組織 Mozilla 基金會所擁有,在台灣為自由開放的網路未來而努力。

    Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
    Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
    Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade