AssemblyAI 想讓人人都能做定制化語音識別，雖然他們只有三個人

4 min readAug 15, 2017

主筆：双双；來源：深圳灣原創

如今的語音技術，不僅僅是巨頭們爭搶的市場，我們也能發現，不少創業公司憑借獨有的技術，在巨頭紛爭的語音市場頑強地前行，AssemblyAI 就是這樣的壹家創業公司。

AssemblyAI 由矽谷著名創業孵化器 Y Combinator 投資，他們希望通過構建 API 讓每個開發者都能快速地開發出定制化的語音交互接口。AssemblyAI 的創始人 Dylan Fox 說：「我們正在構建用於定制化語音識別的 API，開發人員可以用我們的 API 將語音轉錄成文字或者創建自己的語音接口，而且他們不需要做任何數據上的挖掘和訓練，我們會為他們完成海量自定義字詞的識別。」

眾所周知，語音模型的訓練和語音數據的挖掘分析需要耗費大量的人力和資源，非資金雄厚的大公司不能承受，像 AssemblyAI 這樣只有三個人的創業公司要做這樣壹件費時費力又不討好的事情，確實有點像天方夜譚。

作為前思科工程師，Fox 明白壹個創業公司要建立壹個定制化的語音識別系統需要面對不小的挑戰，但他表示，AI 的進步和機器學習的發展使得他們現在正在做的事情成為可能。

Fox 說，首先，他們需要大量的 GPU ，因為語音模型的訓練是計算密集型任務。相比於 CPU，GPU 具有並行度高，內存帶寬高，運行速度快等特點，所以 GPU 不僅僅用於圖像信息的計算，同時也用於大數據或者 AI 模型訓練等需要大量計算的工作。

僅靠三人團隊的力量獲取足夠多的 GPU 陣列有些不現實，不過，好在 Y Combinator 給了他們足夠多的的幫助，用以構建 GPU 雲服務。

除了硬件上的支持，AssemblyAI 技術還需要大量的數據進行訓練。作為創業公司，AssemblyAI 無法像 Google 和 Amazon 那樣調用大量的用戶和數據資源，所以，他們開發了壹款叫做 Harvest 的自主架構，用來在網絡上收集音頻數據。

其實，Harvest 就是壹款爬蟲軟件，它能夠在網絡上尋找並標註可以用於訓練 AI 模型的數據。由於該架構的高準確性，使得 AssemblyAI 可以用高標準的數據來訓練模型，在幾個星期之內，AssemblyAI 已經收集了數百萬條高質量的音頻剪輯，用作其神經網絡的訓練數據。

Fox 表示：「作為創業公司，我們必須開發大量的新技術來實現尖端的 AI 技術，在不久的將來我們還會貢獻更多新的想法和技術。」

另外，Fox 認為良好的用戶體驗也將是他們成功的關鍵，並且另外找了壹個團隊專門做前端的開發和優化。「作為壹家專註於語音識別技術的小公司，我們可以提供比大公司更好的用戶體驗，」對於大公司是否會搶占 AssemblyAI 的市場，他是這樣回答的，「我們會提供更好的技術文檔、更簡單的集成方式，幫助開發者快速上手。」

到目前為止，AssemblyAI 的產品還處於測試階段，有幾家公司開始使用他們的 GPU 雲服務。有關 AssemblyAI 這家創業公司的最新動態，深圳灣將會持續關註。 ■

· ● 推薦閱讀 ● ·

深圳灣（公眾號 ID：shenzhenware）將持續關註物聯網、人工智能、機器人、無人機、智能駕駛、智能家居等領域的新銳產品和初創團隊，歡迎聯系我們。微信私人客服：小炫（ID：warexx）。

版權申明：轉載請註明來自深圳灣，並標明網站地址http://shenzhenware.com。轉載，采訪，投稿，團隊報道聯系公眾號：shenzhenware

AssemblyAI 想讓人人都能做定制化語音識別，雖然他們只有三個人

Written by 深圳灣 shenzhenware