翻譯蒟蒻來了!?Meta 語音轉語音翻譯模型 SeamlessM4T 為何引起熱議

Camille Xu
翻譯柑仔店
Published in
Aug 23, 2023

昨天因為 Meta 發布的SeamlessM4T熬了個夜累死我了(今年真的是讀完研究所之後最認真唸書的一年了

先說結論,這個東西在歐美引發很大關注,在口譯圈可能會直接原地爆炸XD

好,講回正題。

SeamlessM4T簡單來說是一個「語音轉語音」(Speech to Speech Translation, S2ST)的翻譯模型,可支援近 100 種語言「互轉」;當任務是語音輸出時,支援近 100 種語言的輸入,與超過 35 種語言的輸出。

但S2ST 真不是啥新技術,早在2019年,Google 就已經發布了 Translatotron 的S2ST 模型了,後來的 Translatotron2 解決了聲音的encoder和decoder的問題。2023年 Google 的 AudioPalm 在 S2ST 的基礎上疊加了(automated speech recognition, ASR) 和 (text-to-speech, TTS)。

那為什麼 Meta 發布的 SeamlessM4T 引起很多討論?

  1. SeamlessM4T 是一個單一模型,是「多語言」且「多模態」(multimodal),可以做到聲音與文字之間的無縫翻譯(不只多語言,而且還多模態!),包括:文字轉文字、文字轉聲音、聲音轉文字、聲音轉聲音

2. Meta 幾乎所有的LLM都是 open-sourced,可以讓更多人用更低的成本來使用這些模型。

3. 翻譯的根本需求在於「溝通」,而 Meta 擁有 FB 近 30 億用戶、WhatsApp 近 28 億用戶、IG 超過 23 億用戶。

上述三個原因:多功、方便(低成本)、多落地應用可能的因素,讓大家在這個技術上有很多想像,自然就很多討論啦~

對 Meta Seamless M4T 有興趣的人可以去玩玩:https://seamless.metademolab.com/demo

想了解 Google AudioPaLM的人可以到這邊轉轉:https://google-research.github.io/seanet/audiopalm/examples/

想跟我一樣讀書的人可以參考:

Seamless M4T: https://ai.meta.com/blog/seamless-m4t/

Translatotron 2: https://ai.googleblog.com/2021/09/high-quality-robust-and-responsible.html

AudioPaLM: https://arxiv.org/abs/2306.12925

先這樣吧,有興趣的人聊這部分的人可以再找我聊聊欸~

--

--

Camille Xu
翻譯柑仔店

是個愛幻想的夢想家,但總被誤會是理智的實踐者