Wata の文字起こし機能を修正した

Published in

wandbox.org

1 min readMar 1, 2019

まだ確定後に一部の音声を認識できなかったりしているので、そこは修正していきます。真面目に空白期間を検出して区切ってやる必要がありそうですが、Opus はそもそも VAD を用意してくれているので何とかなりそうです。

と書いた通り、Opus の VAD フラグを見て空白期間（無声区間）を検出し、その単位で確定するようにしました。以下のようになります。

以前は認識していなかった部分も、ある程度以上の無声区間があったら文字起こしを確定することでうまく認識するようになりました。

まだ「皇帝」が「お体」になってたり、最後の「です」が「で」で終わっていたりという部分もあるので、これは Cloud Speech-to-Text 側の進化が待たれるところです。

Written by めるぽん