Wata で文字起こし機能が動いた
Wata の負荷テストをやろうと思っていたのですが、Vの人 に Cloud Speech-to-Text というのを教えてもらって、良さそうだったので組み込みました。
配信側で録音した音声をWataサーバに送信し、Wata サーバで文字起こしをして、受信側 Wata クライアントで音声とテキストの両方を聞ける/見れるようにしました。
テキストは青空文庫のナイチンゲールから最初の文章を拾ってきて、それを Cloud Text-to-Speech (音声合成) で喋らせています。
中国という国では、みなさんもごぞんじのことと思いますが、皇帝は中国人です。それから、おそばにつかえている人たちも、みんな中国人です。さて、これからするお話は、もう今からずっとむかしにあったことですけれど、それだけに、かえって今お話しておくほうがいいと思うのです。
これは受信側 Wata クライアントを録画したものです。音声と、それを文字起こししたテキストが両方表示されているのが分かります。
配信側では音声のみを録音して Wata サーバに送信していて、Wata サーバで Google の Cloud Speech-to-Text を gRPC 経由で呼び出しています。確定していない予想の文字列もリアルタイムで受け取っているので、結構早くテキストを表示できています。
まだ確定後に一部の音声を認識できなかったりしているので、そこは修正していきます。真面目に空白期間を検出して区切ってやる必要がありそうですが、Opus はそもそも VAD を用意してくれているので何とかなりそうです。
修正しました→Wata の文字起こし機能を修正した