Wata が Windows でも動くようになりました。
先日、Wata で1万接続を達成した という記事を書きましたが、gRPC で1万接続するにあたって引っかかったところを纏めました。
Wata の負荷テストをやろうと思っていたのですが、Vの人 に Cloud Speech-to-Text というのを教えてもらって、良さそうだったので組み込みました。
配信側で録音した音声をWataサーバに送信し、Wata サーバで文字起こしをして、受信側 Wata クライアントで音声とテキストの両方を聞ける/見れるようにしました。
Wata で文字起こし機能が動いた で、
まだ確定後に一部の音声を認識できなかったりしているので、そこは修正していきます。真面目に空白期間を検出して区切ってやる必要がありそうですが、Opus はそもそも VAD を用意してくれているので何とかなりそうです。
と書いた通り、Opus の VAD フラグを見て空白期間(無声区間)を検出し、その単位で確定するようにしました。以下のようになります。
Wataでは、クライアントが配信や受信するためにはルームを作る必要があります。
ルーム内にWataクライアントが入っていれば、配信側のWataクライアントが配信したオーディオやデータを、受信側の全Wataクライアントが受信できるようになります。
ルームはクライアントが作るのではなく、Wataを使ったサービスの提供者が事前に作っておくものになると思います。そのためこのAPIにはクライアントから直接呼べないように何らかの認証を付けることになるでしょう(未実装)。
Wataプロジェクトを始めました。現在開発中です。
進捗をちょこちょこ報告していこうと思います。
Wataプロジェクトの情報は以下にまとめています。
Wataプロジェクトについて