Voice Activity Detection (仮) 機能

V
shiguredo
Published in
2 min readJan 15, 2018

WebRTC SFU Sora に将来的に搭載される Voice Activity Detection (仮) 機能を紹介します。

注意: この機能はまだ開発中です

この機能は音声を発している人だけの映像が配信されるといった機能です。

まずは動画をご覧ください。以下の動画は 4 人の会議で音声を発している人映像が切り替わるようになっています。

フェイクの音声と映像を利用しているためわかりにくいかもしれませんが、なんとなく雰囲気を感じ取ってもらえれば幸いです。

あまりうまく録画できなかったので、高解像度、全画面で見ていただければと思います。

反映が遅かったり入れ替わりがおかしくなる部分は実装が甘い部分です。今後、改善していきます。

強み

  • 30 人で会議をしていてもアクティブな人を 2 名までに制限すれば受け取る音声や映像が 2 人のみになるため、クライアント側の負荷が減る
  • 配信していない音声や映像の復号を行わないためサーバ側の負荷が減る
  • すべての処理をサーバで行っているためクライアント開発は特にいらず、SDK を利用すれば気軽に可能です。

課題

  • 同時に 10 人が話をしたりする場合の処理がケースバーイケースになる
  • 実装が死ぬほど複雑

今後

今年の春までには、お試しできるように開発中です。

Voice Activity Detection (仮) 機能は WebRTC SFU が弱いと言われている部分を解決する機能です。これを使うことで WebRTC を利用した会議がより便利になればと考えています。

WebRTC SFU Sora に興味がある方は sora at shiguredo.jp までご連絡ください。

--

--