PyannoteAudio : 話者分離を行うための機械学習モデル

Kazuki Kyakuno

Follow

Published in

axinc

6 min readApr 19, 2024

--

話者分離を行うための機械学習モデルであるPyannoteAudioのご紹介です。PyannoteAudioを使用することで、高精度な話者分離が可能です。

PyannoteAudioの概要

PyannoteAudioは、複数人が会話している音声ファイルを入力して、話者分離を行うための機械学習モデルです。時間ごとに、誰が発話しているかのIDを出力することが可能です。

出典：https://www.youtube.com/watch?v=37R_R82lfwA

GitHub - pyannote/pyannote-audio: Neural building blocks for speaker diarization: speech activity…

Neural building blocks for speaker diarization: speech activity detection, speaker change detection, overlapped speech…

github.com

PyannoteAudioのアーキテクチャ

PyannoteAudioのアーキテクチャは下記のBLOGで解説されています。

One speaker segmentation model to rule them all

CNRS / IRIT / SAMoVA

herve.niderb.fr

入力波形があります。

segmentationモデルを使用して、3人の話者の会話の確率値を出力します。

確率値を元に2値化して、会話にIDを付与します。

長い音声ファイルの場合、5秒ごとにSlidingWindowを使用して確率値を計算し、その結果を結合します。

また、speaker-embeddingのモデルを使用することで、音声からEmbeddingを計算し、SpeakerIDを付与します。具体的に、入力された音声全体を30msごとに10msオーバラップで分割してチャンクごとにEmbeddingを計算し、AgglomerativeClusteringによる階層型クラスタリング（scipy.cluster.hierarchy.linkageとfcluster）でthreshold = 0.7045以下のEmbeddingのクラスタを生成し、クラスタのIDをSpeakerIDとします。

PyannoteAudioの使用方法

ailia SDKからPyannoteAudioを使用するには下記のコマンドを使用します。

python pyannote-audio.py -i ./data/sample.wav

出力例です。

[ 00:00:06.714 -->  00:00:07.003] A speaker91
[ 00:00:07.003 -->  00:00:07.173] B speaker90
[ 00:00:07.580 -->  00:00:08.310] C speaker91
[ 00:00:08.310 -->  00:00:09.923] D speaker90
[ 00:00:09.923 -->  00:00:10.976] E speaker91
[ 00:00:10.466 -->  00:00:14.745] F speaker90
[ 00:00:14.303 -->  00:00:17.886] G speaker91
[ 00:00:18.022 -->  00:00:21.502] H speaker90
[ 00:00:18.157 -->  00:00:18.446] I speaker91
[ 00:00:21.774 -->  00:00:28.531] J speaker91
[ 00:00:27.886 -->  00:00:29.991] K speaker90

ailia-models/audio_processing/pyannote-audio at master · axinc-ai/ailia-models

The collection of pre-trained, state-of-the-art AI models for ailia SDK - ailia-models/audio_processing/pyannote-audio…