Identificando pessoas através da voz

Neto Oliveira
Apr 24 · 7 min read
Testing my system. Imagem pertence a dvsgamming

Qual o problema?

Cena de Os incríveis 1, pertence a: Walt Disney

Afinal, o que é a voz?

Am I a joke to you ?

Sinal digital

Miau em sinal digital. Mentira, imagem retirada do Wikipédia

Técnica

Thank you, next

Transformada de Fourier

Imagem pertencente à nti-audio

Espectrograma

Espectrograma pertencente à librosa

Desenvolvimento

Captura do áudio

pip install loop-listen
./output/audio/

Processamento do áudio

Você pode plotar a variável processed a partir da função plt.matshow()

Combinação de dataset

Construção do Modelo

.::Parâmetros::.Total params: 1,829,446
Trainable params: 1,828,036
Non-trainable params: 1,410
Representação visual do modelo porposto por Sakashita e Aono
precision    recall  f1-score   support           0       1.00      0.98      0.99       105
1 0.83 1.00 0.91 10
micro avg 0.98 0.98 0.98 115
macro avg 0.92 0.99 0.95 115
weighted avg 0.99 0.98 0.98 115

Conclusão

Consideração final



Ensina.AI

Tudo sobre Inteligência Artificial em Português

Neto Oliveira

Written by

Desenvolvedor WEB a 2 anos, atualmente se aventurando em desenvolvimento para internet das coisas e machine learning. GitHub: https://github.com/netoolii

Ensina.AI

Ensina.AI

Tudo sobre Inteligência Artificial em Português