STFT와 RNN을 활용한 화자 인증 모델

김민서; 문종섭

STFT와 RNN을 활용한 화자 인증 모델

김민서

문종섭

Vol. 29, No. 6, pp. 1393-1401, 12월. 2019

10.13089/JKIISC.2019.29.6.1393, Full Text:

Keywords: Speaker verification, STFT, Deep Learning, Recurrent Neural Network(RNN)
Abstract

최근 시스템에 음성 인증 기능이 탑재됨에 따라 화자(Speaker)를 정확하게 인증하는 중요성이 높아지고 있다. 이에 따라 다양한 방법으로 화자를 인증하는 모델이 제시되어 왔다. 본 논문에서는 Short-time Fouriertransform(STFT)를 적용한 새로운 화자 인증 모델을 제안한다. 이 모델은 기존의 Mel-Frequency CepstrumCoefficients(MFCC) 추출 방법과 달리 윈도우 함수를 약 66.1% 오버랩하여 화자 인증 시 정확도를 높일 수 있다. 새로운 화자 인증 모델을 제안한다. 이 때, LSTM 셀을 적용한 Recurrent Neural Network(RNN)라는 딥러닝 모델을 사용하여 시변적 특징을 가지는 화자의 음성 특징을 학습하고, 정확도가 92.8%로 기존의 화자 인증 모델보다 5.5% 정확도가 높게 측정되었다.

Statistics

Show / Hide Statistics

Cite this article

[IEEE Style]

김민서 and 문종섭, "Speaker Verification Model Using Short-Time Fourier Transform and Recurrent Neural Network," Journal of The Korea Institute of Information Security and Cryptology, vol. 29, no. 6, pp. 1393-1401, 2019. DOI: 10.13089/JKIISC.2019.29.6.1393.

[ACM Style]

김민서 and 문종섭. 2019. Speaker Verification Model Using Short-Time Fourier Transform and Recurrent Neural Network. Journal of The Korea Institute of Information Security and Cryptology, 29, 6, (2019), 1393-1401. DOI: 10.13089/JKIISC.2019.29.6.1393.