SPEAKER IDENTIFICATION MENGGUNAKAN METODE MEL FREQUENCY CEPSTRUM COEFFICIENTS (MFCC) DAN DYNAMIC TIME WARPING (DTW)
Speaker Identification Using Mel Frequency Cepstrum Coefficients (MFCC) And Dynamic Time Warping (DTW) Method
Abstract
ABSTRAK
Suara merupakan alat komunikasi yang paling dasar yang digunakan oleh manusia. Pengenal penutur merupakan proses mengenali identitas dari seorang penutur dengan membandingkan fitur-fitur suara yang di-input-kan dengan semua fitur-fitur dari setiap penutur yang ada dalam database. Dalam identifikasi penutur terdiri dari dua tahap yaitu tahap pengekstrakkan ciri dan tahap pengenalan pola. Untuk tahap pengekstrakan ciri digunakan metode mel frequency cepstrum coefficient (MFCC). Pada tahap pengenalan pola digunakan metode dynamic time warping (DTW) dimana membandingkan antara data uji dengan data referensi pada database dengan cara menghitung warping path. Hasil yang didapat dari penelitian membuktikan bahwa penggunaan nilai threshold akan menentukan keberhasilan sistem pengenalan penutur. Semakin rendah nilai threshold akan menyebabkan penurunan pada persentase tingkat pengenalannya. Ini terbukti dari pengenalan penutur dengan volume suara berbeda persentase terbesar terdapat pada nilai threshold 5,4 sebesar 94% dan nilai threshold terendah yaitu 0,9 sebesar 41%. Sedangkan untuk pengujian penutur diluar database hasil yang didapat adalah persentase tingkat pengenalan sebesar 79%. Ini dipengaruhi oleh besarnya nilai threshold. Nilai threshold antara 3,6 sampai 4,5 memiliki tingkat terima dan ditolak paling baik.
Kata Kunci : MFCC, DTW, Pengenalan Penutur, Nilai threshold
ABSTRACT
The sound is the most basic means of communication used by humans. Identification of speakers is the process of recognizing the identity of a speaker by comparing the features-the inputted voice with all the features of each speaker in the database. In the speaker identification consists of two phases: feature extraction phase characteristics and pattern recognition. For the characteristic extraction phase used mel frequency cepstrum method coefficient (MFCC). At this stage of pattern recognition used method of dynamic time warping (DTW) which compares the test data with the reference data in the database by calculating warping path. The result from the research show that using the threshold value will determine the success of the speaker recognition system. The lower the threshold value will cause a decrease in the percentage level of recognition. This is evident from the introduction of different speakers with the largest percentage of the volume contained in the 5.4 threshold value of 94% and the lowest was 0.9 threshold value of 41%. As for testing the speakers outside the database results obtained recognition rate is the percentage of 79%. It is influenced by the magnitude of the threshold value. Threshold value between 3.6 to 4.5 have high levels of the most well received and rejected.
Keywords : MFCC, DTW, Speaker Identification, Threshold Value