Simulasi Dan Analisis Speaker Recognition Menggunakan Metode Mel Frequency Cepstrum Coefficient (mfcc) Dan Gaussian Mixture Model (gmm)

Penulis

  • Doanda Khabi Putra Telkom University
  • Iwan Iwut Telkom University
  • Ratri Dwi Atmaja Telkom University

Abstrak

Tugas akhir ini membahas mengenai pengenalan pembicara (speaker recognition), yaitu mekanisme pengenalan identitas subjek berdasarkan ciri suaranya. Pertama, sinyal suara subjek yang diuji diekstraksi cirinya menggunakan metode MFCC (Mel Frequency Cepstrum Coefficient). Tahapan di dalam MFCC termasuk diantaranya adalah pre-emphasis, framing, windowing, FFT (Fast Fourier Transform), mel scaling dan DCT (Discrete Cosine Transform), yang mana keluaran MFCC adalah feature vector yang dinamakan cepstrum. Selanjutnya, cepstrum dari masing-masing subjek akan dimodelkan menggunakan metode GMM (Gaussian Mixture Model). Tahapan di dalam GMM termasuk diantaranya adalah Expectation-step dan Maximization-step, yang mana keluaran GMM adalah distribusi Gaussian dengan parameter mean (µ) dan variance ( ) yang unik untuk masingmasing subjek. Proses klasifikasi dilakukan dengan membandingkan parameter distribusi Gaussian antara data latih dan data uji. Pada penelitian internasional sebelumnya oleh kelompok mahasiswa di Preston University dan Jinnah Women University, Pakistan, dengan judul “Speaker Identification Using GMM with MFCC†diperoleh akurasi sebesar 87.5% dengan metode ekstraksi ciri MFCC, metode clustering K-Means, metode modelling GMM dan diklasifikasikan menggunakan log probability. Pada tugas akhir ini, kita akan melewatkan tahap clustering dan tahap klasifikasi dilakukan dengan melakukan perbandingan pada distribusi Gaussian memanfaatkan parameter mean (µ) dan variance ( ), dimana merupakan cara paling cepat dan mudah. Pada tugas akhir ini, diusahakan akurasi yang didapat mampu mendekati penelitian yang sudah ada mengingat tahap klasifikasi yang digunakan bisa dikatakan cara ‘kasar’ dalam penggunaan Gaussian Mixture Model (GMM) sehingga tidak bisa diekspektasikan lebih baik, meskipun banyak faktor lain yang bisa mempengaruhi akurasi simulasi. Kata kunci: Speaker recognition, Mel Frequency Cepstrum Coefficient (MFCC), Gaussian Mixture Model (GMM), Expectation Maximization (EM)

##submission.downloads##

Diterbitkan

2017-08-01

Terbitan

Bagian

Program Studi S1 Teknik Telekomunikasi