Implementasi Sistem Pengenalan Ucapan Bahasa Indonesia Menggunakan Kombinasi Mfcc Dan Pca Berbasis Hmm

Fathurrohman Elkusnandi, Adiwijaya Adiwijaya, Untari Novia Wisesty

Abstract

Abstrak Karya tulis ini membahas implementasi sistem pengenalan ucapan dalam bahasa Indonesia dimana suatu perangkat membaca file suara lalu ditranslasikan menjadi teks sesuai dengan kata yang diucapkan pada file suara tersebut didasarkan pada kata yang sudah dilatih ke dalam sistem. Metode MFCC digunakan untuk proses ekstraksi ciri dimana akustik vektor atau vektor ciri direduksi jumlah dimensinya menggunakan PCA, lalu hasil ektraksi ciri tersebut diklasterkan dengan algoritma Y. Linde, A. Buzo, dan R. Gray (LBG) dan diklasifikasikan menggunakan HMM. Pengurangan dimensi pada vektor akustik atau vektor ciri dilakukan karena jumlah dimensi data yang diekstrak dari sinyal suara menggunakan MFCC yang tinggi. Metode PCA dipilih karena PCA mampu memproyeksikan data ke space yang bervariansi tinggi sehingga data yang redundant atau kurang signifikan bisa direduksi. Selain itu pengurangan dimensi pada vektor ciri dapat meningkatkan performansi sistem dikarenakan jumlah dimensi yang berkurang akan mengurangi data yang harus dikalkulasi oleh sistem. Hasilnya sistem mampu mengenali kata dengan rata – rata akurasi sebesar 80,19%, namun performansi sistem tidak naik secara signifikan yaitu paling tinggi hanya sebesar 3,29% untuk proses pelatihan, dikarenakan hanya proses kuantisasi vektor yang jumlah data untuk dikalkukasinya berkurang, selain itu proses PCA menambah beban sistem yang sebelumnya tidak ada.

Kata kunci : pengenalan ucapan, MFCC, LBG, PCA, HMM

Abstract This paper talks about the implementation of speech recognition in Bahasa Indonesia. The system will translate audio file into text according to the spoken word that has been trained into the system. MFCC method is used for feature extraction where feature vector dimension is reduced with PCA method, then it quantized using Y. Linde, A. Buzo, and R. Gray (LBG) and classified with HMM method. The reduction of the feature vector dimension is applied because the number of dimension in MFCC feature from MFCC method is very high. PCA is chosen because the PCA can project the data into a space where the variance is high with the order of the dimension, so the redundant and less important data can be reduced. Also, the dimension reduction can affect the system performance, because lesser dimension means lesser data to be calculated. The results show that the system can recognizes word with 80.19% accuracy, but there is no significant improvement in system performance, the highest improvement is at around 3.29% for training process, because only at vector quantization process where the number of data has decreased, also the PCA process add process time that wasn’t there before.

Keywords : speech recognition, MFCC, LBG, PCA, HMM

Full Text:

PDF

Refbacks

  • There are currently no refbacks.
max_upload :0