Klasifikasi Multilabel Pada Hadis Bukhari Terjemahan Bahasa Indonesia Menggunakan Mutual Information Dan Support Vector Machine

Authors

  • Mohamad Irwan Afandi Telkom University
  • Adiwijaya Adiwijaya Telkom University
  • Widi Astuti Telkom University

Abstract

Abstrak
Hadis merupakan sumber hukum kedua bagi umat Islam setelah Al-Quran. Banyak sekali hadis yang telah
diriwayatkan, namun Hadis Bukhari memiliki tingkat kesahihan paling tinggi menurut para ulama. Seiring
dengan perkembangan teknologi, hadis sangatlah mudah didapatkan melalui dunia digital. Akan tetapi untuk
mempelajari hadis tidak semudah yang kita bayangkan. Banyaknya hadis yang ada dan juga belum
dikategorikan membuat belajar hadis dengan kategori tertentu sangat sulit dilakukan. Oleh sebab itu penulis
melakukan penelitian klasifikasi anjuran, larangan dan informasi pada Hadis Sahih Al-Bukhari terjemahan
Bahasa Indonesia yang diharapkan dapat mempermudah masyarakat dalam mempelajari hadis. Proses
klasifikasi menggunakan model unigram/bigram dengan Mutual Information (MI) sebagai seleksi fitur dan
Support Vector Machine (SVM) sebagai metode klasifikasi. Pada penelitian ini dilakukan beberapa skenario
pengujian dengan memodifikasi term model, preprocessing, feature selection dan menggunakan beberapa
metode klasifikasi untuk membuktikan bahwa SVM merupakan salah satu metode klasifikasi teks yang cocok
digunakan. Pengujian dengan menggunakan model unigram, tidak menggunakan stopword/stemming,
menggunakan MI dan menggunakan SVM memberikan nilai hamming loss terbaik yaitu 0.0686. Hasil
penelitian yang diperoleh juga menunjukkan bahwa metode SVM dengan menggunakan MI lebih baik
daripada metode klasifikasi teks yang lain.

Kata kunci: Hadis Bukhari, Hamming loss, Klasifikasi, Mutual Information, Preprocessing, Support Vector
Machine.

Abstract
Hadith is the second source of law and guidance for Muslims after the Qur’an. There are many hadiths that
have been narrated, but Bukhari’s hadith has the highest level of validity according to the Islamic scholar.
Along with the development of technology, hadith is very easy to obtain trough the digital world. However,
learning hadith is not as easy as we imagine. The number of hadiths that exist and also not have been
categorized make learning hadith with specific categories very difficult to do. Therefore, the author conducted
a research about classification of suggestion, prohibition and information on Bukhari’s hadith that was
translated to the Indonesian language which is expected to facilitate the public in learning hadith easily. The
classification process uses unigram/bigram model with Mutual Information (MI) as feature selection and
Support Vector Machine (SVM) as classification method. This research used several scenarios of testing by
modifying the term model, preprocessing, selection feature and some kind of classification method to prove
that SVM is one of the text classification method that suitable to use. Testing using a unigram model, without
stopword removal or stemming, using MI and also SVM gives the best hamming loss value, it is 0.0686. The
research also indicates that SVM with MI produces higher accuracy than other text classification methods.

Keyword: Bukhari’s Hadith, Classification, Hamming loss, Mutual Information, Preprocessing, Support
Vector Machine.

Downloads

Published

2019-08-01

Issue

Section

Program Studi S1 Informatika