Klasifikasi Teks Multi Label Pada Hadis Dalam Terjemahanbahasa Indonesia Berdasarkan Anjuran, Larangan Dan Informasi Menggunakan Tf-idf Dan Knn
Abstrak
Abstrak
Hadis adalah segala sesuatu yang dinisbatkan kepada Nabi Muhammad SAW baik berupa perkataan,
berbuatan atau sikap. Hadis merupakan pedoman hidup kedua bagi umat muslim setelah AL Qur’an.
Sebagai pedoman hidup, umat muslim sangat diharuskan mempelajari Hadis. Melakukan kategorisasi
pada Hadis adalah salah satu cara untuk mempermudah dalam mempelajari Hadis. Penelitian ini
bertujuan untuk melakukan klasifikasi terhadap Hadis. Hadis yang digunakan adalah Hadis shahih
Imam Bukhari. Klasifikasi yang dilakukan adalah klasifikasi multi label. Kelas yang digunakan adalah
kelas anjuran, larangan dan informasi. Ekstraksi fitur yang digunakan adalah N-Gram dengan nilai n = 1
(unigram) dan n = 2 (bigram). Sedangkan fitur seleksi yang digunakan adalah TF-IDF. Klasifikasi
digunakan menggunakan metode k-NN. Skenario percobaan dilakukan dengan mencoba beberapa nilai k
pada k-NN, penambahan threshold pada df (document frequency) untuk perhitungan TF-IDF dan
melakukan beberapa perubahan pada tahap preprocessing. Untuk mendapatkan hasil evaluasi yang dapat
dipercaya, digunakan cross validation. Sedangkan untuk evaluasi dari sistem yang telah dibangun,
dihitung menggunakan nilai F1-score. Berdasarkan beberapa percobaan yang dilakukan didapatkan nilai
F1-score terbaik sebesar 0.853. Hasil tersebut menunjukan metode k-NN lebih baik dibanding metode
ANN dan metode baseline pada klasifikasi hadis multi label.
Kata kunci : Klasifikasi multi label, Hadis, k-NN, TF-IDF, N-gram
Abstract
Hadith is everything that is attributed to the Prophet Muhammad either in the form of words, works or
attitudes. Hadith is the second life guide for Muslims after the Qur'an. As a way of life, Muslims are
strongly required to visit the Hadith. Categorizing the Hadith is one of many way to ease people learn
Hadith. This study aims to make a classification of the Hadith. The hadith used is the Imam Bukhari
Sahih Hadith. The classification carried out is a multi label classification. The class used is a class of
recommendations, prohibitions and information. Feature extraction used is N-Gram with a value of n = 1
(unigram) and n = 2 (bigram). While the feature selection used is TF-IDF. For classification method used
is the k-NN method. The trial scenario is done by trying several k values on k-NN, the threshold on df
(document frequency) for calculating TF-IDF and do some changed at the preprocessing stage. To get a
reliable evaluation result, cross validation used. Evaluation of the system that has been built, it is
calculated using the F1-score. Based on some of experiments conducted, the best F1-score was 0.853.
These results indicate that the k-NN method is better than the ANN method and the baseline method in
the multi label hadith classification.
Keywords: Multi label classification, Hadith, kNN, TF-IDF, N-gram