Klasifikasi Multi Label Pada Hadis Bukhari Terjemahan Bahasa Indonesia Menggunakan Random Forest, Mutual Information, Dan Chi-square

Hadiyan Nadzri Harish, Said Al Faraby, Mahendra Dwifebri

Abstract

Hadis merupakan sumber hukum kedua bagi umat Islam setelah Al-Qur’an. Oleh karena itu, umat Islam dianjurkan untuk mengetahui dan mengamalkannya. Umumnya Hadis dikoleksi oleh beberapa imam besar, salah satunya adalah koleksi Hadis Imam Bukhari. Dalam Hadis terdapat beberapa kategori jenis ajaran, seperti jenis ajaran Hadis yang mengandung anjuran, larangan, dan informasi. Untuk mengenali karakteristik Hadis terjemahan Bahasa Indonesia berdasarkan kategorinya, pada penelitian ini akan dibangun sebuah sistem yang mampu menggelompokkan Hadis kedalam tiga kategori yaitu anjuran, larangan, dan informasi. Dalam mengelompokkannya diperlukan sebuah sistem klasifikasi. Pada penelitian ini, berbagai metode klasifikasi dapat digunakan salah satunya adalah Random Forest. Random forest merupakan metode klasifikasi yang memiliki kemampuan menggeneralisasi suatu data berdimensi tinggi. Random Forest ini dipercaya dapat menyelesaikan proses klasifikasi dengan hasil yang akurat, namun memiliki kelemahan yaitu terjadinya overfitting ketika menghadapi jenis data dengan jumlah fitur yang banyak. Dalam penelitian ini seleksi fitur yang akan digunakan yaitu Chi-Square. Metode seleksi fitur dapat membantu proses penyeleksian dari sekumpulan fitur asli dengan tujuan menyisihkan fitur-fitur yang tidak relevan terhadap masing-masing kelas. Nilai akurasi optimum yang dihasilkan dari beberapa pengujian yang dilakukan menunjukkan nilai akurasi sebesar 91,7% data terklasifikasi dengan benar menggunakan Chi-Square sebagai fitur seleksi dan tanpa proses stemming. Kata kunci: klasifikasi multi-label, hadis bukhari, Random Forest, Mutual Information, Chi-square

Full Text:

PDF

Refbacks

  • There are currently no refbacks.