Klasifikasi Topik Multi Label pada Hadis Bukhari dalam Terjemahan Bahasa Indonesia Menggunakan Random Forest

Authors

  • Adhitia Wiraguna Telkom University
  • Said Al Faraby Telkom University
  • Adiwijaya Adiwijaya Telkom University

Abstract

Abstrak Hadis merupakan hal yang wajib untuk dipelajari dan diamalkan oleh umat Islam. Terdapat banyak jenis ajaran yang dapat diambil oleh manusia dengan mempelajari hadis. Untuk membantu umat Islam dalam mempelajari hadis, dibutuhkan sistem klasifikasi multi label untuk mengategorikan Hadis Shahih Bukhari terjemahan bahasa Indonesia berdasarkan tiga topik yaitu larangan, anjuran dan informasi. Dalam membangun sistem klasifikasi teks, terdapat berbagai metode klasifikasi yang dapat digunakan, pada penelitian ini menggunakan Random Forest (RF). Kesederhanaan algoritma RF dan kemampuan yang baik dalam menghadapi data berdimensi tinggi, membuat RF merupakan metode yang cocok dalam melakukan klasifikasi teks. Namun belum banyak diketahui kemampuan RF untuk klasifikasi multi label. Penelitian ini menggunakan metode pendekatan Problem Transformation yaitu Binary Relevance (BR) dan Label Powerset (LP) untuk mengadaptasi RF dalam membangun sistem klasifikasi teks multi label. Hasil penelitian menunjukkan bahwa performansi hamming loss yang terbaik didapat dari sistem yang menggunakan BR dan tidak menggunakan stemming yaitu sebesar 0,0663. Hasil ini menunjukkan bahwa metode BR lebih baik daripada metode LP dalam mengadaptasi algoritma RF untuk melakukan klasifikasi multi label terhadap data hadis. Hal ini dikarenakan metode BR menghasilkan model klasifikasi sebanyak jumlah label pada data hadis dan pada sisi lainnya, hasil transformasi data dari penggunaan LP membuat data yang digunakan menjadi imbalanced.

Kata kunci : Klasifikasi, hadis, multi label, random forest, problem transformation

Abstract Hadith is a mandatory thing to be studied and practiced by Muslims. There are many types of teachings that humans can take by studying the hadith. To assist Muslims in studying the hadith, a multi label classification system is needed to categorize Sahih Bukhari Hadi in Indonesian translation based on three topics, namely prohibition, advice and information. In building a text classification system, there are various classification methods that can be used, in this study using Random Forest (RF). The simplicity of the RF algorithm and good ability to deal with high dimensional data, make RF a suitable method of text classification. But, there is not widely known RF capability for the multi label classification. This study uses the Problem Transformation approach method, namely Binary Relevance (BR) and Label Powerset (LP) to adapt RF in building a multi label classification system. The results showed that the best hamming loss performance obtained from a system that used BR and does not use stemming which is equal to 0,0663. These results indicate that the BR method is better than the LP method in adapting the RF algorithm to perform multi label classification of hadith data. This is happened because the BR method produces a classification model of the number of labels in the hadith data and on the other hand, the transformation of data from the use of LP makes the data are imbalanced.

Keywords: Classification, hadith, multi label, random forest, problem transformation

Downloads

Published

2019-04-01

Issue

Section

Program Studi S1 Informatika