Kategorisasi Berita Multi-label Berbahasa Indonesia Menggunakan Algoritma Random Forest
Abstract
Abstrak
Berita merupakan informasi mengenai sesuatu yang sedang terjadi atau sudah terjadi. Seiring dengan
berkembangnya teknologi dimana berita disajikan dalam bentuk website karena hal itu menyebabkan
jumlah berita digital yang dirilis oleh beberapa portal berita setiap harinya menjadi sangat banyak. Dari
banyaknya ketersediaan dokumen berita yang ada, berdampak pada banyaknya dokumen berita yang
memiliki makna yang sama. Berdasarkan dari uraian diatas dibutuhkan metode-metode pengkategorian
berita yang baik untuk memudahkan dalam pengambilan informasi. Dalam hal ini, banyak metode yang
dapat dilakukan dalam mengkategorikan berita salah satunya dengan metode Random Forest. Tapi
sebelum menggunakan metode tersebut, terdapat beberapa langkah yang harus dilakukan dalam
menentukan nilai dari random forest. Salah satu langkah yang harus dilakukan adalah menentukan feature
extraction dengan metode Regular Expression dan dilanjutkan dengan pembobotan TF-IDF lalu setelah itu
melakukan Cross-Validation dengan k-Fold. Dataset yang digunakan terdiri dari dua jenis yaitu data testing
dan data training. Untuk hasil uji coba diperoleh nilai sebesar 0,126 dari proses persamaan Hamming Loss.
Kata kunci: Random Forest, Dokumen Berita, Feature Extraction, Pembobotan TF-IDF, Cross-Validation,
Hamming Loss
Abstract
News is an information about something that is happening or has happened. Along with the development of
technology where news is presented in the form of websites, it causes a large number of digital news released
by several news portals issued. From the abundance of news document that exist, it has an impact on the
number of news document that have the same meaning. Based on the description above, it needs a good
news categorization methods to facilitate information retrieval. In this case, there are many methods can be
done in categorizing the news one of them by the Random Forest method. But before using this method,
there are several steps must be taken to determine the value of random forest. One step that must be done
is to determine feature extraction using the Regular Expression method and complete it by weighting of TFIDF,
and
then
doing
Cross-Validation.
The
data
used
consists
of
two
types,
testing
data
and
training
data.
For
the
results
of
the
trial
obtained
a
value
of
0.126
from
the
Hamming
Loss
equation
process.
Â
Keywords:
Random
Forest,
News Document, Feature Extraction, Weighting of TF-IDF, Cross-Validation,
Hamming Loss