Identifikasi Komentar Toksik Dengan Bert
Abstract
Abstrak Dalam penelitian ini, penulis menggunakan metode BERT untuk mengidentifikasi komentar toksik. Penulis membandingkan model yang dihasilkan dari dataset User Generated Content(UGC) dan dataset UGC yang telah dinormalisasikan. Arsitektur BERT yang telah dipre-train ditambah dengan output layer untuk klasifikasi teks. Hasil akhir dari penelitian tugas akhir ini menyatakan bahwa menormalisasikan dataset UGC terlebih dahulu tidak diperlukan d alam pelatihan model BERT.
Kata kunci: klasifikasi teks, deep learning, bert, transformers, attention, klasifikasi
Abstract In this research paper, the author used BERT method to identify toxic comments. In this paper, the author compares BERT models which are trained with a raw User Generated Content(UGC) dataset and a normalized UGC dataset. The pre-trained BERT model is added with an output layer to classify the texts. The end result from this research paper revealed that UGC dataset normalization is not required in BERT model training.
Keywords: text classification, deep learning, bert, transformers, attention, classification