Pendekatan Metode Transformers Untuk Deteksi Bahasa Kasar Dalam Komentar Berita Online Indonesia

Adriansyah Dwi Rendragraha, Moch. Arif Bijaksana, Ade Romadhony

Abstract

Abstrak
Penggunaan internet dalam keseharian dapat terlihat semakin meningkat dari tahun ke tahun. Aktifitas
yang dilakukan pun beragam, dan salah satunya memberikan komentar terhadap suatu postingan. Komentar ini memiliki peranan yang cukup unik, dimana akan merepresentasikan pikiran seseorang dari
postingan yang di baca-nya. Konten setiap komentar pun beragam, tetapi akan ada masalah ketika komentar tersebut bersifat kasar. Berkomentar dengan bahasa kasar ini dapat memberikan kesan buruk baik
terhadap pembaca komentar ataupun bagi si pembuat postingan. Karena hal tersebut, banyak penelitian yang membuat deteksi bahasa kasar dengan berbagai macam metode, dengan metode machine learning
hingga deep learning. Tetapi dalam komentar bahasa Indonesia, masih sedikit atau sulit untuk menemukan
deteksi bahasa kasar menggunkan metode deep learning. Sehingga dalam penelitian ini, dikembangkan deteksi bahasa kasar dengan metode deep learning yaitu dengan Bidirectional Encoder Representational from
Transformers (BERT). Model yang digunakan berupa model BERT dan model pre-train BERT Multilingual
untuk menjadi baseline. Sistem akan mendapat masukan berupa teks komentar yang selanjutnya akan
mengeluarkan label untuk mengklasifikasikan teks komentar tersebut, apakah termasuk Offensive, Normal, atau Non Offensive. Hasil dari Scratch model yang dilatih dengan dataset bahasa Indonesia mendapat
Macro Average F1 Score sebesar 50% dibandingkan dengan BERT Multilingual sebesar 54%.
Kata kunci : BERT, bahasa kasar, berita, deteksi, komentar
Abstract
Daily use of the internet can be seen increasing from year to year. The activities carried out are also varied,
and one of them is giving comments on a post. This comment has a unique role, which will represent
someone’s thoughts from the posts they comment on. The content of each comment varies, but there will
be problems when the comments are abusive. Commenting in abusive language can give a bad impression
both to the reader of the comment and to the creator of the post. Because of this, many studies have made
the detection of offensive language using a variety of methods, from machine learning to deep learning. But
in the Indonesian commentary, it is still little or difficult to find detection of offensive language using deep
learning methods. So that in this study, a deep learning method was developed to detect abusive language,
namely the Bidirectional Encoder Representational from Transformers (BERT). The model used is a selfdesigned BERT and a multilingual BERT pre-train model to become baseline. The system will receive input
in the form of comment text which will then issue a label to classify the comment text, whether it includes
Offensive, Normal, or Non Offensive. The results of the Scratch model trained with the Indonesian language
dataset got a Macro Average F1 Score of 50% compared to the BERT Multilingual of 54%.
Keywords: abusive language, BERT, comment, detection, news

Full Text:

PDF

Refbacks

  • There are currently no refbacks.