Pendekatan Metode Transformers Untuk Deteksi Bahasa Kasar Dalam Komentar Berita Online Indonesia

Authors

  • Adriansyah Dwi Rendragraha Telkom University
  • Moch. Arif Bijaksana Telkom University
  • Ade Romadhony Telkom University

Abstract

Abstrak Penggunaan internet dalam keseharian dapat terlihat semakin meningkat dari tahun ke tahun. Aktifitas yang dilakukan pun beragam, dan salah satunya memberikan komentar terhadap suatu postingan. Komentar ini memiliki peranan yang cukup unik, dimana akan merepresentasikan pikiran seseorang dari postingan yang di baca-nya. Konten setiap komentar pun beragam, tetapi akan ada masalah ketika komentar tersebut bersifat kasar. Berkomentar dengan bahasa kasar ini dapat memberikan kesan buruk baik terhadap pembaca komentar ataupun bagi si pembuat postingan. Karena hal tersebut, banyak penelitian yang membuat deteksi bahasa kasar dengan berbagai macam metode, dengan metode machine learning hingga deep learning. Tetapi dalam komentar bahasa Indonesia, masih sedikit atau sulit untuk menemukan deteksi bahasa kasar menggunkan metode deep learning. Sehingga dalam penelitian ini, dikembangkan deteksi bahasa kasar dengan metode deep learning yaitu dengan Bidirectional Encoder Representational from Transformers (BERT). Model yang digunakan berupa model BERT dan model pre-train BERT Multilingual untuk menjadi baseline. Sistem akan mendapat masukan berupa teks komentar yang selanjutnya akan mengeluarkan label untuk mengklasifikasikan teks komentar tersebut, apakah termasuk Offensive, Normal, atau Non Offensive. Hasil dari Scratch model yang dilatih dengan dataset bahasa Indonesia mendapat Macro Average F1 Score sebesar 50% dibandingkan dengan BERT Multilingual sebesar 54%. Kata kunci : BERT, bahasa kasar, berita, deteksi, komentar Abstract Daily use of the internet can be seen increasing from year to year. The activities carried out are also varied, and one of them is giving comments on a post. This comment has a unique role, which will represent someone’s thoughts from the posts they comment on. The content of each comment varies, but there will be problems when the comments are abusive. Commenting in abusive language can give a bad impression both to the reader of the comment and to the creator of the post. Because of this, many studies have made the detection of offensive language using a variety of methods, from machine learning to deep learning. But in the Indonesian commentary, it is still little or difficult to find detection of offensive language using deep learning methods. So that in this study, a deep learning method was developed to detect abusive language, namely the Bidirectional Encoder Representational from Transformers (BERT). The model used is a selfdesigned BERT and a multilingual BERT pre-train model to become baseline. The system will receive input in the form of comment text which will then issue a label to classify the comment text, whether it includes Offensive, Normal, or Non Offensive. The results of the Scratch model trained with the Indonesian language dataset got a Macro Average F1 Score of 50% compared to the BERT Multilingual of 54%. Keywords: abusive language, BERT, comment, detection, news

Downloads

Published

2021-04-01

Issue

Section

Program Studi S1 Informatika