Klasifikasi Komentar Toxic Pada Sosial Media Menggunakan SVM, Information Gain dan TF-IDF

Authors

  • Muhammad Ilham Maulana Telkom University
  • Kemas Muslim Lhaksmana Telkom University
  • Mahendra Dwifebri Telkom University

Abstract

Abstrak — Sosial media merupakan suatu bentuk perantara interaksi sosial secara online. Aplikasi media sosial pun sudah dalam banyak bentuk dan di dalam sosial media ini meskipun banyak hal positif yang dapat diambil, ada beberapa juga halhal negatif contoh nya toxic comment. Toxic comment sendiri tidaklah mudah untuk dideteksi secara manual, maka penelitian berencana untuk mengklasifikasikan toxic comment tersebut menggunakan machine learning. Beberapa penelitian untuk klasifikasi toxic comment sudah dilakukan, dalam beberapa penelitian tersebut digunakan metode Support Vector Machine. Dalam penelitian ini metode yang digunakan adalah Support Vector Machine (SVM) sebagai classifier, Information Gain sebagai feature selection dan TF- IDF sebagai feature extraction. Data-data yang dikumpulkan adalah melalui cuitan twitter beberapa pengguna di media sosial tersebut. Komentarkomentar tersebut dikumpulkan menjadi satu lalu diklasifikasikan menggunakan metode-metode yang sudah disebutkan.

Kata kunci— Sosial media, Klasifikasi teks, Toxic comment, SVM

References

REFERENSI

B. B. BY BY Andrew Perrin,

Communications Manager 202.419.4372

www.pewresearch.org RECOMMENDED

CITATION: Andrew Perrin,= 2015. [Online].

Available: www.pewresearch.org/internet

S. Kemp,

J. W. Patchin and S. Hinduja,

Beyond the Schoolyard: A Preliminary Look at

Cyberbullying,= Youth Violence Juv Justice, vol. 4,

no. 2, pp. 148-169, 2006, doi:

1177/1541204006286288.

E. Whittaker and R. M. Kowalski,

Via Social Media,= J Sch Violence, vol. 14, no. 1,

pp. 11-29, Jan. 2015, doi:

1080/15388220.2014.949377.

Kaggle,

Challenge.=

T. Pranckevicius and V. Marcinkevicius,

Decision Tree, Support Vector Machines, and

Logistic Regression Classifiers for Text Reviews

Classification,= Baltic Journal of Modern

Computing, vol. 5, no. 2, 2017, doi:

22364/bjmc.2017.5.2.05.

S. Hassan, 2011 14th International Multitopic

Conference. IEEE, 2011.

G. Tsoumakas,

[Online]. Available: http://www.dmoz.org/

B. Yu,

methods for literary study,= in Literary and

Linguistic Computing, 2008, vol. 23, no. 3, pp. 327-

doi: 10.1093/llc/fqn015.

X. Deng, Y. Li, J. Weng, and J. Zhang,

selection for text classification: A review,=

Multimed Tools Appl, vol. 78, no. 3, pp. 3797-3816,

Feb. 2019, doi: 10.1007/s11042-018-6083-5.

H. UGuz,

text categorization by using information gain,

principal component analysis and genetic

algorithm,= Knowl Based Syst, vol. 24, no. 7, pp.

-1032, Oct. 2011, doi:

1016/j.knosys.2011.04.014.

G. Chandrashekar and F. Sahin,

feature selection methods,= Computers and

Electrical Engineering, vol. 40, no. 1, pp. 16-28,

Jan. 2014, doi:

1016/j.compeleceng.2013.11.024.

D. Elreedy and A. F. Atiya,

Analysis of Synthetic Minority Oversampling

Technique (SMOTE) for handling class

imbalance,= Inf Sci (N Y), vol. 505, pp. 32-64, Dec.

, doi: 10.1016/j.ins.2019.07.070.

G. I. Webb,

Machine Learning and Data Mining, Springer US,

, pp. 1-2. doi: 10.1007/978-1-4899-7502-

_581-1.

R. Susmaga,

A. W. Romadon and D. Richasdy,

Automation in Job Interview Grading,= 2020.

M. Ibrahim, M. Torki, and N. El-Makky,

Using Data Augmentation and Deep Learning,= in

Proceedings - 17th IEEE International Conference

on Machine Learning and Applications, ICMLA

, Jan. 2019, pp. 875-878. doi:

1109/ICMLA.2018.00141.

Downloads

Published

2023-11-01

Issue

Section

Program Studi S1 Informatika