Klasifikasi Komentar Toxic Pada Sosial Media Menggunakan SVM, Information Gain dan TF-IDF
Abstract
Abstrak — Sosial media merupakan suatu bentuk perantara interaksi sosial secara online. Aplikasi media sosial pun sudah dalam banyak bentuk dan di dalam sosial media ini meskipun banyak hal positif yang dapat diambil, ada beberapa juga halhal negatif contoh nya toxic comment. Toxic comment sendiri tidaklah mudah untuk dideteksi secara manual, maka penelitian berencana untuk mengklasifikasikan toxic comment tersebut menggunakan machine learning. Beberapa penelitian untuk klasifikasi toxic comment sudah dilakukan, dalam beberapa penelitian tersebut digunakan metode Support Vector Machine. Dalam penelitian ini metode yang digunakan adalah Support Vector Machine (SVM) sebagai classifier, Information Gain sebagai feature selection dan TF- IDF sebagai feature extraction. Data-data yang dikumpulkan adalah melalui cuitan twitter beberapa pengguna di media sosial tersebut. Komentarkomentar tersebut dikumpulkan menjadi satu lalu diklasifikasikan menggunakan metode-metode yang sudah disebutkan.
Kata kunci— Sosial media, Klasifikasi teks, Toxic comment, SVM
References
REFERENSI
B. B. BY BY Andrew Perrin,
Communications Manager 202.419.4372
www.pewresearch.org RECOMMENDED
CITATION: Andrew Perrin,= 2015. [Online].
Available: www.pewresearch.org/internet
S. Kemp,
J. W. Patchin and S. Hinduja,
Beyond the Schoolyard: A Preliminary Look at
Cyberbullying,= Youth Violence Juv Justice, vol. 4,
no. 2, pp. 148-169, 2006, doi:
1177/1541204006286288.
E. Whittaker and R. M. Kowalski,
Via Social Media,= J Sch Violence, vol. 14, no. 1,
pp. 11-29, Jan. 2015, doi:
1080/15388220.2014.949377.
Kaggle,
Challenge.=
T. Pranckevicius and V. Marcinkevicius,
Decision Tree, Support Vector Machines, and
Logistic Regression Classifiers for Text Reviews
Classification,= Baltic Journal of Modern
Computing, vol. 5, no. 2, 2017, doi:
22364/bjmc.2017.5.2.05.
S. Hassan, 2011 14th International Multitopic
Conference. IEEE, 2011.
G. Tsoumakas,
[Online]. Available: http://www.dmoz.org/
B. Yu,
methods for literary study,= in Literary and
Linguistic Computing, 2008, vol. 23, no. 3, pp. 327-
doi: 10.1093/llc/fqn015.
X. Deng, Y. Li, J. Weng, and J. Zhang,
selection for text classification: A review,=
Multimed Tools Appl, vol. 78, no. 3, pp. 3797-3816,
Feb. 2019, doi: 10.1007/s11042-018-6083-5.
text categorization by using information gain,
principal component analysis and genetic
algorithm,= Knowl Based Syst, vol. 24, no. 7, pp.
-1032, Oct. 2011, doi:
1016/j.knosys.2011.04.014.
G. Chandrashekar and F. Sahin,
feature selection methods,= Computers and
Electrical Engineering, vol. 40, no. 1, pp. 16-28,
Jan. 2014, doi:
1016/j.compeleceng.2013.11.024.
Analysis of Synthetic Minority Oversampling
Technique (SMOTE) for handling class
imbalance,= Inf Sci (N Y), vol. 505, pp. 32-64, Dec.
, doi: 10.1016/j.ins.2019.07.070.
G. I. Webb,
Machine Learning and Data Mining, Springer US,
, pp. 1-2. doi: 10.1007/978-1-4899-7502-
_581-1.
R. Susmaga,
A. W. Romadon and D. Richasdy,
Automation in Job Interview Grading,= 2020.
M. Ibrahim, M. Torki, and N. El-Makky,
Using Data Augmentation and Deep Learning,= in
Proceedings - 17th IEEE International Conference
on Machine Learning and Applications, ICMLA
, Jan. 2019, pp. 875-878. doi:
1109/ICMLA.2018.00141.