Perbandingan Pembobotan Fitur TF-IDF dan TF-ABS Dalam Klasifikasi Berita Online Menggunakan Support Vector Machine (SVM)

Authors

  • Iklima Apriani Telkom University
  • Yuliant Sibaroni Telkom University
  • Irma Palupi Telkom University

Abstract

Abstrak -Berita terjadi karena adanya informasi atau kabar yang berhubungan dengan fakta dan sedang terjadi untuk kemudian disampaikan kepada masyarakat. Seiring dengan perkembangan teknologi kini penyebaran informasi dilakukan melalui media sosial yaitu website yang bisa diakses dengan media dekstop ataupun handphone. Pemilihan berita untuk dimasukan pada kategori tertentu jika dilakukan oleh manusia bisa menyebabkan human eror, terlebih berita yang dipakai sangat banyak bisa menyebabkan kurang efisien. Maka dari itu, sistem klasifikasi otomatis akan menjadi solusi pada permasalahan ini. Dalam klasifikasi, fitur extraction merupakan proses dasar dalam kategorisasi yang penting untuk dilakukan dan diketahui. Fitur tersebut kemudian akan direpresentasikan kedalam bentuk vektor, nilai vektor diperoleh dari pembobotan kata. Penelitian ini membandingkan pembobotan Term Frequency - Inverse Document Frequency (TF.IDF) dan Term Frequency Absolute (TF.ABS) yang dikombinasikan dengan fitur extraction unigram dengan metode klasifikasi Support Vector Machine (SVM). Dari hasil penelitian menunjukkan pembobotan TF-IDF mendapat akurasi sebesar 96,63% dengan hasil dengan hasil f1-score mendapat 97,06%. Sedangkan pembobotan TF-ABS mendapat akurasi sebesar 89,66% dengan hasil f1-score 96,63%. Dengan menggunakan pembobotan TF-IDF dapat menaikkan akurasi sebesar 6,97%. daripada mengunakan TF-ABS.

Kata kunci-berita, klasifikasi, support vector machine, TF-IDF, TF-ABS

References

S. N. Asiyah and K. Fithriasari, “Klasifikasi Berita Online Menggunakan Metode Support Vector Machine Dan K-Nearest Neighbor Online News Classification Using Support Vector Machine and K-Nearest,” Jurnal Sains dan Seni ITS, vol. 5, no. 2, 2016.

Sora N, “Pengertian Berita Dan Ciri-Ciri Berita Yang Baik”.

R. Wongso, F. A. Luwinda, B. C. Trisnajaya, O. Rusli, and Rudy, “News Article Text Classification in Indonesian Language,” Procedia Comput Sci, vol. 116, pp. 137–143, 2017, doi: 10.1016/j.procs.2017.10.039.

I. M. Parapat, M. T. Furqon, and Sutrisno, “Penerapan Metode Support Vector Machine ( SVM ) Pada Klasifikasi Penyimpangan Tumbuh Kembang Anak,” Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, vol. 2, no. 10, pp. 3163–3169, 2018.

V. V Krzhizhanovskaya et al., Are n-gram Categories Helpful in Text Classification. 2020. doi: 10.1007/978-3-030-50417-5.

G. Domeniconi, G. Moro, R. Pasolini, and C. Sartori, “A study on term weighting for text categorization: A novel supervised variant of tf.idf,” DATA 2015 - 4th International Conference on Data Management Technologies and Applications, Proceedings, pp. 26–37, 2015, doi: 10.5220/0005511900260037.

A. Fauzi, E. B. Setiawan, and Z. K. A. Baizal, “Hoax News Detection on Twitter using Term Frequency Inverse Document Frequency and Support Vector Machine Method,” J Phys Conf Ser, vol. 1192, no. 1, 2019, doi: 10.1088/1742-6596/1192/1/012025.

M. A. Kurniawan, Y. Sibaroni, and K. L. Muslim, “Kategorisasi Berita Menggunakan Metode Pembobotan TF.ABS dan TF.CHI,” Indonesian Journal on Computing (Indo-JC), vol. 3, no. 2, p. 83, 2018, doi: 10.21108/indojc.2018.3.2.236.

H. Tantyoko, Adiwijaya, and U. N. Wisesty, “Perbandingan Pembobotan untuk Klasifikasi Topik Berita menggunakan Decision Tree,” Jurnal Teknologia, vol. 2, no. 1. pp. 97–113, 2019.

T. B. Shahi and A. K. Pant, “Nepali news classification using Naïve Bayes, Support Vector Machines and Neural Networks,” Proceedings - 2018 International Conference on Communication, Information and Computing Technology, ICCICT 2018, vol. 2018-Janua, no. February, pp. 1–5, 2018, doi: 10.1109/ICCICT.2018.8325883.

D. Rahmawati and M. L. Khodra, “Automatic multilabel classification for Indonesian news articles,” ICAICTA 2015 - 2015 International Conference on Advanced Informatics: Concepts, Theory and Applications, pp. 1–6, 2015, doi: 10.1109/ICAICTA.2015.7335382.

L. A. Matsunaga and N. F. F. Ebecken, “Term Weighting Approaches for Text Categorization Improving,” Proceedings - 8th International Conference on Intelligent Systems Design and Applications, ISDA 2008, vol. 1, pp. 409–414, 2008, doi: 10.1109/ISDA.2008.21.

D. Maulina and R. Sagara, “Klasifikasi Artikel Hoax Menggunakan Support Vector Machine Linear Dengan Pembobotan Term Frequency-Inverse Document Frequency,” Jurnal Mantik Penusa, vol. 2, no. 1, pp. 35–40, 2018.

Riza Adrianti Supono and Muhammad Azis Suprayogi, “Perbandingan Metode TF-ABS dan TF-IDF Pada Klasifikasi Teks Helpdesk Menggunakan K-Nearest Neighbor,” Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi), vol. 5, no. 5, pp. 911–918, Oct. 2021, doi: 10.29207/resti.v5i5.3403.

D. Greene and P. Cunningham, “Practical solutions to the problem of diagonal dominance in kernel document clustering,” ACM International Conference Proceeding Series, vol. 148, no. 2004, pp. 377–384, 2006, doi: 10.1145/1143844.1143892.

S. B. Setiawan and M. S. Mubarok, “Klasifikasi Topik Berita Menggunakan Metode Weighted K-Nearest Neighbor,” vol. 5, no. 2, pp. 1–7, 2015.

Y. Wibisono and M. L. Khodra, “Clustering Berita Berbahasa Indonesia,” Universitas (Stuttg), pp. 1–4, 2005.

M. Allahyari et al., “A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques,” Jul. 2017, [Online]. Available: http://arxiv.org/abs/1707.02919

A. S. Nugraha and K. K. Purnamasari, “Penerapan Metode Support Vector Machine Pada Part of Speech Tag Bahasa Indonesia,” no. 112, 2019.

E. Haddi, X. Liu, and Y. Shi, “The role of text pre-processing in sentiment analysis,” in Procedia Computer Science, 2013, vol. 17, pp. 26–32. doi: 10.1016/j.procs.2013.05.005.

Rathinam Technical Campus. Department of Computer Science & Engineering, Rathinam Technical Campus. Department of Information Technology, Technically Enriched Software Engineers, Institute of Electrical and Electronics Engineers, Institute of Electrical and Electronics Engineers. Madras Section, and IEEE Computational Intelligence Society, A Novel Text Mining Approach Based on TF-IDF and Support Vector Machine for News Classification.

M. P. Shakina Rizkia, Erwin Budi Setiawan S.Si., M.T, Diyas Puspandari S.S., “Analisis Sentimen Kepuasan Pelanggan Terhadap Internet Provider Indihome di Twitter Menggunakan Metode Decision Tree dan Pembobotan TF-IDF,” e-Proceeding of Engineering, vol. 6, no. 2, pp. 9683–9693, 2019.

H. Khaulasari, “Combine Sampling - Least Square Support Vector Machine Untuk Klasifikasi Multi Class Imbalanced Data,” 2016.

A. S. Nugraha and K. K. Purnamasari, “Penerapan Metode Support Vector Machine Pada Part of Speech Tag Bahasa Indonesia,” no. 112, 2019.

E. Ramon et al., “Klasifikasi Status Gizi Bayi Posyandu Kecamatan Bangun Purba Menggunakan Algoritma Support Vector Machine (SVM),” Jurnal Sistem Informasi dan Informatika (Simika) P-ISSN, vol. 5, pp. 2622–6901, 2022.

B. Santosa, “Tutorial Support Vector Machine.”

Downloads

Published

2023-06-27

Issue

Section

Program Studi S1 Rekayasa Perangkat Lunak