Perbandingan Algoritma K-Nearest Neighbor dan Logistic Regression pada Analisis Sentimen terhadap Vaksinasi Covid-19 pada Media Sosial Twitter dengan Pelabelan Vader dan Textblob
Abstract
Abstrak— Pada analisis ini metode yang digunakan yaitu metode klasifikasi K-Nearest Neighbor dan metode klasifikasi Logistic Regression dengan data yang diambil pada aplikasi twitter. Penelitian ini mengkaji tingkat akurasi pada sentimen masyarakat mengenai vaksinasi Covid-19 dengan label positif dan negatif. Nilai AUC pada algoritma KNN dengan pelabelan TextBlob yaitu sebesar 0,765 dengan dan 0,768 untuk pelabelan VaderSentiment keduanya termasuk kedalam kriteria fair classification. Sementara itu, pada algoritma Logistic Regression menghasilkan akurasi sebesar 84,97% dengan perbandingan rasio 90:10 untuk pelabelan TextBlob, sementara untuk pelabelan VaderSentiment dengan perbandingan rasio 90:10 menghasilkan akurasi sebesar 85,22%. Kedua algoritma divalidasi menggunakan K-Fold Cross Validation dengan jumlah fold 10. Hasil perbandingan yang diperoleh saat melakukan evaluasi dengan confusion matrix menunjukkan bahwa algoritma Logistic Regression dengan pelabelan VaderSentiment memiliki nilai akurasi yang paling tinggi dibandingakan dengan algoritma K-Nearest Neighbor dengan pelabelan TextBlob dan VaderSentiment.
Kata kunci—vaksinasi covid-19, k-nearest neighbor, logistic regression, analisis sentimen
References
Kementrian Kesehatan, “Vaksinasi Covid-19 Nasional,” https://vaksin.kemkes.go.id/#/vaccines, Nov. 2021.
L. Ardiani, H. Sujaini, and T. Tursina, “Implementasi Sentiment Analysis Tanggapan Masyarakat Terhadap Pembangunan di Kota Pontianak,” Jurnal Sistem dan Teknologi Informasi (Justin), vol. 8, no. 2, p. 183, Apr. 2020, doi: 10.26418/justin.v8i2.36776.
Leif E. Peterson, “K-nearest neighbor,” http://scholarpedia.org/, Feb. 21, 2009.
Pramod Gupta and Naresh K Sehgal, Introduction to Machine Learning in the Cloud with Python: Concepts and Practices. Switzherland: Springer International Publishing, 2021.
A. Yudhana and dan Agus Jaka Sri Hartanta, “ALGORITMA K-NN DENGAN EUCLIDEAN DISTANCE UNTUK PREDIKSI HASIL PENGGERGAJIAN KAYU SENGON,” TRANSMISI, vol. 22, no. 4, doi: 10.14710/transmisi.22.4.107-141.
Imamah and F. H. Rachman, “Twitter sentiment analysis of Covid-19 using term weighting TF-IDF and logistic regresion,” in Proceeding - 6th Information Technology International Seminar, ITIS 2020, Oct. 2020, pp. 238–242. doi: 10.1109/ITIS50118.2020.9320958.
“textblob”.
V. Bonta, N. Kumaresh, and N. Janardhan, “A Comprehensive Study on Lexicon Based Approaches for Sentiment Analysis,” 2019. [Online]. Available: www.rottentomatoes.
C. J. Hutto and E. Gilbert, “VADER: A Parsimonious Rule-based Model for Sentiment Analysis of Social Media Text,” 2014. [Online]. Available: http://sentic.net/
A. Hutapea and M. Tanzil Furqon, “Penerapan Algoritme Modified K-Nearest Neighbour Pada Pengklasifikasian Penyakit Kejiwaan Skizofrenia,” 2018. [Online]. Available: http://j-ptiik.ub.ac.id
E. Alpaydin, Introduction to Machine Learning. London: MIT Press, 2004.
D. Normawati and S. A. Prayogi, “Implementasi Naïve Bayes Classifier Dan Confusion Matrix Pada Analisis Sentimen Berbasis Teks Pada Twitter,” 2021.