Prediksi Employee Attrition menggunakan Algoritma Support Vector Machine (SVM)
Abstract
Abstrak-Employee attrition atau keluarnya karyawan dari perusahaan adalah sebuah tantangan, mengingat karyawan merupakan salah satu aset penting bagi perusahaan. Tingkat employee attrition yang tinggi menandakan bahwa seringnya para karyawan keluar dari perusahaan. Hal ini akan merugikan perusahaan dari sisi waktu, biaya, sumber daya manusia dan juga membuat citra perusahaan turun. Perlunya untuk menganalisis dan memprediksi employee attrition agar dapat dilakukan tindakan preventif dan persuasif sehingga karyawan tidak keluar dari perusahaan. Oleh karena itu, dibutuhkannya sebuah tools atau alat bantu untuk memprediksi apakah seorang karyawan akan keluar dari perusahaan. Pada penelitian ini dilakukan implementasi model machine learning untuk memprediksi employee attrition dan membandingkan performansi antara algoritma support vector machine (SVM) dengan algoritma k-Nearest Neighbors (kNN). Data set yang digunakan adalah data set IBM HR Analytics Employee Attrition & Performance. Kedua model dievaluasi dengan menggunakan metrik accuracy, F1-score, dan geometric-mean. Hasil dari penelitian ini menunjukkan bahwa model dengan algoritma SVM memiliki nilai metrik yang lebih baik daripada algoritma kNN dengan rata-rata accuracy 0.86, F1-score 0.59, dan geometric-mean 0.75. Ini menandakan bahwa model dengan algoritma SVM lebih baik dalam memprediksikan data ke dalam kelas attrition dan kelas not-attrition daripada model dengan algoritma kNN.
Kata kunci - prediksi, employee attrition, karyawan, machine learning.
References
Tracey, J. B., & Hinkin, T. R. (2006). The costs of employee turnover: When the devil is in the details.
Marsden, T. (2016). What is the true cost of attrition?. Strategic HR Review.
Kotsiantis, S. B., Zaharakis, I. D., & Pintelas, P. E. (2006). Machine learning: a review of classification and combining techniques. Artificial Intelligence Review, 26(3), 159-190.
Althnian, A., AlSaeed, D., Al-Baity, H., Samha, A., Dris, A. B., Alzakari, N., ... & Kurdi, H. (2021). Impact of dataset size on classification performance: an empirical evaluation in the medical domain. Applied Sciences, 11(2), 796.
Masese, O. F. (2016). Employee Attrition Management by Engagement.
Pisner, D. A., & Schnyer, D. M. (2020). Support vector machine. In Machine learning (pp. 101-121). Academic Press.
Kotsiantis, S. B., Zaharakis, I., & Pintelas, P. (2007). Supervised machine learning: A review of classification techniques. Emerging artificial intelligence applications in computer engineering, 160(1), 3-24.
Yadav, S., & Bhole, G. P. (2020, December). Handling imbalanced dataset classification in machine learning. In 2020 IEEE Pune Section International Conference (PuneCon) (pp. 38-43). IEEE.
Akosa, J. (2017). Predictive accuracy: A misleading performance measure for highly imbalanced data. In Proceedings of the SAS Global Forum (Vol. 12).
Yedida, R., Reddy, R., Vahi, R., Jana, R., GV, A., & Kulkarni, D. (2018). Employee attrition prediction. arXiv preprint arXiv:1806.10480.
Alao, D. A. B. A., & Adeyemo, A. B. (2013). Analyzing employee attrition using decision tree algorithms. Computing, Information Systems, Development Informatics and Allied Research Journal, 4(1), 17-28.
IBM. (2017). IBM HR Analytics Employee Attrition & Performance (Version 1) [Data set]. Kaggle. Retrieved December 7, 2021, from https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset
Gu, Y., Wylie, B. K., Boyte, S. P., Picotte, J., Howard, D. M., Smith, K., & Nelson, K. J. (2016). An optimal sample data usage strategy to minimize overfitting and underfitting effects in regression tree models based on remotely-sensed data. Remote sensing, 8(11), 943.
Berrar, Daniel. (2018). Cross-Validation. Encyclopedia of Bioinformatics and Computational Biology.
Pedregosa, et al. (2011) Scikit-Learn Machine Learning in Python. Journal of Machine Learning Research, 12, 2825-2830.
Barandela, R., Valdovinos, R. M., Sánchez, J. S., & Ferri, F. J. (2004, August). The imbalanced training sample problem: Under or over sampling?. In Joint IAPR international workshops on statistical techniques in pattern recognition (SPR) and structural and syntactic pattern recognition (SSPR) (pp. 806-814). Springer, Berlin, Heidelberg.