Penerapan PCA (Principal Component Analysis) pada Deteksi Outlier untuk Data Text
Abstract
Abstrak-Data Mining adalah kegiatan pengumpulan data, pemakaian data historis, untuk menemukan keteraturan pola dalam dataset yang berukuran besar dan mempunyai jumlah yang banyak. Dalam data mining terdapat data yang berbeda dari data pada umumnya yang disebut outlier. Outlier sendiri berkaitan dengan nilai ekstrem, baik ekstrem besar maupun kecil. Adanya data outlier membuat analisis terhadap serangkaian data menjadi bias, atau tidak mencerminkan fenomena yang sebenarnya. Outlier detection digunakan untuk mendeteksi ada atau tidaknya outlier dalam sebuah data. Outlier Detection dapat digunakan untuk mendeteksi data berupa categorical, numeric, maupun data teks.Principal Component Analysis (PCA) merupakan salah satu metode pendeteksian outlier berdasarkan pendekatan statistical. Objek yang dianggap sebagai outlier adalah objek yang memiliki probabilitas yang rendah sehubungan dengan model distribusi probabilitas pada data tersebut. Evaluasi yang digunakan untuk mengetahui performansi sistem yaitu : accuracy, precision, dan recall.
Kata kunci-outlier, PCA, outlier detection, data teks
References
J. Han and M. Kamber, Data Mining : Concepts and Technique. 2006
Han. Jiawei, Kamber. Micheline, 2006. Data Mining : Concepts and Tehniques, Morgan Kaufmann.
Dr. S Vijayarani and Ilamathi J, ‘Preprocessing Techniques for Text Mining - An Overview - Semantic Scholar’, 2015.
V. Gurusamy and S. Kannan, ‘Preprocessing Techniques for Text Mining’, 2014.
B. A. Kuncoro and B. H. Iswanto, ‘TF-IDF method in ranking keywords of Instagram users’ image captions’, in 2015 International Conference on Information Technology Systems and Innovation (ICITSI), 2015, pp. 1–5.
‘Confusion Matrix’. [Online]. Available: http://researchhubs.com/post/ai/fundamentals/confusion-matrix.html. [Accessed: 01-Jan- 2020].
J. Han and M. Kamber, Data Mining : Concepts and Technique. 2006.
R. Kannan, H.Woo, C. Aggarwal, and H. Park. Outlier detection for text data : An extended version. CoRR, abs/1701.01325, 2017.
E. J. Candés, X. Li, Y. Ma, J. Wright. Robust principal component analysis? Journal of the ACM v.58 n.11 May 2011
Wright, J., Ganesh, A., Rao, S., Ma, Y.: Robust principal component analysis: Exact recovery of corrupted low-rank matrices via convex optimization. submitted to Journal of the ACM (2009)
Z. Lin, M. Chen, Y. Ma. The Augmented Lagrange Multiplier Method for Exact Recovery of Corrupted Low-Rank Matrices, arXiv:1009.5055
‘Dataset’. Available : http://mlg.ucd.ie/datasets/bbc.html.