Penerapan PCA (Principal Component Analysis) pada Deteksi Outlier untuk Data Text

Marinda Endi Lestari; Ibnu Asror; Indra Lukmana Sardi

Authors

Marinda Endi Lestari Telkom University
Ibnu Asror Telkom University
Indra Lukmana Sardi Telkom University

Abstract

Abstrak-Data Mining adalah kegiatan pengumpulan data, pemakaian data historis, untuk menemukan keteraturan pola dalam dataset yang berukuran besar dan mempunyai jumlah yang banyak. Dalam data mining terdapat data yang berbeda dari data pada umumnya yang disebut outlier. Outlier sendiri berkaitan dengan nilai ekstrem, baik ekstrem besar maupun kecil. Adanya data outlier membuat analisis terhadap serangkaian data menjadi bias, atau tidak mencerminkan fenomena yang sebenarnya. Outlier detection digunakan untuk mendeteksi ada atau tidaknya outlier dalam sebuah data. Outlier Detection dapat digunakan untuk mendeteksi data berupa categorical, numeric, maupun data teks.Principal Component Analysis (PCA) merupakan salah satu metode pendeteksian outlier berdasarkan pendekatan statistical. Objek yang dianggap sebagai outlier adalah objek yang memiliki probabilitas yang rendah sehubungan dengan model distribusi probabilitas pada data tersebut. Evaluasi yang digunakan untuk mengetahui performansi sistem yaitu : accuracy, precision, dan recall.

Kata kunci-outlier, PCA, outlier detection, data teks

References

J. Han and M. Kamber, Data Mining : Concepts and Technique. 2006

Han. Jiawei, Kamber. Micheline, 2006. Data Mining : Concepts and Tehniques, Morgan Kaufmann.

Dr. S Vijayarani and Ilamathi J, ‘Preprocessing Techniques for Text Mining - An Overview - Semantic Scholar’, 2015.

V. Gurusamy and S. Kannan, ‘Preprocessing Techniques for Text Mining’, 2014.

B. A. Kuncoro and B. H. Iswanto, ‘TF-IDF method in ranking keywords of Instagram users’ image captions’, in 2015 International Conference on Information Technology Systems and Innovation (ICITSI), 2015, pp. 1–5.

‘Confusion Matrix’. [Online]. Available: http://researchhubs.com/post/ai/fundamentals/confusion-matrix.html. [Accessed: 01-Jan- 2020].

J. Han and M. Kamber, Data Mining : Concepts and Technique. 2006.

R. Kannan, H.Woo, C. Aggarwal, and H. Park. Outlier detection for text data : An extended version. CoRR, abs/1701.01325, 2017.

E. J. Candés, X. Li, Y. Ma, J. Wright. Robust principal component analysis? Journal of the ACM v.58 n.11 May 2011

Wright, J., Ganesh, A., Rao, S., Ma, Y.: Robust principal component analysis: Exact recovery of corrupted low-rank matrices via convex optimization. submitted to Journal of the ACM (2009)

Z. Lin, M. Chen, Y. Ma. The Augmented Lagrange Multiplier Method for Exact Recovery of Corrupted Low-Rank Matrices, arXiv:1009.5055

‘Dataset’. Available : http://mlg.ucd.ie/datasets/bbc.html.

Penerapan PCA (Principal Component Analysis) pada Deteksi Outlier untuk Data Text

Authors

Abstract

References

Downloads

Published

Issue

Section

Developed By

Language