Part Of Speech Tagging Menggunakan Bahasa Jawa Dengan Metode Condition Random Fields
Abstract
Abstrak—Part of Speech Tagging (POS Tagging) adalah proses memberi label pada setiap kata dalam kalimat dengan POS atau tag yang sesuai dengan kelas kata seperti kata kerja, kata benda kata keterangan, kata sifat, dan lainnya. Bahasa yang digunakan ialah Bahasa Jawa. Bahasa Jawa adalah salah satu Bahasa daerah yang digunakan sebagian besar di pulau Jawa Indonesia. Digunakan di provinsi Jawa Tengah, DIY, Jawa Timur dan sekitarnya. Menggunakan data dari berita online berbahasa Jawa Krama. Metode yang digunakan yaitu CRF (Conditional Random Fields). CRF adalah suatu model probabilistik yang banyak digunakan pada proses segmentasi dan pelabelan suatu sekuen data. Pada penilitian ini menggunakan data corpus sebanyak 3000 kata dan menggunakan cross validasi untuk proses trainning. Pada POS Tagging Bahasa Jawa ini mendapatkan akurasi sebesar 67%. Keywords—Part of Speech, Conditional Random Fields, Javanese
Abstract Javanese is the one of regional languages that is used mostly on the Indonesian island of Java. Used in the provinces of Central Java, DIY, East Java, and surrounding areas. Using data from online news in the Javanese language. The method used is CRF (Conditional Random Fields). CRF is a structure for building probabilistic models. This paper describes the part of speech for Javanese using Conditional Random Fields (CRF) method. We used a corpus of size 3000 words and cross-validation for training. Our model gave an overall accuracy of 67%. Keywords—Part of Speech, Conditional Random Fields, Bahasa Jawa