Implementasi Information Gain sebagai Feature Selection pada Word Sense Disambiguation Bahasa Indonesia dengan Teknik Klasifikasi Decision List

Authors

  • Sakti Dewantoro Telkom University
  • Anisa Herdiani Telkom University
  • Diyas Puspandari Telkom University

Abstract

Abstrak Word sense disambiguation (WSD) merupakan metode pencarian makna asli dari sebuah kata ambigu dalam konteks tertentu. Berbagai jenis classifier dapat digunakan di WSD, salah satunya adalah pendekatan supervised dengan metode decision list. Metode klasifikasi decision list mampu menjadi kompetitor terbaik pada senseval 1 diantara partisipan supervised. Pendekatan supervised, tidak diragukan lagi bekerja lebih baik daripada pendekatan lain. Namun, pendekatan ini perlu mengandalkan banyaknya ketersediaan korpora yang digunakan untuk membuat dataset. Semakin banyak korpora yang digunakan maka semakin banyak atribut yang terdapat pada dataset. Banyaknya atribut yang diolah classifier akan berdampak pada menurunnya kinerja classifier. Feature selection dapat digunakan untuk mengoptimalkan kinerja classifier dengan cara mengurangi atribut yang kurang relevan pada dataset. Information gain merupakan salah satu seleksi fitur terbaik dibanding seleksi fitur lainya pada penelitian yang telah dilakukan oleh Yang dan Pederson, Tan dan Yang serta Forman dalam hal klasifikasi dokumen. Karena keunggulan seleksi fitur information gain dan keunikan metode klasifikasi decision list tersebut, penelitian ini mengimplementasikan information gain sebagai seleksi fitur pada WSD bahasa Indonesia menggunakan metode klasifikasi decision list. Hasil penelitian ini, information gain dapat meningkatkan akurasi dengan selisih 0.5% dan selisih presisi 1.3% pada pengujian range collocation 2, serta selisih akurasi 0.3% dan selisih presisi 0.7% pada pengujian range collocation 3. Kata kunci : word sense disambiguation, decision list, feature selection, information gain Abstract Word sense disambiguation (WSD) is a method of searching for the original meaning of an ambiguous word in a particular context. Various types of classifiers can be used in WSD, one of which is the supervised approach to the decision list method. The decision list classification method is able to be the best competitor for the senses which 1 of the participants is supervised. Supervised approach, has no doubt works better than other approaches. However, this approach needs to rely on the large availability of korpora used to create datasets. The more korpora used, the more attributes are found in the dataset. The number of attributes processed by the classifier will affect the performance of the classifier. Feature selection can be used to reduce attributes that are less relevant to the dataset. Information gain is one of the best feature selection compared to other feature selection in the research conducted by Yang and Pederson, Tan and Yang and Forman. Feature selection can be used to optimize classifier performance due to the advantages of information gain feature selection and the uniqueness of the decision list classification method. This study implements information gain as a feature selection on Indonesian WSD using the decision list classification method. The results of this study, information gain can improve 0.5% accuracy and 1.3% precision in range collocation 2 testing and 0.3% accuracy and 0.7% precision in range collocation 3 testing. Keywords: word sense disambiguation, decision list, feature selection, information gain

Downloads

Published

2019-12-01

Issue

Section

Program Studi S1 Informatika