Implementasi dan Analisis Kesamaan Semantik Antar Kata Bahasa Indonesia Menggunakan Metode Pointwise Mutual Information Max

I Gusti Ayu Chandra Devi, Moch. Arif Bijaksana, Indra Lukmana Sardi

Abstract

Abstrak Pencarian informasi sudah menjadi bagian dari kebutuhan manusia, terutama pencarian informasi meng-gunakan bahasa sehari – hari. Salah satu contohnya adalah Bahasa Indonesia. Dalam melakukan pencarian informasi yang efektif, diperlukan kecerdasan yang sama antara komputer dan manusia dalam mengolah informasi. Manusia terbantu dalam pencarian informasi karena manusia dapat mengolah kata yang di-gunakan dalam pencarian informasi. Manusia memiliki pengetahuan tentang hubungan satu kata dengan kata lainnya, sedangkan komputer tidak dapat mengetahuinya karena komputer tidak mengetahui sense dari satu kata tersebut. Agar komputer memiliki kecerdasan yang sama, dibutuhkan pencarian nilai ke-saman semantik(semantic similarity) antar kata. Berdasarkan ide tersebut, metode similarity yang dipilih untuk mencari nilai similarity antar kata Bahasa Indonesia adalah metode PMImax yang merupakan tu-runan dari metode PMI. Metode PMImax dipilih karena metode ini dapat menghasilkan nilai similarity berdasarkan kemuculan suatu kata di dalam suatu korpus. Metode ini juga menghasilkan nilai similarity yang baik saat diterapkan dalam Bahasa Inggris. Sehingga penelitian ini menguji apakah metode PMImax dapat diterapkan dalam pencarian nilai similarity dalam Bahasa Indonesia, dan seberapa baik metode ini saat diterapkan. Dengan menggunakan korelasi pearson hasil penelitian ini menunjukkan bahwa, metode PMImax cukup baik diterapkan dalam mencari nilai similarity dalam kata – kata Bahasa Indonesia diban-dingkan dengan metode PMI dan Word2Vec. Nilai korelasi yang dihasilkan, 0,26 pada Miller and Charles, 0,33 pada Simlex-999 dan 0,52 pada WordSim-353 Similarity. Kata kunci : PMImax, PMI, Kesamaan Semantik, Kesamaan Semantik Antar Kata Abstract Searching for information is part of people’s needs, specially in using colloquial. For example Bahasa. In searching for information effectively, human and computers need to have the same knowledge in processing the information. People can easily get the information, because people know how to process the word they need. They have knowledge about how one word relates to another words, but computers can’t do that because computers don’t know any sense of the words. Therefore, computers need to find similarity value for each words. Based on the idea, similarity’s method that is choosen for calculating semantic similarity value between two words in Bahasa is PMImax that is a derivative from PMI method. This method was chosen because this method can give similarity value based on the words cooccurrence in a corpus. This method also gave a good result in English words. This study examines if this method can be implemented in Bahasa for calculating similarity value, and also examines how good this method in the implemantation. Using pearson correlation, the result of this study is PMImax gave good results when it is implemented in Bahasa compared to PMI and Word2Vec method. The correlation’s scores are 0,26 in Miller and Charles, 0,33 in SimLex-999, 0,52 in WordSim-353 Similarity. Keywords: PMImax, PMI, Semantic Similarity, Semantic Similarity Between words

Full Text:

PDF

Refbacks

  • There are currently no refbacks.
max_upload :0