Implementasi dan Analisis Kesamaan Semantik Antar Kata Bahasa Indonesia Menggunakan Metode GloVe

Authors

  • Ramanti Dwi Indrapurasih Telkom University
  • Moch. Arif Bijaksana Telkom University
  • Indra Lukmana Sardi Telkom University

Abstract

Abstrak Kesamaan semantik adalah salah satu pengukuran yang ada pada text mining untuk mencari nilai kesamaan makna antar kata. Kesamaan semantik ini dapat diaplikasikan pada berbagai aplikasi. Pengukuran ini dilatarbelakangi dimana saat ini komputer belum dapat menyamakan persepsi manusia terkait penilaian kesamaan antar kata. Maka dari itu dalam tugas akhir kali ini membahas mengenai kesamaan semantik antar kata bahasa Indonesia dengan menggunakan metode GloVe . Metode GloVe adalah suatu model untuk unsupervised learning pada representasi kata yang mengungguli model lainnya di word analogy, word similarity, dan named entity recognition. Dengan inputan berupa corpus Wikipedia Bahasa Indonesia dan skor yang dihasilkan dihitung nilai korelasinya menggunakan correlation pearson dengan membandingkan skor hasil gold standard dari WordSim-353, SimLex-999 dan Miller Charles. Hasil dari penelitian tugas akhir ini merupakan nilai korelasi antara metode GloVe dengan gold standard SimLex-999, WordSim353, dan Miller Charles. Pada penelitian tugas akhir ini menghasilkan nilai korelasi pada gold standard dengan nilai korelasi yang didapatkan sebesar 0.1165 untuk Miller Charles, 0.2280 untuk SimLex-999 dan 0.2849 untuk WordSim-353. Kata kunci : Text mining, Kesamaan Semantik, GloVe Abstract Semantic similarity is one of the text mining’s measurement to find the value of the similarity between word’s meaning. This semantics similarity can be applied in various applications. The measurement’s background is caused where the computer not able yet to equate human’s perspective related to measurement of the similarity between words. Therefore, this thesis will discuss about semantics similarity between words in Bahasa Indonesia by using GloVe method. GloVe method is a model for unsupervised learning on words representation that surpass another models in word analogy, word similarity and named entity recognition. With the input of a Wikipedia corpus of Bahasa Indonesia and the correlation value from resulted score is calculated with correlation pearson by comparing it with gold standard score from WordSim-353, SimLex999, and Miller Charles. The final result from this thesis produce a correlation value in gold standard with the obtained correlation value is 0.1165 for Miller Charles, 0.2280 for SimLex-999 and 0.2849 for WordSim353. Keywords: Text mining, Semantics Similarity, GloVe

Downloads

Published

2018-12-01

Issue

Section

Program Studi S1 Informatika