Analisis Hasil Penerapan Metode Distributional Semantic Untuk Kesamaan Semantik Pada Bahasa Indonesia

Authors

  • Muhammad Taufik Wahdiat Telkom University
  • Ade Romadhony Telkom University
  • Said Al Faraby Telkom University

Abstract

A

bstrak
Kesamaan semantik adalah metrik kesamaan antar kata, kalimat atau dokumen yang berbagi dalam
elemen makna. Perhitungan terkaitan semantik memiliki peranan penting dalam data mining, pengambilan
informasi, dan bahkan natural language processing. Pada bahasa Indonesia, perhitungan kesamaan
semantik mendapat peran penting karena banyak dimanfaatkan untuk aplikasi lain, seperti klasifikasi teks.
Pengukuran kesamaan semantik dapat dilakukan dengan pendekatan berbasis korpus dan pendekatan
berbasis kamus. Pada Tugas Akhir ini dilakukan pembangunan model kesamaan semantik berbasis korpus
yang direpresentasikan dengan distributional semantic vector. Model kemudian diujikan pada beberapa
pasang kata dengan derajat kesamaan semantik bervariasi. Model kesamaan semantik dibangun berdasar
korpus Wikipedia Bahasa Indonesia, dengan metode word2vec. Hasil pengujian pada dataset uji yang juga
digunakan pada penelitian sebelumnya berdasar pada referensi SimLex999 dan Rubenstein-goodenough
menunjukkan nilai korelasi yang diperoleh 0.2753. Walaupun nilai korelasi tersebut lebih kecil dibanding
nilai pada penelitian sebelumnya dengan pendekatan korpus, terdapat beberapa kasus di mana model
semantik berbasis korpus mampu menangkap korelasi semantik lebih baik.

Kata kunci : kesamaan semantik, bahasa Indonesia, persamaan kosinus.

Abstract
Semantic similarity is similarity metric between words, sentences or documents that shares element of
meaning. Semantic similarity measurement has important role in data mining, information retrieval and
even natural language processing. In Indonesian language, semantic similarity measurement has important
role because it is widely used for other application, such as text classification. Semantic similarity can be
done by corpus based approach and dictionary based approach. In this thesis, the development of corpus
based semantic similarity model is represented by distributional semantic vector. The model is then tested
on several pairs of words with varying degrees of semantic similarity. The semantic similarity model was
build based on Indonesian Wikipedia corpus, with word2vec method. The test result on test dataset which
used in previous studies based on SimLex999 dan Rubenstein-goodenough references show the correlation
value obtained is 0.2753. Although the correlation value is smaller than value in previous study with the
corpus approach, there are numbers of cases where the corpus based semantic model is able to capture the
semantic correlation better.

Keywords: semantic similarity, Indonesian language, cosinus similarity

Downloads

Published

2019-08-01

Issue

Section

Program Studi S1 Informatika