Analisis Model Word2vec Dalam Penyelesaian Soal Analogipada Bahasa Indonesia

Authors

  • Abdul Raffi Malikul Mulki Telkom University
  • Moch. Arif Bijaksana Telkom University
  • Arie Ardiayanti Suryani Telkom University

Abstract

Abstrak
Semantik adalah cabang ilmu lingustik dan salah satu komponen dalam suatu bahasa yang mempelajari
arti atau makna suatu kata. Semantik kurang diperhatikan orang karena objek kajiannya berupa mak- na
yang dianggap sangat sulit ditelusuri dan dianalisis strukturnya terutama untuk analogi suatu kata.
Analogi kata merupakan cara untuk menunjukkan dua situasi yang didalamnya terdapat struktur rela-
sional. Selain itu analogi kata memerlukan kemampuan kognitif yang lebih sedikit dan dapat digunakan
diberbagai bidang. Maka dari itu Word2vec adalah solusi berupa model untuk merepresentasikan suatu
kata menjadi vektor dengan besar dimensi yang ditentukan, sehingga dengan representasi word2vec dapat
dilakukan operasi kesamaan dan keterkaitan antar kata. Word2vec telah banyak direkomendasikan dan
digunakan pada penelitian pemerosesan bahasa alami, sehingga model ini menarik untuk dibahas dengan
perbedaan konfigurasi pada model. Evaluasi yang dilakukan adalah membadingkan jawaban dari sistem
dengan jawaban aktual dari persoalan analogi pada data tes. Hasil terbesar didari penelitian ini adalah
34% pada arsitektur Skip-gram, dimensi 100 dan windows size 10 serta 12. Hal ini dikarenakan jumlah
korpus yang kecil serta distribusi kata pada koprus yang tidak merata.
Kata kunci : analogi, semantik, vector, word2vec
Abstract
Semantic is a branch of linguistics and one component in a language that learns the meaning of a word. The
semantics are less noticed because the object of the study is in the form of meaning which is considered very
difficult to trace and analyzed its structure especially for the analogy of word. Word analogy is a way to
show two condition in which there is a relational structure. In addition, the analogy of words requires fewer
cognitive abilities and can be used in various fields. Thus Word2vec is a solution in the form of a model to
represent words into vectors with the dimensions specified. Word2vec has been widely recommended and
used in natural language processing research, so this model is interesting to discuss with different
configurations on the model. Evaluation is done by comparing the answers from the system with the actual
answers to the problem of analogies on the datatest. The best results from this study is 34% on the Skip-
gram architecture, dimension 100 and windows size 10 and windows size 12. This is due to the small number
of corpus and the uneven distribution of words on the coprus.
Keywords: analogy, semantic, vector, word2vec

Downloads

Published

2019-08-01

Issue

Section

Program Studi S1 Informatika