Analisis Word2vec untuk Perhitungan Kesamaan Semantik antar Kata
Abstract
Abstrak Implementasi perhitungan kesamaan semantik antar kata merupakan salah satu tugas yang dapat diselesaikan dalam bidang Natural Language Processing(NLP). Perhitungan kesamaan semantik antar kata dapat digunakan untuk membantu mesin dalam memahami bahasa manusia. Selain itu, perhitungan kesamaan semantik juga dapat digunakan sebagai dasar penelitian tahap selanjutnya pada bidang NLP. Penelitian ini dilatar belakangi oleh suatu masalah dimana pada saat ini pencarian sistem informasi banyak melibatkan teks atau dokumen, namun mesin belum dapat menyamakan persepsi manusia dengan baik sehingga mesin perlu dibantu untuk memahami teks atau dokumen tersebut. Sepasang kata dinyatakan mempunyai kesamaan semantik apabila memiliki kesamaan pada makna atau konsep. Pada penelitian ini, dilakukan implementasi perhitungan kesamaan semantik antar kata untuk bahasa Inggris. Korpus yang digunakan pada penelitian ini yaitu Brown Corpus, Berita Corpus, dan Harry Potter Corpus. Dokumen tersebut diubah kedalam bentuk vektor dengan Word2vec. Selanjutnya nilai kesamaan semantik yang dihasilkan dari vektor tersebut dibandingkan dengan dataset Gold Standard SimLex999 untuk mengukur nilai korelasinya. Hasil pengujian menunjukkan bahwa pengukuran Word2vec menghasilkan korelasi sebesar 0.192 dengan perhitungan korelasi Pearson. Kata kunci : Kesamaan Semantik, Natural Language Processing, Word2vec Abstract The implementation of calculation semantic similarity between word is one of task that can be done by Natural Language Processing. The calculation of semantic similarity between word can used to help the machine to understanding of human language(natural language). Beside that, calculation of semantic similarity can be used as a basic of the next step in NLP’s research. The main idea of this study is motivated by a problem where nowaday the seaarch of information sistem are involved by many text and document, so we need to help the machine to understand those texts or documents. A pair of word are similar if they have similarity to the level of meaning of concept. In this research, we are implement the calculation of semantic similarity between word in English. The corpus that used in this research are Brown Corpus, Berita Corpus, and Harry Potter Corpus. That documents are convert into vector space by using Word2vec. Next, the score of semantic similarity generated by vector are compared to SimLex999 Gold Standard dataset to measure their corelation. The result showed that Word2vec have corelation’s score of 0.192 in Pearson corelation. Keywords: Semantic Similarity, Natural Language Processing, Word2vecDownloads
Published
2018-12-01
Issue
Section
Program Studi S1 Informatika