Identifikasi Kata Majemuk Bahasa Indonesia

Authors

  • Fikri Haykal Telkomuniversity
  • Arie Ardiyanti Suryani Telkomuniversity
  • Sri Widowati Telkomuniversity

Abstract

Abstrak Multi-word Expression (MWE) tokenizer merupakan mesin untuk melakukan tokenisasi lebih dari dua kata, yang dapat digunakan untuk melakukan identifikasi kata majemuk. Pada tugas akhir ini dilakukan pembangunan mesin tersebut berbahasa Indonesia dengan metode berbasis aturan (rule based) berdasarkan pola kata majemuk dengan menggunakan tiga metode POS tagger yaitu, Conditional Random Fields (CRF) tagger, Bigram tagger, dan Classifier Based tagger dengan data latih sebanyak 226.328 kata dan data uji sebanyak 1.865 kata, lalu setelah melakukan uji coba dan evaluasi hasil, akurasi yang didapatkan dengan CRF tagger sebesar 77.97%, total kata yang didapat 295 kata kandidat kata majemuk, jumlah benar 230 kata dan jumlah salah 65 kata, lalu dengan Bigram tagger akurasi yang didapat sebesar 86,80%, total kata yang didapat sebanyak 144 kata kandidat kata majemuk, jumlah benar 125 kata dan jumlah salah 19 kata, dan yang terakhir menggunakan Classifier Based tagger akurasi yang didapat sebesar 82,13%, total kata yang didapat 235 kata kandidat kata majemuk, jumlah benar 193 kata dan jumlah salah 42 kata, jadi, jika menggunakan Bigram tagger, jumlah kata yang didapatkan sedikit tetapi akurasi yang didapatkan tinggi, sedangkan jika menggunakan CRF tagger, jumlah kata yang didapatkan banyak tetapi akurasi yang didapatkan rendah.

Kata kunci: Multi-word Expression, Tokenizer, Rule Based, Conditional Random Fileds Tagger, Bigram Tagger, Classifier Based Tagger
Abstract Multi-word Expression (MWE) tokenizer is a machine to tokenize more than two words, which can be used to identify compound words. In this final project, the construction of the machine in Indonesian with a rule-based method based on compound word patterns using three POS tagger methods, namely, Conditional Random Fields (CRF) tagger, Bigram tagger, and Classifier Based tagger with as many as 226,328 training data. The word and test data were 1,865 words, then after testing and evaluating the results, the accuracy obtained with the CRF tagger was 77.97%, the total words obtained were 295 compound word candidate words, 230 correct words and 65 wrong words, then with Bigram The accuracy tagger obtained is 86.80%, the total words obtained are 144 compound word candidate words, 125 correct words and 19 incorrect words, and the last one using Classifier Based tagger, the accuracy obtained is 82.13%, the total words used There are 235 candidate compound words, 193 correct words and 42 incorrect words, so, if you use Bigram tagger, you get less words but the accuracy you get is high, whereas if you use the CRF tagger, you get more words but the accuracy you get is low.

Keywords: Multi-word Expression, Tokenizer, Rule Based, Conditional Random Fields Tagger, Bigram Tagger, Classifier Based Tagger

Downloads

Published

2020-08-01

Issue

Section

Program Studi S1 Informatika