Perbandingan Algoritma Sentencepiece Bpe Dan Unigram Pada Tokenisasi Artikel Bahasa Indonesia

Authors

  • Triwidyastuti Jamaluddin Telkomuniversity
  • Moch Arif Bijaksana Telkomuniversity
  • Ibnu Asror Telkomuniversity

Abstract

Abstrak Tokenisasi merupakan sebuah konsep yang mencakup proses sederhana dimana urutan teks dipecah men- jadi bagian-bagian yang lebih kecil atau token dan kemudian dimasukkan sebagai input ke dalam model Natural language processing (NLP), atau proses model yang lebih kompleks seperti menerapkan penge- tahuan dunia Deep Learning (DL). Tokenisasi akan lebih rumit ketika berhadapan dengan kasus semua kata dikelompokkan menjadi satu token atau tanpa pemisah dan kesalahan dalam tipografi. Paper ini mengusulkan model unsupervised tokenization menggunakan subword unit tokenizer dan detokenizer rep- resentasi oleh neural network, implementasi algoritma Byte Pair Encoding (BPE) dan Unigram Language Model. Selain itu, mengeksploitasi sentencePiece, model segmentasi pada kalimat dapat dilatih tanpa spasi. Ekpsperimen menggunakan bahasa Indonesia menghasilkan akurasi 54.6% dan 87.0% untuk Byte Pair Encoding (BPE) dan Unigram Languange Model, masing-masing.

Kata kunci: SentencePiece, Subword Tokenizer, Byte Pair Encoding (BPE), Unigram Language Model.


Abstract Tokenization is a concept that includes a simple process where the sequence of the text is split up into sma- ller parts or tokens and then entered as input into the model of natural language processing (NLP), or more complex process models such as applying the world knowledge of Deep Learning (DL). Tokenization will be more complicated when dealing with cases where all words are grouped into a single token or without se- parators and errors in typography. This paper proposes a model unsupervised tokenization using subword tokenizer and detokenize representation by neural networks, implementation of algorithm Byte Pair Enco- ding (BPE) and Unigram Language Model. Moreover, exploiting sentencePiece, the segmentation model of sentences can be trained without spaces. Experiments using the Indonesian language resulted in 54.6% and 87.0% in accuracy for Byte Pair Encoding (BPE) and Unigram Language Model, respectively.
Keywords: SentencePiece, Subword Tokenizer, Byte Pair Encoding (BPE), Unigram Language Model.

Downloads

Published

2020-08-01

Issue

Section

Program Studi S1 Informatika