Normalisasi Teks Bahasa Indonesia Berbasis Kamus Slang Studi Kasus: Tweet Produk Gadget Pada Twitter

Authors

  • Riri Riyaddulloh Telkom University
  • Ade Romadhony Telkom University

Abstract

Sosial media adalah alat bantu untuk memperkaya informasi tentang gadget, informasi yang diperoleh dapat berupa atribut produk gadget, hingga harga dari suatu gadget. Twitter merupakan salah satu dari sosial media yang berperan sebagai alat bantu untuk memperkaya berbagai informasi, mulai dari informasi tentang gadget hingga menjadi sumber berita keluhan seseorang. Normalisasi teks adalah istilah yang digunakan untuk menyampaikan gagasan dengan mengubah format teks untuk memenuhi tujuan tertentu. Terkadang dalam sebuah tweets terdapat unggahan kata yang berisi kata-kata non baku atau dapat disebut kata slang, kata slang adalah ragam bahasa tidak resmi dan tidak baku yang sifatnya musiman, dipakai oleh kaum remaja atau kelompok sosial tertentu untuk komunikasi intern. Kata slang tersebut perlu dilakukan normalisasi yang mana langkah awalnya dengan cara me-reduksi setiap kata yang memiliki imbuhan menjadi kata yang seragam, yang bertujuan agar dapat diproses pada pemrosesan selanjutnya. Pada Tugas Akhir ini, penulis membangun sistem untuk menormalisasi kata slang dari tweets produk gadget. Proses normalisasi teks menggunakan model word2vec untuk mencari kata formal dengan similarity tertinggi terhadap sebuah kata slang. Hasil normalisasi dievaluasi pada sebuah task klasifikasi yang akan mengelompokkan sentiment tweets ke dalam 3 kelas, yaitu: Positif, Negatif, dan Netral. Hasil pengujian menunjukkan bahwa terdapat peningkatan akurasi klasifikasi pada data yang sudah dinormalisasi, dengan nilai akurasi sebesar 91%, dibandingkan dengan dataset tanpa normalisasi, dengan nilai akurasi sebesar 88%. Kata kunci: gadget, kata Slang, Slang List, normalisasi teks, korpus, word2vec

Downloads

Published

2021-08-01

Issue

Section

Program Studi S1 Informatika