Klasifikasi Data Tweet Dengan Menggunakan Metode Klasifikasi Multi-class Support Vector Machine (svm) (studi Kasus : Pt.kai)

Authors

  • Dhina Nur Fitriana Telkomuniversity
  • Yuliant Sibaroni Telkomuniversity

Abstract

Abstrak Informasi dalam bentuk dokumen berbasis teks yang tidak terstruktur semakin banyak dan menjadi hal biasa keberadaannya di internet. Informasi tersebut sering ditemukan secara mudah dan dimanfaatkan oleh pelaku bisnis atau perusahaan melalui media sosial. Salah satu media sosial yang dibahas pada penelitian ini adalah Twitter. Twitter menempati peringkat ke-6 sebagai media sosial yang banyak diakses saat ini yaitu sebanyak 52 % pengguna di Indonesia. Pemakaian Twitter memiliki kelemahan yaitu data teks tidak terstruktur dan berjumlah banyak yaitu mencapai 2400 tweet per harinya. Hal ini mempersulit pelaku bisnis atau perusahaan mengetahui sentimen publik terhadap suatu layanan dengan sumber daya terbatas. Sentimen publik pada Twitter perlu diklasifikasikan ke dalam netral tidak hanya positif dan negatif agar dapat mempermudah perusahaan mengetahui sentimen publik untuk pelayanan yang lebih baik di masa yang akan datang. Metode Support Vector Machine (SVM)  merupakan metode klasifikasi yang optimal dibandingkan metode Naïve Bayes. Kekurangan dari metode Support Vector Machine (SVM) yaitu menggunakan fungsi pemisah yang memisahkan data ke dalam dua kelas, jika kelas yang ingin dipisahkan lebih dari dua maka dibutuhkan modifikasi dan mempengaruhi waktu pelatihan dan ukuran memory yang dibutuhkan. Untuk menangani kasus klasifikasi non-biner pada penelitian ini diperlukan pendekatan multi-class Support Vector Machine (SVM) yang menangani klasifikasi tiga kelas. Penelitian ini menggunakan pendekatan One Againts All sebagai model untuk menentukan kelas yang tepat. Pendekatan One Againts All  memiliki akurasi yang lebih baik dibandingkan One Againts One. Penelitian ini berisi hasil implementasi metode multi-class Support Vector Machine (SVM) OAA dengan lima fitur yang berbeda yaitu unigram, bigram, trigram, unigram+bigram, dan wordcloud saat mengklasifikasikan data tweet dalam jumlah yang banyak. Nilai akurasi  tertinggi berasal dari pengujian model TF-IDF unigram yang dikombinasikan dengan metode klasifikasi multi-class Support Vector Machine (SVM) dengan nilai parameter gamma 0.7 yaitu 80.59. Multiclass Support Vector Machine (SVM) dapat mengklasifikasikan kelas netral dengan baik karena banyaknya opini yang bersifat netral yaitu sebanyak 365 kalimat dari 402 kalimat netral namun, jika menggunakan metode Support Vector Machine binary class opini netral sulit diklasifikasikan. Kata kunci : Klasifikasi Teks, Multi-class Support Vector Machine, Term Frequency-Inverse Document Frequency Abstract Information in the form of unstructured texts is increasing and becoming commonplace for its existence on the internet. This information is easily found and utilized by business people or companies through social media. One of them is Twitter. The use of Twitter has the disadvantage of an unstructured and large amount of text data, which reaches 2400 tweets per day. Consequently,, it is difficult for business people or companies to know public opinion towards service with limited resources. Public opinion on Twitter need to be classified into positive, negative, and neutral sentiments in order to know the response of customers for better service in the future. The Support Vector Machine (SVM) method is more optimal than the Naïve Bayes method. The weakness of the Support Vector Machine (SVM) method is that it uses a separator function that separates data into two classes. If the class wants to be separated more than two, modification is needed and affects the training time and memory size required. There are two approaches to implementing the multiclass Support Vector Machine method by combining several binary SVMs, namely One Against All (OAA) and One Against One (OAO). In this paper, this research contains the results of classifying multi-class Support Vector Machine (SVM) methods with five different weighting features for classifying tweet data and finding the best accuracy value when processed with large amounts of data. The results show that the TF-IDF feature extraction approach with unigram feature outperforms other methods allowing the classifier to achieve highest accuracy when work with larger datasets. The unigram TF-IDF combined with multi-class SVM has the highest average accuracy value of 80.59 compared to the other four models namely 52.53 bigrams, 53.54 trigrams, Unigrams + bigrams 76.13, and word cloud 70.33. The highest f-measure value gets from SVM multi-class method with the unigram feature and gamma parameter value of 0.7 which is 80.59. Multiclass SVM can classify neutral classes well. Multiclass SVM can classify 365 sentences out of 402 neutral sentences. Therefore, if using binary class classification, neutral is difficult to be classified. Keyword :  Text Classification, Multi-class Support Vector Machine, Term Frequency-Inverse Document Frequency, Transportation.

Downloads

Published

2020-08-01

Issue

Section

Program Studi S1 Ilmu Komputasi