Klasifikasi Jawaban Dengan Menggunakan Multiple Features Extraction Pada Community Question Answering

Authors

  • Bhudi Jati Prio Utomo Telkom University
  • Moch. Arif Bijaksana Telkom University
  • Ade Romadhony Telkom University

Abstract

Berkembangnya Internet semakin memudahkan pengguna dalam pencarian informasi. Community Question Answering (CQA) adalah salah satu sarana yang menyediakan fasilitas tanya jawab dengan mudah dan gratis.  Forum diskusi kebanyakan membebaskan pengguna dalam menulis pertanyaan ataupun jawabannya, maka dari itu jawaban-jawaban yang ada pasti sangat bervariasi, terdapat jawaban yang memberikan solusi dan ada juga jawaban yang tidak menjawab pertanyaan. Pada penelitian ini, yang dilakukan berkaitan dengan klasifikasi jawaban terhadap pertanyaan yang ada pada forum diskusi Qatar Living. Identifikasi dilakukan untuk menentukan jawaban mana yang termasuk dalam kelas good, bad, dan potential.  Klasifikasi jawaban diselesaikan dengan metode supervised learning.   Proses klasifikasi dilakukan pada data yang direpresentasikan oleh fitur seperti Similarity feature  (semantic similarity dan cosine similarity), topik model, Textual feature (author), dan Non textual feature (special word, heuristic/link, head word, emoticon, dan question mark).  Secara garis besar, terdapat tiga tahap pada penelitian ini yaitu, preprocessing lalu ekstraksi fitur, dan terakhir adalah proses klasifikasi jawaban. Preprocessing terdiri atas tiga tahap yaitu, tokenization, stopword removal, dan lemmatization. Perbedaan penelitian ini dengan penelitian sebelumnya yaitu JAIST adalah dari segi pemilihan fitur. JAIST menggunakan Word matching feature group, Special-component feature group, Non textual feature group, Topic model, Word vector, dan Translation based feature.  Berdasarkan hasil evaluasi dari penelitian ini, penulis mendapatkan bahwa klasifikasi yang dilakukan memiliki tingkat akurasi sebesar 72,36 % dan Macro F1 sebesar 54,10 %. Jika dibandingkan dengan hasil SemEval 2015, penelitian ini berada pada urutan ke 3 dari 12 peserta dengan nilai Macro F1 sebagai baseline score untuk pemeringkatannya. Keyword: community question answering, supervised learning, semantic similiarity, pemodelan topik, qatar living.

Downloads

Published

2016-08-01

Issue

Section

Program Studi S1 Informatika