Pemberian Peringkat Komentar Pada Community Question Answering Dengan Fitur Soft-cosine Semantic Similarity Untuk Kasus Question-external Comment
Abstract
Abstrak Di era sekarang ini kebutuhan informasi semakin tinggi dengan banyaknya teknologi yang berkembang dengan cepat. Dengan adanya internet yang semakin cepat dan efektif, maka sistem Community Question Answering (CQA) sudah dapat dipastikan akan sangat membantu pengguna internet untuk mendapatkan informasi yang dibutuhkan. Dengan masukan berupa dataset berbentuk XML yang berisi pertanyaan baru, pertanyaan relevan dan jawaban. Output yang dihasilkan berupa nilai Mean Average Precision (MAP) dari sepuluh komentar good teratas.. CQA sendiri cukup terbuka untuk umum dan semuanya bebas untuk bertanyajawab, tetapi dengan kebebasan itu pengguna juga disulitkan dengan banyaknya jawaban dan tidak menjamin semuanya benar dan sesuai dengan pertanyaan. Bahkan ada kemungkinan juga jika jawaban yang terbaik ada di pertanyaan lain yang sudah pernah ditanyakan. Penelitian yang ada sebelumnya menggunakan fitur Cosine Similarity. Fitur Cosine Similarity hanya mengambil jawaban yang memiliki kesamaan kata dengan pertanyaan yang ada. Sedangkan dengan ditambahkan fitur SoftCosine Semantic Similarity akan meningkatkan kemungkinan untuk mendapatkan jawaban yang tepat meskipun tidak memiliki kesamaan kata sekalipun. Pengujian dilakukan menggunakan dataset dari SemEval-2017 Task 3 menunjukkan bahwa gabungan fitur SoftCosine Semantic Similarity dengan algoritma klasifikasi Support Vector Machine lebih baik dari kombinasi yang lain. Kombinasi ini menghasilkan nilai MAP sebesar 21.0% untuk mencari persamaan Original Question dengan Related Comments.
Kata Kunci : community question answering, klasifikasi, pemberian peringkat komentar, qatar living forum, softcosine semantic similarity Abstract In this era the needs of information increases with a lot of technology that developed rapidly. With the existence of internet which getting more fast and effective, the Community Question Answering (CQA) system will absolutely help the internet user to get the information that they need. The input is XML dataset with new question, relevance question and comment inside them. The output is result of Mean Average Precision (MAP) from top ten comments. The CQA itself is quite available for public and all of the internet user are unrestrained to do some question and answer. But with the freedom that they got, user also having some difficulties from getting too much of answers and also there’s no guarantee that all of the answers are right and suitable with the question. Even maybe there are some probability that the best answer is from another question that has been asked before. Some previous research only using Cosine Similarity feature. Cosine similarity feature only take answers which have some letter similarity with the one that is in the question. While the system added by Soft-Cosine Semantic Similarity, that will increasing the probability on getting the right answer with having no word similarity. The SemEval-2017 Task 3 dataset testing result showed us that the combination between Soft-Cosine Semantic Similarity feature with Support Vector Machine algorithm classification is better than the other combination. The MAP value from this combination is 21.0% which is used to search the similarity between Original Question and Related Comments.
Keywords : classification, comment ranking, community question answering, qatar living forum, soft-cosine semantic similarity