Deteksi Kemiripan Halaman pada Al-Qur’an dengan Menggunakan Algoritma Rabin Karp dan Jaccard Similarity

Authors

  • Winda Eka Samodra Telkom University
  • Moch Arif Bijaksana Telkom University

Abstract

Abstrak Plagiarisme merupakan suatu tindakan yang dilakukan untuk mendapatkan pengakuan secara ilmiah tanpa memberikan sumber asli. Di lain sisi plagiarisme dapat digunakan untuk mencari similarity antara satu dokumen dengan dokumen yang lain. Cukup sulit mengukur kesamaan dokumen hanya dengan membaca atau mengukurnya secara manual. Namun konsep plagiarisme ini dapat digunakan untuk mendeteksi kemiripan antar ayat pada Al-Qur’an. Dataset yang digunakan merupakan sekumpulan ayat pada halaman Al-Qur’an. Oleh karena itu, dibutuhkan suatu sistem yang dapat melakukan deteksi kemiripan. Untuk membangun sistem tersebut, pada tugas akhir ini menggunakan metode Rabin Karp dengan diolah menggunakan parsing N-gram pada setiap dokumen inputnya. Data akan dicari nilai similarity diantara ayat kesatu pada halaman pertama dengan semua ayat pada halaman kedua. Selajutnya akan diambil nilai kemiripan yang bernilai 1 dan 0. Sistem yang dibangun menggunakan salah satu metode kemiripan yaitu, Jaccard Similarity. Dengan menggunakan teknik hashing dan menggunakan Algoritma Rabin Karp sistem dapat menghasilkan nilai precision terbaik sebesar 32,76 % dan menghasilan f-Measure sebesar 39,81%. Kata kunci : Plagiarisme, Al-Quran, Rabin Karp, Jaccard Similarity Abstract Plagiarism is an action to get scientific recognition without providing an original source. On the other side, plagiarism can be used to find similarity between one document to another. It's quite difficult to measure the similarity of documents only by reading or measuring them manually. But this concept of plagiarism can be used to detect similarities between verses in the Qur’an. The dataset used is a set of verses on the pages of the Qur'an. Therefore, a system is needed that can carry out similarity detection. To build the system, this final project uses the Rabin Karp method to be processed using N-gram parsing on each input document. The data will be searched for the similarity value between paragraphs one on the first page with all the verses on the second page. Next, a similarity value of 1 and 0 will be taken. The system is built using one of the similarity methods namely, Jaccard Similarity. By using hashing techniques and using the Rabin Karp Algorithm the system can produce the best precision values of 77.4% and produce f-Measure of 55.8%. Keywords: Plagiarism, Qur’an, Rabin Karp, Jaccard Similarity

Downloads

Published

2018-12-01

Issue

Section

Program Studi S1 Informatika