Perbandingan Akurasi Algoritma K-nearest Neighbor Dan Logistic Regression Untuk Klasifikasi Penyakit Diabetes

Authors

  • Raharjo Putra Kurniadi Telkom University
  • Rd. Rohmat Saedudin Telkom University
  • Vandha Pradwiyasma Widartha Telkom University

Abstract

Diabetes atau sering disebut sebagai penyakit kencing manis merupakan suatu penyakit akibat kelainan metabolik yang diakibatkan oleh tingginya kadar glukosa darah di tubuh dalam waktu yang lama. International Diabetes Federation (IDF) memperkirakan sedikitnya terdapat 463 juta jiwa di seluruh dunia menderita penyakit diabetes pada tahun 2019. Negara Indonesia berada di urutan ke-7 dari 10 negara dengan jumlah penderita diabetes terbanyak, yaitu sebesar 10,7 juta dan diprediksi akan berjumlah 16,6 juta jiwa pada tahun 2045. Banyak orang terdiagnosis penyakit diabetes setelah mengalami komplikasi. Pendeteksian penyakit dapat dilakukan dengan menggunakan data mining dalam menggali informasi dari kumpulan data penyakit diabetes. Dataset yang digunakan pada penelitian ini adalah dataset Pima Indians Diabetes Database. Dataset ini berisikan 768 pasien wanita dengan 8 atribut diagnosa kondisi medis yang berbeda dan 1 atribut tujuan atau atribut label. Penelitian ini membandingkan algoritma K-Nearest Neighbor dan Logistic Regression untuk klasifikasi data Pima Indians Diabetes Database. Pada penelitian ini, penulis melakukan penanganan missing value terhadap data dan menggunakan metode Grid Search untuk menemukan model dengan hasil akurasi yang optimal. Hasil akurasi dievaluasi dengan menggunakan confusion matrix dan menghitung nilai AUC. Diperoleh hasil algoritma K-Nearest Neighbor dengan nilai akurasi sebesar 85,06% dan algoritma Logistic Regression dengan akurasi sebesar 77,92%. Kata Kunci : diabetes, data mining, klasifikasi, k-nearest neighbor, logistic regression

Downloads

Published

2021-10-01

Issue

Section

Program Studi S1 Sistem Informasi