Implementasi Algoritma Binary Particle Swarm Optimization (BPSO) dan C4.5 Decision Tree untuk Deteksi Kanker Berdasarkan Klasifikasi Microarray Data

Authors

  • Amalya Citra Pradana Telkom Univesity
  • Adiwijaya Adiwijaya Telkom University
  • Annisa Aditsania Telkom University

Abstract

Abstrak Kanker merupakan salah satu penyakit yang mematikan di dunia. Upaya pendeteksian kanker dapat dilakukan dengan merepresentasikan kanker ke dalam microarray data dengan mengukur perubahan yang terjadi pada level ekspresi gen. Deteksi gejala kanker dapat dilakukan dengan teknik data mining, yaitu klasifikasi terhadap microarray data. Salah satu penerapan algoritma untuk klasifikasi adalah C4.5 Decision Tree dimana algoritma tersebut mudah diinterpretasi dan termasuk paling berpengaruh dalam klasifikasi namun memiliki kekurangan yaitu sensitif terhadap data noise. Microarray data memiliki jumlah feature yang sangat besar (high dimensional) dimana tidak semua feature tersebut memiliki informasi yang penting (high noise) dan jumlah sampel yang sedikit sehingga penerapan proses klasifikasi saja menjadi sulit karena dapat mempengaruhi nilai akurasi. Binary Particle Swarm Optimization (BPSO) merupakan salah satu algoritma optimasi pencarian untuk mendapatkan fitur yang optimal. Pemodelan rule pada Decision Tree menggunakan nilai diskrit sehingga data perlu didiskritkan. Diskritisasi dilakukan menggunakan K-Means. Sistem dibagi menjadi dua skema yaitu skema Information Gain (IG) – C4.5 dan skema BPSO – C4.5. Akurasi yang diperoleh berdasarkan skema IG-C4.5 dan BPSO-C4.5 berturut-turut adalah 54% dan 99%. Pengaruh seleksi fitur terhadap klasifikasi berperan penting dalam menghindari data noise untuk memodelkan rule yang akurat. Dengan penerapan BPSO sebagai seleksi fitur mampu mencari fitur yang paling signifikan. Kata kunci : microarray data, binary particle swarm optimization, C4.5 decision tree, classification, feature selection, K-Means Abstract Cancer is one of deadly disease in the world. Cancer can be detected by representing the cancer into microarray data with measuring the changes occured in gene expression level. Cancer detection can be done by doing classification technique for microarray data. One of most algorithm that applied for classification is Decision Tree C4.5. It is a linier method which is easy to interpret and included into the algorithm which has given impact in classification but it is sensitive to noise data. Microarray data has a large features (high dimensional) which is not all features have important information (high noise) and has a small samples and causing the application is difficult and affected the accuracy. Binary Particle Swarm Optimization (BPSO) is one of searching optimization algorithm that could find an optimal feature. Rule in Decision Tree is modelled with discrete value so the data has to be discretized. Discretization is applied using K-Means. System is divided into two schemas such as Information Gain (IG) – C4.5 and BPSO – C4.5. The accuracy based on IG – C4.5 and BPSO – C4.5 schema are 54% and 99%. Feature selection has given impact to classification for avoiding noise data to build the rule accurately. With applying BPSO as feature selection can find the features significantly. Keywords: microarray data, binary particle swarm optimization, C4.5 decision tree, classification, feature selection, K-Means

Downloads

Published

2018-12-01

Issue

Section

Program Studi S1 Informatika