Pengolahan Data Polling Berbasis Media Sosial Menggunakan Mapreduce Pada Framework Hadoop

Authors

  • Yusuf Yunadian Telkom University
  • Hilal Hudan Nuha Telkom University
  • Sidik Prabowo Telkom University

Abstract

Abstrak Pengolahan data dari sebuah sistem Polling menjadi hal yang sangat penting karena data hasil olah tersebut dapat digunakan oleh publik untuk dijadikan acuan di dalam menghadapi sebuah persoalan yang berkembang di masayarakat. Pertumbuhan di dalam penggunaan media sosial semakin meningkat dari tahun ke tahun, di mana Indonesia sendiri merupakan pengguna media social Twitter terbanyak ke-5 di dunia. Di dalam proses pengolahan data, jika data yang akan diolah berukuran cukup besar, akan memperlambat komputasi yang dilakukan. Hal tersebut mendorong penulis untuk membuat sebuah sistem yang dapat memperoses data polling yang dilakukan melalui media sosial dengan waktu yang lebih efisien. Hadoop merupakan salah satu sistem yang optimal untuk digunakan di dalam pengolahan data polling pada Tugas Akhir ini. Pada Hadoop terdapat 2 modul utama yaitu Hadoop Distributed File System (HDFS) yang merupakan sistem penyimpanan terdistribusi, dan MapReduce yang merupakan algoritma/komputasi pada Hadoop. Pada pengoloahan data polling ini menggunakan program wordcount dengan MapReduce pada Hadoop dan dengan program wordcount tanpa MapReduce. Dilakukan pengujian terhadap 2 metode tersebut, dengan diujikan menggunakan beberapa data dengan ukuran dari yang kecil sampai ke yang berukuran besar. Dan dihasilkan bahwa, MapReduce lebih unggul dalam segi kecepatan proses data dibandingkan dengan metode proses data tanpa MapReduce. Dengan rata-rata dari data yang diujikan, menggunakan MapReduce pada Hadoop dapat memproses data 1,3 kali lebih cepat dibandingkan tanpa MapReduce pada Hadoop. Kata Kunci: polling, Hadoop, MapReduce, wordcount, kecepatan proses. Abstract Data processing from a Polling system becomes very important because the results of data processing can be used by the public to be used as a reference in dealing with a problem that is developing in the community. Growth in the use of social media has increased from year to year, where Indonesia itself is the fifth largest user of Twitter social media in the world. In the data processing, if the data to be processed is large enough, it will slow down the computation done. This encourages the author to create a system that can process polling data conducted through social media with a more efficient time. Hadoop is one of the optimal systems for use in polling data processing in this Final Project. In Hadoop there are 2 main modules namely Hadoop Distributed File System (HDFS) which is a distributed storage system, and MapReduce which is an algorithm / computation on Hadoop. In processing this poll data using the wordcount program with MapReduce on Hadoop and with the wordcount program without MapReduce. Tests of the 2 methods were conducted, tested using some data with sizes from small to large. And it is produced that, MapReduce is superior in terms of data processing speed compared to the data processing method without MapReduce. With an average of data tested, using MapReduce on Hadoop can process data 1.3 times faster than without MapReduce on Hadoop. Keyword: polling, Hadoop, MapReduce, wordcount, processing speed

Downloads

Published

2020-04-01

Issue

Section

Program Studi S1 Informatika