Implementasi Apache Spark pada Big Data Berbasis Hadoop Distributed File System

Authors

  • Sevian Oliviandi Telkom University
  • Andrew Brian Osmond Telkom University
  • Roswan Latuconsina Telkom University

Abstract

Abstrak Big data merupakan kumpulan data dalam skala besar, yang mempunyai karakteristik data yang variatif, sangat cepat pertumbuhannya dan kompleks datanya. Data yang kompleks merupakan data yang tidak terstruktur yang perlu diolah khusus dengan suatu infrastruktur yang dapat mengelola data dalam volume besar. Pada tugas akhir ini digunakan metode MapReduce untuk memudahkan komputasi yang akan dilakukan pada suatu big data. MapReduce merupakan suatu model pemrograman untuk menulis aplikasi yang dapat memproses suatu big data secara paralel pada beberapa node. MapReduce memberikan kemampuan analitis untuk menganalisis volume besar data yang kompleks. Platform yang digunakan adalah Hadoop, Hadoop mempunyai algoritma MapReduce sendiri. Tugas akhir ini akan menganalisis performa dari Hadoop MapReduce dan membandingkannya dengan Apache Spark yaitu platform yang dibuat untuk memproses suatu big data yang dikembangkan berdasarkan Hadoop MapReduce dengan peningkatan performa pemrosesan. Skenario yang digunakan adalah memproses wordcount suatu data dengan besar data yang berbeda yang bertujuan untuk menganalisis response time dan penggunaan hardware dari kedua platform tersebut. Kata kunci : Big Data, Apache Spark, MapReduce, Hadoop Abstract Big data is a collection of data on a large scale, which has the characteristics of data varied, very fast growth and complex data. Complex data is unstructured data that needs to be specially processed with an infrastructure that can manage large volumes of data. In this final project used MapReduce method to facilitate computation to be performed on a big data. MapReduce is a programming model for writing applications that can process a big data in parallel on multiple nodes. MapReduce provides analytical capabilities for analyzing large volumes of complex data. The platform used is Hadoop, Hadoop has its own MapReduce algorithm. This final project will analyze the performance of Hadoop MapReduce and compare it with Apache Spark is a platform created to process a big data developed based on Hadoop MapReduce with improved processing performance. The scenario used is to process wordcount of a data with different data that aims to analyze the response time and hardware usage of both platforms. Keywords: Big Data, Apache Spark, MapReduce, Hadoop

Downloads

Published

2018-04-01

Issue

Section

Program Studi S1 Sistem Komputer