Implementasi Metode Mapreduce Pada Big Data Berbasis Hadoop Distributed File System

Pandu Akas Tachli Taqwin; Andrew Brian Osmond; roswan Latuconsina

Authors

Pandu Akas Tachli Taqwin Telkom University
Andrew Brian Osmond Telkom University
roswan Latuconsina Telkom University

Abstract

Abstrak Teknologi Big data merupakan kumpulan data dalam skala besar, yang mempunyai karakteristik data yang variatif, sangat cepat pertumbuhannya dan kompleks datanya. Data yang kompleks merupakan data yang tidak terstruktur yang perlu diolah khusus dengan suatu infrastruktur yang dapat mengelola data dalam volume besar berjalan secara realtime. Untuk itu diperlukan suatu metode yaitu Mapreduce, guna memudahkan komputasi yang akan dilakukan pada big data. Mapreduce digunakan untuk melakukan komputasi kumpulan data yang terdapat pada Hadoop Distributed File System (HDFS). Metode Mapreduce dapat ditransformasi dengan berbagai bentuk. Dengan Apache Flink metode Mapreduce dapat dikaji kembali pada arsitektur yang berbeda. Pada tugas akhir ini pengelolaan data berupa data yang tidak terstruktur dalam bentuk teks. Merancang Aplikasi HDFS pada sistem operasi linux dan mengimplementasikan metode Mapreduce. Program mapreduce yaitu berupa program penghitung jumlah kata menggunakan fungsi yang terdapat pada Apache Flink. Pada penelitian ini, Flink Mapreduce dapat melakukan komputasi lebih cepat sekitar 37,18% dari Hadoop Mapreduce. Keyword : Big Data, Hadoop Apache, MapReduce, Apache Flink Abstract Big data technology is a collection of data on a large scale, which has the characteristics of data varied, very fast growth and complex data. Complex data is unstructured data that needs to be specially processed with an infrastructure that can manage large volumes of data running in realtime. For that required a method that is Mapreduce, in order to facilitate the computation to be performed on the big data. Mapreduce is used to compute data sets contained in the Hadoop Distributed File System (HDFS). The Mapreduce method can be transformed in various forms. With Apache Flink the Mapreduce method can be reviewed on different architectures. In this final project data management is unstructured data in the form of text. Designing HDFS Applications on Linux operating systems and implementing Mapreduce methods. The mapreduce program is a number of word counting program using the function found in Apache Flink. In this study, Flink Mapreduce can perform faster computation of about 37.18% of Hadoop Mapreduce. Keyword: Big Data, Hadoop Apache, MapReduce, Apache Flink

Implementasi Metode Mapreduce Pada Big Data Berbasis Hadoop Distributed File System

Authors

Abstract

Downloads

Published

Issue

Section

Developed By

Language