Perbandingan Menggunakan Metode Hadoop Archive Dengan Combine File Input Format Untuk Mengatasi File Berukuran Kecil Di Hdfs

Authors

  • Arif Sumanggara Nainggolan Telkom University
  • Setyorini Setyorini Telkom University
  • Erwid Mustofa Jadied Telkom University

Abstract

Abstrak Hadoop adalah platform open source berbasis Java yang berada di bawah lisensi Apache dan digunakan untuk mendukung aplikasi yang berjalan pada big data. HDFS merupakan komponen dari Hadoop yang dapat menyimpan file yang sangat besar dengan akses data streaming dan berjalan pada kelompok komoditas perangkat keras. HDFS dirancang untuk menangani file besar dalam jumlah banyak yang ukuran file nya hingga petabyte, exabyte. Di era sekarang ini, Big Data menjadi topik yang menarik untuk dibahas dengan bentuk data yang berbagai variety,velocity dan volume data. Di dalam Big Data terdapat file-file yang berukuran besar dan kecil yang akan di proses HDFS. Akan tetapi terdapat masalah yang di temukan ketika HDFS menangani file kecil dalam jumlah banyak, sehingga terdapat beberapa solusi yang ditawarkan untuk menangani file kecil dalam jumlah banyak di HDFS yaitu dengan menggunakan metode HAR (Hadoop Archive) dan Combine File Input Format. Dengan kedua metode ini maka file kecil di HDFS teratasi. kemudian di lakukan perbandingan yang mana metode yang digunkan menghasilkan penggunaan block dan waktu pemrosesan yang di gunakan sedikit. Kata kunci : Hadoop, HDFS, HAR, combine file input format, file kecil, block. Abstract Hadoop is an open source platform based on Java that is under the Apache license and is used to support applications running on big data. HDFS is a component of Hadoop that can store very large files with streaming data access and run on hardware commodity groups. HDFS is designed for large files in the number of files up to petabytes, exabytes. In today's era, Big Data has become an interesting topic to discuss with various forms of data, speed and volume data. In Big Data, there are large and small files that will be processed in HDFS. However, there are problems when HDFS files are small in large numbers, so that there are several solutions offered for large numbers of small files in HDFS using HAR (Hadoop Archive) and Combine File Input Format methods. With these two methods the small files in HDFS are resolved. then do a comparison which method is used to produce blocks and the right time is used a little. Keywords: Hadoop, HDFS, HAR, combine file format input, small file, block.

Downloads

Published

2021-04-01

Issue

Section

Program Studi S1 Informatika