Perbandingan Menggunakan Metode Hadoop Archive Dengan Combine File Input Format Untuk Mengatasi File Berukuran Kecil Di Hdfs

Arif Sumanggara Nainggolan, Setyorini Setyorini, Erwid Mustofa Jadied

Abstract

Abstrak
Hadoop adalah platform open source berbasis Java yang berada di bawah lisensi Apache dan digunakan
untuk mendukung aplikasi yang berjalan pada big data. HDFS merupakan komponen dari Hadoop yang
dapat menyimpan file yang sangat besar dengan akses data streaming dan berjalan pada kelompok
komoditas perangkat keras. HDFS dirancang untuk menangani file besar dalam jumlah banyak yang
ukuran file nya hingga petabyte, exabyte. Di era sekarang ini, Big Data menjadi topik yang menarik untuk
dibahas dengan bentuk data yang berbagai variety,velocity dan volume data. Di dalam Big Data terdapat
file-file yang berukuran besar dan kecil yang akan di proses HDFS. Akan tetapi terdapat masalah yang di
temukan ketika HDFS menangani file kecil dalam jumlah banyak, sehingga terdapat beberapa solusi yang
ditawarkan untuk menangani file kecil dalam jumlah banyak di HDFS yaitu dengan menggunakan metode
HAR (Hadoop Archive) dan Combine File Input Format. Dengan kedua metode ini maka file kecil di HDFS
teratasi. kemudian di lakukan perbandingan yang mana metode yang digunkan menghasilkan penggunaan
block dan waktu pemrosesan yang di gunakan sedikit.
Kata kunci : Hadoop, HDFS, HAR, combine file input format, file kecil, block.
Abstract
Hadoop is an open source platform based on Java that is under the Apache license and is used to support
applications running on big data. HDFS is a component of Hadoop that can store very large files with
streaming data access and run on hardware commodity groups. HDFS is designed for large files in the
number of files up to petabytes, exabytes. In today's era, Big Data has become an interesting topic to discuss
with various forms of data, speed and volume data. In Big Data, there are large and small files that will be
processed in HDFS. However, there are problems when HDFS files are small in large numbers, so that there
are several solutions offered for large numbers of small files in HDFS using HAR (Hadoop Archive) and
Combine File Input Format methods. With these two methods the small files in HDFS are resolved. then do
a comparison which method is used to produce blocks and the right time is used a little.
Keywords: Hadoop, HDFS, HAR, combine file format input, small file, block.

Full Text:

PDF

Refbacks

  • There are currently no refbacks.
max_upload :0