Devinisi Big Data & Hadoop


BIG DATA
Big data adalah kumpulan data yang lebih besar dan lebih kompleks, terutama dari sumber data baru. Set data ini sangat banyak sehingga software pemrosesan data tradisional tidak dapat mengelolanya. Menurut Wikipedia, Mahadata, yang lebih dikenal dengan istilah bahasa Inggris big data, adalah istilah umum untuk segala himpunan data (data set) dalam jumlah yang sangat besar, rumit dan tak terstruktur sehingga menjadikannya sukar ditangani apabila hanya menggunakan perkakas manajemen basis data biasa atau aplikasi pemroses data tradisional belaka. 



Sebenarnya, data seperti apa yang dimaksud di Big Data? 
Kebanyakan kalau kita membicarakan big data, ini akan berhubungan dengan internet. Beberapa hal yang dianggap sebagai big data adalah hal-hal berikut ini:
  • Penggunaan Internet
  • Penggunaan Smartphone
  • Social Media
  • Degitalisasi Media
  • Smart Device

HADOOP

Salah satu software platform yang bisa digunakan untuk mengelola Big Data adalah Hadoop.
Hadoop adalah software yang mampu menghubungkan banyak komputer untuk dapat bekerja sama dan saling terhubung untuk menyimpan dan mengelola data dalam satu kesatuan.Hadoop meyimpan dan mengolah big data menggunakan model pemrograman MapReduce. Map Reduce adalah model pemrograman rilisan google yang bisa digunakan untuk memproses data dalam ukuran besarsecara terdistribusi dan paralel dalam cluster yang terdiri dari komputer berjumlah ribuan.

Berikut adalah software-software yang ada di dalam Hadoop:

1. Core Hadoop
             Core Hadoop terdiri dari Hadoop Distributed File System (HDFS) dan MapReduce yang bisa diunduh di website Apache Hadoop. HDFS berfungsi untuk mendukung pengolahan data yang besar karena ketika data diproses melalui HDFS, data tersebut dibagi-bagi ke dalam bagian yang lebih kecil dan akan diproses secara paralel. Sedangkan Map digunakan untuk melanjutkan proses dari HDFS untuk diubah menjadi tuple, yakni pasangan key dan valuenya. Selanjutnya melalui tahap Reduce, data yang berasal dari Map dilakukan tahap Shuffle dan reduce untuk dikembalikan lagi ke HDFS.

2. Data Mining
             Contoh data mining yang dapat digunakan dengan Hadoop diantaranya Apache Pig dan Apache Hive. Data mining sebenarnya merupakan API (Application Programming Interface) untuk menjalankan MapReduce.

3. Database NoSQL (Not Only SQL)
             Tidak seperti database relasional, database NoSQL merupakan database yang tidak menggunakan relasi antar tabel dan data yang disimpan fleksibel. Database NoSQL dibutuhkan agar akses data dapat dilakukan dengan lebih cepat. Contoh database NoSQL adalah Apache HBase.

4. Software pendukung lainnya
             Software lainnya yang digunakan sebagai perangkat pendukung misalnya untuk mengatur distribusi data dan pemrosesan data, mengatur input ke dalam Hadoop dari sumber data yang bersifat streaming. Ada banyak software pendukung lainnya yang memiliki fungsi masing-masing. Anda dapat memilih software apa yang akan diinstal tergantung dari kebutuhan Anda.
Proses instalasi Hadoop tidak terlalu sulit. Setelah Anda mengunduh core Hadoop, akan ada petunjuk untuk menjalankannya. Sebelum Anda menggunakan Hadoop, pastikan komputer Anda memiliki Java terlebih dahulu. Hadoop bisa digunakan untuk satu komputer maupun untuk banyak komputer.


Komentar