Devinisi Big Data & Hadoop

BIG DATA
Big data adalah kumpulan data yang lebih besar dan lebih kompleks,
terutama dari sumber data baru. Set data ini sangat banyak sehingga software
pemrosesan data tradisional tidak dapat mengelolanya. Menurut Wikipedia,
Mahadata, yang lebih dikenal dengan istilah bahasa Inggris big data, adalah
istilah umum untuk segala himpunan data (data set) dalam jumlah yang sangat
besar, rumit dan tak terstruktur sehingga menjadikannya sukar ditangani apabila
hanya menggunakan perkakas manajemen basis data biasa atau aplikasi pemroses
data tradisional belaka.
Sebenarnya, data
seperti apa yang dimaksud di Big Data?
Kebanyakan kalau kita
membicarakan big data, ini akan berhubungan dengan internet. Beberapa hal yang
dianggap sebagai big data adalah hal-hal berikut ini:
- Penggunaan Internet
- Penggunaan Smartphone
- Social Media
- Degitalisasi Media
- Smart Device
HADOOP
Salah satu software
platform yang bisa digunakan untuk mengelola Big Data adalah Hadoop.
Hadoop adalah software yang mampu menghubungkan
banyak komputer untuk dapat bekerja sama dan saling terhubung untuk menyimpan
dan mengelola data dalam satu kesatuan. Hadoop meyimpan dan mengolah big data
menggunakan model pemrograman MapReduce. Map Reduce adalah model pemrograman
rilisan google yang bisa digunakan untuk memproses data dalam ukuran
besarsecara terdistribusi dan paralel dalam cluster yang terdiri dari komputer
berjumlah ribuan.

Berikut adalah
software-software yang ada di dalam Hadoop:
1. Core Hadoop
Core Hadoop terdiri dari Hadoop Distributed File System (HDFS) dan
MapReduce yang bisa diunduh di website Apache Hadoop. HDFS berfungsi untuk
mendukung pengolahan data yang besar karena ketika data diproses melalui HDFS,
data tersebut dibagi-bagi ke dalam bagian yang lebih kecil dan akan diproses
secara paralel. Sedangkan Map digunakan untuk melanjutkan proses dari HDFS
untuk diubah menjadi tuple, yakni pasangan key dan valuenya. Selanjutnya
melalui tahap Reduce, data yang berasal dari Map dilakukan tahap Shuffle dan
reduce untuk dikembalikan lagi ke HDFS.
2. Data Mining
Contoh data mining yang dapat digunakan dengan Hadoop diantaranya
Apache Pig dan Apache Hive. Data mining sebenarnya merupakan API (Application
Programming Interface) untuk menjalankan MapReduce.
3. Database NoSQL (Not Only SQL)
Tidak seperti database relasional, database NoSQL merupakan
database yang tidak menggunakan relasi antar tabel dan data yang disimpan
fleksibel. Database NoSQL dibutuhkan agar akses data dapat dilakukan dengan
lebih cepat. Contoh database NoSQL adalah Apache HBase.
4. Software pendukung lainnya
Software lainnya yang digunakan sebagai perangkat pendukung
misalnya untuk mengatur distribusi data dan pemrosesan data, mengatur input ke
dalam Hadoop dari sumber data yang bersifat streaming. Ada banyak software
pendukung lainnya yang memiliki fungsi masing-masing. Anda dapat memilih
software apa yang akan diinstal tergantung dari kebutuhan Anda.
Proses instalasi Hadoop tidak terlalu sulit. Setelah Anda
mengunduh core Hadoop, akan ada petunjuk untuk menjalankannya. Sebelum Anda
menggunakan Hadoop, pastikan komputer Anda memiliki Java terlebih dahulu.
Hadoop bisa digunakan untuk satu komputer maupun untuk banyak komputer.
Komentar
Posting Komentar