Kamis, 02 Januari 2014

Apa itu ‘Big Data’?


Sesuai dengan namanya, Big Data didefinisikan sebagai sebuah problem domain di mana teknologi tradisional seperti relational database tidak mampu lagi untuk melayani. Definisi Big di sini adalah volume, velositas dan variasi datanya. Peningkatan volum, velositas dan variasi data banyak diakibatkan oleh adopsi internet. Setiap individu memproduksi konten atau paling tidak meninggalkan sidik jari digital yang berpotensial untuk digunakan untuk hal-hal baru; dari audiens targetting, rekomendasi ataupun penggunaan yang lebih tak terduga seperti Google Translate yang menggunakan machine learning di atas Big Data yang Google punya untuk translasi bahasa.

Big Data bukan saja BI 2.0

Untuk Enterprise, Big Data sering dikotakkan ke dalam Business Intelligence. Miskonsepsi ini disebabkan keduanya menawarkan insight di atas data yang ada. Perbedaan yang mendasar adalah bagaimana konsep Big Data dan Business Intelligence memproses data.
Untuk menghadapi volume yang tinggi, prinsip Business Intelligence mengajak kita untuk membersihkan data yang ada. Proses pembersihan ini akan membuang residu yang dianggap tidak penting. Sedangkan prinsip Big Data adalah untuk tidak membuang data apapun karena residu tersebut mungkin akan menjadi penting sejalannya waktu.
Untuk menghadapi velositas yang tinggi, prinsip Business Intelligence mengajak kita untuk melakukan operasi batch secara teratur. Operasi ini akan medorong data dari sistem transaksi ke data warehouse untuk diproses selanjutnya. Sedangkan prinsip Big Data adalah real-time processing.
Untuk menghadapi variasi data yang tinggi, prinsip Business Intelligence mengajak kita untuk menciptakan struktur melalui  ekstraksi, transformasi dan membuang residu yang tersisa. Big Data memiliki pendekatan yang serupa namun tanpa harus membuang data mentah yang kita miliki. Misalnya dari sebuah unstructured data kita bisa melakukan entity resolution untuk mengekstrak konteks sebuah kata (contoh: Apple adalah perusahaan atau label rekaman atau buah). Kalkulasi ini biasanya dilakukan secara real time.

Hadoop

Apache Hadoop menawarkan fitur MapReduce  yang memungkinkan kita melakukan prinsip-prinsip yang disebut di atas. Hadoop banyak dipakai oleh perusahaan web dan Startup yang kita kenal sekarang seperti Yahoo, Facebook, Foursquare dsb.
Begitu pula di sisi enterprise, vendor-vendor solusi enterprise merangkul Hadoop untuk mengatasi masalah Big Data di dalam enterprise. Microsoft (Windows Azure Hadoop), Oracle (Big Data Appliance yang mencakup solusi Hadoop dari Cloudera), SAP (Hana), EMC (GreenPlum Hadoop) adalah beberapa contoh solusi di space ini.

Tidak ada komentar:

Posting Komentar