Tutorial Linux Indonesia : Big Data

Instalasi Apache Flume di CentOS 7

Tutorial Linux Indonesia --- Apache merupakan tools big data yang digunakan untuk memindahkan data dari sumber ke tujuan. Dalam tutorial Apache Flume, kita akan bahas

1. apa itu apache flume?

2. Mengapa menggunakan apache flume?

3. fitur-fitur apache flume?

4. keuntungan menggunakan apache flume?

5. Instalasi Apache Flume Centos 7

6. Veritifikasi Instalasi Apache Flume

Apa itu Apache Flume ?

Apache Flume adalah alat yang digunakan untuk mengumpulkan, distribusikan sejumlah data besar yang dihasilkan seperti file, log, event ( acara ) dsb.

Dari sejumlah data yang di hasilkan akan di simpan data tersebut secara terpusat. Katakanlah ( Hadoop Distribute File Systems - HDFS ).

Baca Juga : Cara Buat Snapshot di Hadoop

Flume merupakan alat yang sangat kuat, terdistribusi dan andal, dapat di konfigurasi. Flume terutama dirancang, untuk mengumpulkan data streaming ( data log ) dari berbagai web server ke HDFS.

Kenapa Menggunakan Apache Flume ?

Sebuah perusahaan yang mempunyai banyak layanan, yang berjalan di beberapa server. Pastinya akan menghasilkan data ( log ) yang dihasilkan oleh mereka.

Sekarang, kita perlu melakukan analisa semua log. Untuk memproses log tersebut, kita membutuhkan layanan pengumpulan data terdistribusi yang handal, cepat, terukur, efisien dan mudah untuk di kelola, yang dapat melakukan aliran data tidak terstruktur ( log ) dari satu lokasi ke lokasi lain.

Baca Juga: Instalasi Apache Flink di CentOS 7

Dimana mereka akan diproses (katakanlah HDFS).

Apache Flume dapat di andalkan, di distribusikan dan memindahkan data. Tersedia untuk cara sistematis mengumpulkan dan memindahkan sejumlah besar data ( log ) ke dalama Hadoop Distribute File System ( HDFS ).

Bedasarkan aliran data streaming, dia memiliki arsitektur yang sederhana dan fleksibel. Dia sangat toleran terhadap kesalahan dan kuat serta dengan mekanisme keandalan yang dapat di sesuaikan untuk kegagalan dan pemulihan.

Fitur-Fitur Apache Flume

Ø Dia dapat mengumpulkan data log dari beberapa server dan memasukan data log tersebut ke dalam centralized store seperti ( Hbase atau HDFS ) secara efisien dan efektif.

Ø Dengan bantuan Flume, kami dapat mengumpulkan data dari berbagai sumber secara realtime maupun dalam mode batch.

Ø Data besar yang di hasilkan oleh situs web media seperti facebook, twitter dan berbagai situs e-commerce dapat dengan mudah di import dan dianalisa secara realtime.

Ø Dia dapat mengumpulkan data dari sejumlah besar sumber dan memindahkan data ke beberapa tujuan.

Ø Flume mendukung aliran multi-hop, fan-in fan-out flows, contextual routing, etc.

Fitur-Fitur Apache Flume

· Beberapa fitur-fitur Flume yang luar biasa sebagai berikut ;

Ø Dia dapat mengumpulkan data log dari beberapa server dan memasukan data log tersebut ke dalam centralized store seperti ( Hbase atau HDFS ) secara efisien dan efektif.

Ø Dengan bantuan Flume, kami dapat mengumpulkan data dari berbagai sumber secara realtime maupun dalam mode batch.

Ø Data besar yang di hasilkan oleh situs web media seperti facebook, twitter dan berbagai situs e-commerce dapat dengan mudah di import dan dianalisa secara realtime.

Ø Dia dapat mengumpulkan data dari sejumlah besar sumber dan memindahkan data ke beberapa tujuan.

Ø Flume mendukung aliran multi-hop, fan-in fan-out flows, contextual routing, etc.

Keuntungan Menggunakan Apache Flume

Ø Flume toleransi terhadap kesalahan.

Ø Terdapat fitur contextual routing di Apache Flume.

Instalasi Apache Flume

Hampir semua tools big data membutuhkan java, supaya aplikasi atau services big data dapat berjalan dengan baik.

Sekarang kita install java terbaru, dapat menggunakan perintah ini.

[root@localhost ~]# yum  install  java-1.8.0-openjdk-devel

Kalian dapat melakukan veritifikasi java, yang sudah berhasil terinstall mengunakan perintah ini.

[root@localhost ~]# which javac

[root@localhost ~]# readlink -f  /bin/javac

/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.201.b09-2.el7_6.x86_64/bin/javac

[root@localhost ~]#

Sekarang, kita download Apache Flume terlebih dahulu. Kami sarankan download apache flume terbaru dari website resmi. Kita dapat menggunakan perintah ini, untuk donwload Apache Flume.

[root@localhost ~]# wget  --no-check-certificate https://www-eu.apache.org/dist/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz

Lakukan estrack apache flume yang sudah berhasil kita donwload, menggunakan perintah ini.

[root@localhost opt]# gunzip   apache-flume-1.9.0-bin.tar.gz

[root@localhost opt]# tar xpf apache-flume-1.9.0-bin.tar

[root@localhost opt]# mv apache-flume-1.9.0-bin/  /opt/flume/

Masukan path direktory yang menyimpan konfigurasi Apache Flume di file .bashrc. Apache Flume dengan Apache Hadoop masih satu direktory /opt dan menggunakan akun “hadoop”.

Sebelum edit .bashrc login terlebih dahulu ke user “hadoop”. Sesuaikan dengan path direktory flume kalian.

[hadoop@localhost ~]$ nano .bashrc

#Flume

export FLUME_HOME="/opt/flume"

export PATH=$PATH:$FLUME_HOME/bin

Lakukan veritifikasi Path direktory, supaya apache flume dapat berjalan dengan benar.

[hadoop@localhost ~]$ source .bashrc

[hadoop@localhost ~]$ echo $FLUME_HOME

/opt/flume

[hadoop@localhost ~]$

Lakukan backup file flume-env.sh menggunakan perintah di bawah ini.

[hadoop@localhost ~]$ cd  /opt/flume/

[hadoop@localhost flume]$ cp  conf/flume-env.sh.template conf/flume-env.sh

Sekarang kita konfigurasi apache flume, untuk memasukin path java ke dalam flume, karena dia menggunakan java based. Kita juga dapat mengatur limitasi pengunaan java.

[root@localhost ~]# nano  /opt/flume/conf/flume-env.sh

# export JAVA_HOME=/usr/lib/jvm/java-8-oracle

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.201.b09-2.el7_6.x86_64

# Give Flume more memory and pre-allocate, enable remote monitoring via JMX

# export JAVA_OPTS="-Xms100m -Xmx2000m -Dcom.sun.management.jmxremote"

JAVA_OPTS="-Xms100m -Xmx200m -Dcom.sun.management.jmxremote"

Lakukan copy file flume-conf menggunakan perintah di bawah ini.

[root@localhost ~]# cd  /opt/flume/conf/

[root@localhost conf]# cp   flume-conf.properties.template flume-conf

Kalian dapat melakukan veritifikasi apache flume, menggunakan perintah di bawah ini.

[hadoop@bagol69 ~]$ flume-ng version

Flume 1.9.0

Source code repository: https://git-wip-us.apache.org/repos/asf/flume.git

Revision: d4fcab4f501d41597bc616921329a4339f73585e

Compiled by fszabo on Mon Dec 17 20:45:25 CET 2018

From source with checksum 35db629a3bda49d23e9b3690c80737f9

[hadoop@bagol69 ~]$

Cara Buat Snapshot di Hadoop

Tutorial Linux Indonesia --- Snapshot HDFS merupakan fitur hadoop yang digunakan untuk melindungi data yang sudah tersimpan di hadoop.

Dapat melindungi data perusahan yang sangat penting dari kesalahan pengguna atau aplikasi.

Apabila data perusahaan anda hilang atau rusak di HDFS Hadoop, jangan khawatir sekarang fitur snapshot dapat memulihkan data yang hilang.

Dalam Tutorial Hadoop ini, kita akan membahas “ Cara Buat Snapshot di hadoop ? “

Mengizinkan snapshot dari direktory yang akan dibuat.

hdfs dfsadmin -allowSnapshot  /pathdirektory

Misalnya direktory /bagol69_com/ yang diberikan ijin untuk melakukan snapshot file di dalam folder tersebut.

[hadoop@localhost ~]$ hdfs dfsadmin -allowSnapshot /bagol69_com/

Allowing snaphot on /bagol69_com/ succeeded

Jika sudah berhasil mengizinkan direktory untuk melakukan snapshot, akan terlihat direktory tersebut.

[hadoop@localhost ~]$ hdfs lsSnapshottableDir

drwxr-xr-x 0 hadoop supergroup 0 2019-03-28 04:06 0 65536 /bagol69_com

Langsung anda buat snapshot untuk folder tersebut.

[hadoop@localhost ~]$ hdfs dfs -createSnapshot /bagol69_com/

Created snapshot /bagol69_com/.snapshot/s20190328-132241.547

Anda dapat melihat snapshot yang sudah berhasil di buat, menggunakan web manager Hadoop, seperti gambar di bawah ini.

Instalasi Apache Flume Centos 7

Cara Buat Snapshot di Hadoop

Kategori

Kategori