原本打算先分享第9章與第10章的內容,但是剛好我要重新安裝Ganglia與Nagios,且第10章也會說到叢集監控(Cluster Monitoring)的問題,所以就先分享如何安裝Ganglia和Nagios給大家囉^.^,這裡先分享如何安裝Ganglia於Hadoop上。
- 何謂Ganglia
原本打算先分享第9章與第10章的內容,但是剛好我要重新安裝Ganglia與Nagios,且第10章也會說到叢集監控(Cluster Monitoring)的問題,所以就先分享如何安裝Ganglia和Nagios給大家囉^.^,這裡先分享如何安裝Ganglia於Hadoop上。
- 何謂Ganglia
MapReduce於Hadoop definitive guide edtion 2 中於要進入尾聲了,我會盡量把前面的情況整理一遍,或許會帶有一點情境的感覺,前幾天老闆買了MapReduce Design Pattern,害我看了好想買,但是我又想買Hadoop definitive guide edtion 3和HBase中文版,先看狀況好了,因為第二版還有HBase和Zookeeper沒有跟大家做個介紹,那麼第8章結束後還有第9章與第10章的介紹,9、10章大致上是要說明Hadoop的管理。
那麼第8章主要是要闡述一些MapReduce更進階的特性,包含計數器(在5.5.5也有說過)、資料集的排序和連結。
剩下兩個章節就要結束MapReduce的練習囉^0^~,但這也只是MapReduce V1的版本,往後還會在與大家分享MapReduce V2(YARN)的內容,在這個章節要說明的就是MapReduce的類型(type)與格式(format)。
- 7.1 MapReduce的類型,這個小節主要說明map任務與reduce任務的輸入與輸出型別,大致上詳細的流程可以為:
首先~先祝大家2013新年快樂唷!!~,接下來要進入第五章囉,接下來是進行開發MapReduce程式,大致上都得先在local端使用部分資料測試,也就是所謂的單機測試,測試完後再放上叢集跑,通常這樣能夠消除大多數的bug,但是通過單機測試不代表放上叢集不會出錯,故Hadoop就提供一些小工具來協助debug的動作,像是使用Counter或是IsolationRunner等工具,在撰寫MapReduce前必須先了解一些組態的設定。
- 5.1 Configuration的設定是玩Hadoop的必經過程,使用者必須知道如何設定組態(configuration),來達到基本或是更進階的功能,Hadoop Definitive Guide edition2中範例5-1的例子可以看說如何來設定name-value的組態(xml檔),那麼這裡我就抄個例子來讓各位看官看一下吧。
本章則是要說明Hadoop的I/O,從這個章節開始我會把code貼上,我發現有些例子照著書上做根本做不出來,所以我會針對這些例子把它做完整的呈現,有些例子實在是太簡短了就懶得放了,如果有需要的話請跟我說一下,我會實作一下並再與您討論,請大家一起做練習吧~^.^~
- 4.1 HDFS的資料完整性,說明當你從叢集取資料時,hadoop能夠確保你拿到的資料的沒有缺失的。
本章主要說明Hadoop distributed file system (HDFS),是如何儲存資料,以及對資料的處理,還有像是透過shell的指令與Java的介面對於HDFS資料的讀取、儲存、查詢等功能。
- 3.1 說明了HDFS的優缺點
最近準備要開始準備CCAH與CCDH的證照考試(目標2013年3月底以前,因為還要忙公司的事情,而且還有HBase要看!~公司至上^_^~),所以我將要重新再吃一次Hadoop definitive guide edition2中文版,我也會把練習的心得分享給大家^^~,再這邊的例子都是基於非初學者喔...因為跟著書的章節走,初學者一定會GG。建議是需要先懂HDFS的操作,才有辦法玩下去!!
話說hadoop有rack感知器(rack awareness) ,但是如果你沒設定,叢集中每一台都是default-rack,可使用hadoop dfsadmin -report查看,那麼廢話不多說底下先介紹如何設定rack!!~
1. 設定core-site.xml
最近在研究如何在HBase使用壓縮,在(http://code.google.com/p/snappy/)這裡說了,壓縮不能只是看壓縮率,而是要整體的表現,網路上也是滿多人在討論下圖的關係,甚至也有人去對這些做了實驗,而下圖大致上能說明其表現的差異,而這邊並不需要去討論誰好誰壞,因為這邊只是敘述挑選壓縮工具的需求,但注意下圖LZO的壓縮率仍比SNAPPY好(這樣放的確容易照成誤解!!)
首先必須先載下Eclipse (http://www.eclipse.org/downloads/),我則是選擇Eclipse IDE for Java EE Developers來使用。我是在window 7的系統下安裝Eclipse(for widow的版本),而在叢集上的某一台也安裝Eclipse(for Linux的版本),廢話不多說請照下面的步驟進行安裝。
(1). Build出hadoop-eclipse-plugin-1.0.3.jar並放置於window下,安裝eclipse的路徑中的plugins內,for ex: C:\eclipse\plugins\
Hadoop的核心是由 "HDFS(Hadoop Distributed File System)"以及"MapReduce"所構成,
但經由很多神人以及大大以及很多open source fundation 的努力下,差點忘記Yahoo與Facebook