目前分類:Hadoop (13)

瀏覽方式: 標題列表 簡短摘要

原本打算先分享第9章與第10章的內容,但是剛好我要重新安裝Ganglia與Nagios,且第10章也會說到叢集監控(Cluster Monitoring)的問題,所以就先分享如何安裝Ganglia和Nagios給大家囉^.^,這裡先分享如何安裝Ganglia於Hadoop上。

- 何謂Ganglia

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

MapReduce於Hadoop definitive guide edtion 2 中於要進入尾聲了,我會盡量把前面的情況整理一遍,或許會帶有一點情境的感覺,前幾天老闆買了MapReduce Design Pattern,害我看了好想買,但是我又想買Hadoop definitive guide edtion 3和HBase中文版,先看狀況好了,因為第二版還有HBase和Zookeeper沒有跟大家做個介紹,那麼第8章結束後還有第9章與第10章的介紹,9、10章大致上是要說明Hadoop的管理。

那麼第8章主要是要闡述一些MapReduce更進階的特性,包含計數器(在5.5.5也有說過)、資料集的排序和連結。

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

剩下兩個章節就要結束MapReduce的練習囉^0^~,但這也只是MapReduce V1的版本,往後還會在與大家分享MapReduce V2(YARN)的內容,在這個章節要說明的就是MapReduce的類型(type)與格式(format)。

- 7.1 MapReduce的類型,這個小節主要說明map任務與reduce任務的輸入與輸出型別,大致上詳細的流程可以為:

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

接下來是第六章了,這個章節主要是說明,MapReduce的運作過程,主要是可以了解一下從作業的提交到開始執行作業中的發生過程。

- 6.1 作業的剖析,這裡主要分成四塊

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

首先~先祝大家2013新年快樂唷!!~,接下來要進入第五章囉,接下來是進行開發MapReduce程式,大致上都得先在local端使用部分資料測試,也就是所謂的單機測試,測試完後再放上叢集跑,通常這樣能夠消除大多數的bug,但是通過單機測試不代表放上叢集不會出錯,故Hadoop就提供一些小工具來協助debug的動作,像是使用Counter或是IsolationRunner等工具,在撰寫MapReduce前必須先了解一些組態的設定。

- 5.1 Configuration的設定是玩Hadoop的必經過程,使用者必須知道如何設定組態(configuration),來達到基本或是更進階的功能,Hadoop Definitive Guide edition2中範例5-1的例子可以看說如何來設定name-value的組態(xml檔),那麼這裡我就抄個例子來讓各位看官看一下吧。

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

本章則是要說明Hadoop的I/O,從這個章節開始我會把code貼上,我發現有些例子照著書上做根本做不出來,所以我會針對這些例子把它做完整的呈現,有些例子實在是太簡短了就懶得放了,如果有需要的話請跟我說一下,我會實作一下並再與您討論,請大家一起做練習吧~^.^~ 

- 4.1 HDFS的資料完整性,說明當你從叢集取資料時,hadoop能夠確保你拿到的資料的沒有缺失的。

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

本章主要說明Hadoop distributed file system (HDFS),是如何儲存資料,以及對資料的處理,還有像是透過shell的指令與Java的介面對於HDFS資料的讀取、儲存、查詢等功能。

- 3.1 說明了HDFS的優缺點

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

最近準備要開始準備CCAH與CCDH的證照考試(目標2013年3月底以前,因為還要忙公司的事情,而且還有HBase要看!~公司至上^_^~),所以我將要重新再吃一次Hadoop definitive guide edition2中文版,我也會把練習的心得分享給大家^^~,再這邊的例子都是基於非初學者喔...因為跟著書的章節走,初學者一定會GG。建議是需要先懂HDFS的操作,才有辦法玩下去!!

 

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

話說hadoop有rack感知器(rack awareness) ,但是如果你沒設定,叢集中每一台都是default-rack,可使用hadoop dfsadmin -report查看,那麼廢話不多說底下先介紹如何設定rack!!~

1. 設定core-site.xml

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

最近在研究如何在HBase使用壓縮,在(http://code.google.com/p/snappy/)這裡說了,壓縮不能只是看壓縮率,而是要整體的表現,網路上也是滿多人在討論下圖的關係,甚至也有人去對這些做了實驗,而下圖大致上能說明其表現的差異,而這邊並不需要去討論誰好誰壞,因為這邊只是敘述挑選壓縮工具的需求,但注意下圖LZO的壓縮率仍比SNAPPY好(這樣放的確容易照成誤解!!)

 compare  

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

首先必須先載下Eclipse (http://www.eclipse.org/downloads/),我則是選擇Eclipse IDE for Java EE Developers來使用。我是在window 7的系統下安裝Eclipse(for widow的版本),而在叢集上的某一台也安裝Eclipse(for Linux的版本),廢話不多說請照下面的步驟進行安裝。

(1). Build出hadoop-eclipse-plugin-1.0.3.jar並放置於window下,安裝eclipse的路徑中的plugins內,for ex: C:\eclipse\plugins\

TonyMoMo 發表在 痞客邦 留言(3) 人氣()

Hadoop的核心是由 "HDFS(Hadoop Distributed File System)"以及"MapReduce"所構成,

但經由很多神人以及大大以及很多open source fundation 的努力下,差點忘記Yahoo與Facebook

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

國網中心有推出hadoop for window的版本,是整合型的挺酷的喔!~

http://code.google.com/p/hadoop4win/

TonyMoMo 發表在 痞客邦 留言(0) 人氣()