TonyMoMo的部落格

3月 11 週一 201310:07
Avro - 進階篇(4) + Secondary Sort via MapReduce

相信大家有寫過，利用繼承WritableComparator的方式實做自己的比較器，大家會發現其實寫起來好像不是那麼的方便，由於Avro在執行資料操作也是"不"需要反序列化後再做處理，且使用Avro的好處則是，
1. 若是要改變排序順序只需調整schema即可。
2. 不需要自己在開發繼承WritableComparator後再開發所需之程式碼，更也不需要花心力去maintain code。
問題 : 如何使用下述行前準備中的Input data，利用"score"降冪排序，以及使用"favoriteNumber"做升冪排序。

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣(255)

個人分類：Avro

▲top

3月 08 週五 201316:24
Avro - 觀念篇(3) + HBase的操作

趁著上班空檔，再分享一篇關於Avro於HBase的操作，其實說穿了無非就是如下所示：
Put : Data -> Avro(servialize) -> HBase
Get : HBase -> Avro(deserialize) -> Data
因為Avro的型態就是一個緊湊的binary格式，所以要放上HBase是非常容易的。

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣(422)

個人分類：Avro

▲top

3月 08 週五 201312:13
Avro - 觀念篇(2) + Sort data using MapReuce

繼上一篇實做的code generation，發現run完整個procedure已經要吐之後，接下來就是要介紹一下如何在不使用code generation的情況下來玩Avro。
PS. 後輩是使用Hadoop 1.0.3的版本，執行的時候出現了paranamer的error，所以有請google大神幫後輩抓了一下paranamer的jar包，請前輩們自行抓取囉^_^~
那麼接下來就是要使用MapReduce搭配Avro來做well-known"排序"的工作。
行前準備：

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣(319)

個人分類：Avro

▲top

2月 26 週二 201310:24
Avro - 觀念篇(1) + 實做

由於Avro 將在MapReduce V2(YARN)上被使用，所以小弟也來研究一下Avro的一些觀念與實作方式囉^_^~，當然MapReduce V1也可以用到拉。
做為Hadoop資料的序列化(Serialize)與反序列化(Deserialize)，比起傳統的Writable，Avro使用來改進Writable的缺點: 可攜性的問題(Writable序列化後的資料無法讓其他程式語言使用)。
當然不僅Avro做得到，還有像是Apache的Thrift、google的protocal buffer也都可以，我個人認為(純粹個人認為)，Doug先生使用Avro而不使用其他的方式來取代傳統的Writable或許是因為他對Avro的掌握程度遠比其他的方式還高。
Avro的幾個重點 :

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣(2,242)

個人分類：Avro

▲top

1月 20 週日 201322:52
Zookeeper - 安裝篇

Zookeeper在HBase的Master與Regionserver中是扮演一個協調器(coordinator)，但是Zookeeper只能用在hadoop中?答案是「未必」，那麼這篇只是說明一下如何安裝Zookeeper於叢集中。
行前說明 1. : 因為網路上實在非常多的安裝介紹，所以若是有疑問其實google都可以搜尋到，或是留言問小弟我也可以~^^~。
行前說明 2. : 因為單機版與偽分佈版後輩尚未需要，故直接說明叢集中要如何搭設zookeeper。
行前說明 3. : 請勿直接複製貼上來跑，因為您跟我的環境一定不同，IP一定不同，hostname一定不同，So...請搭配自己的環境來玩^^~。

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(1) 人氣(1,400)

個人分類：Zookeeper

▲top

1月 15 週二 201310:25
Ganglia與Nagios的安裝與設定-Part1.安裝Ganglia

原本打算先分享第9章與第10章的內容，但是剛好我要重新安裝Ganglia與Nagios，且第10章也會說到叢集監控(Cluster Monitoring)的問題，所以就先分享如何安裝Ganglia和Nagios給大家囉^.^，這裡先分享如何安裝Ganglia於Hadoop上。
- 何謂Ganglia
在說明如何安裝前，先跟大家簡單分享一下ganglia是如何來蒐集資料的。
- 機制，ganglia的狀態蒐集機制是透過每一台gmond來蒐集資料，並透過主節點的gmetad來彙整資料後傳給rrdtool來做繪圖的動作。

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣(735)

個人分類：Hadoop

▲top

1月 14 週一 201300:56
準備CCAH與CCDH的認證考試之路 : 第八章 MapReduce的特性

MapReduce於Hadoop definitive guide edtion 2 中於要進入尾聲了，我會盡量把前面的情況整理一遍，或許會帶有一點情境的感覺，前幾天老闆買了MapReduce Design Pattern，害我看了好想買，但是我又想買Hadoop definitive guide edtion 3和HBase中文版，先看狀況好了，因為第二版還有HBase和Zookeeper沒有跟大家做個介紹，那麼第8章結束後還有第9章與第10章的介紹，9、10章大致上是要說明Hadoop的管理。
那麼第8章主要是要闡述一些MapReduce更進階的特性，包含計數器(在5.5.5也有說過)、資料集的排序和連結。
- 8.1 計數器(Counter)，也是因為MapReduce是分散式的運作，這在debug上會有個問題就是你印出的log不知道會出現在哪一個節點上，所以就可以利用計數的方式來得知你的程式有沒有進行一些你想做的事情，相對於印出log來看，使用counter是比較容易的方法。
- 8.1.1 內建計數器，執行完MapReduce可以從50030或是從CLI的Shell上都可以看到的資訊，主要是回報關於作業的各種指標，由於版本不同輸出的內容也不同，請自行參閱^^~。

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣(275)

個人分類：Hadoop

▲top

1月 12 週六 201312:02
準備CCAH與CCDH的認證考試之路 : 第七章 MapReduce的類型與格式

剩下兩個章節就要結束MapReduce的練習囉^0^~，但這也只是MapReduce V1的版本，往後還會在與大家分享MapReduce V2(YARN)的內容，在這個章節要說明的就是MapReduce的類型(type)與格式(format)。
- 7.1 MapReduce的類型，這個小節主要說明map任務與reduce任務的輸入與輸出型別，大致上詳細的流程可以為：
Input Formt -> mapper -> partitioner -> Grouper -> combiner -> reducer -> Output Format

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣(304)

個人分類：Hadoop

▲top

1月 06 週日 201311:08
準備CCAH與CCDH的認證考試之路 : 第六章 MapReduce如何運作

接下來是第六章了，這個章節主要是說明，MapReduce的運作過程，主要是可以了解一下從作業的提交到開始執行作業中的發生過程。
- 6.1 作業的剖析，這裡主要分成四塊
a. 客戶端 : 提交作業。
b. JobTracker : 用來協調作業的運行。

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣(259)

個人分類：Hadoop

▲top

1月 03 週四 201314:47
準備CCAH與CCDH的認證考試之路 : 第五章開發MapReduce程式

首先~先祝大家2013新年快樂唷!!~，接下來要進入第五章囉，接下來是進行開發MapReduce程式，大致上都得先在local端使用部分資料測試，也就是所謂的單機測試，測試完後再放上叢集跑，通常這樣能夠消除大多數的bug，但是通過單機測試不代表放上叢集不會出錯，故Hadoop就提供一些小工具來協助debug的動作，像是使用Counter或是IsolationRunner等工具，在撰寫MapReduce前必須先了解一些組態的設定。
- 5.1 Configuration的設定是玩Hadoop的必經過程，使用者必須知道如何設定組態(configuration)，來達到基本或是更進階的功能，Hadoop Definitive Guide edition2中範例5-1的例子可以看說如何來設定name-value的組態(xml檔)，那麼這裡我就抄個例子來讓各位看官看一下吧。
configuration-1.xml
<?xml version="1.0"?>

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣(170)

個人分類：Hadoop

▲top

TonyMoMo的部落格

TonyMoMo的新視野

Avro - 進階篇(4) + Secondary Sort via MapReduce

Avro - 觀念篇(3) + HBase的操作

Avro - 觀念篇(2) + Sort data using MapReuce

Avro - 觀念篇(1) + 實做

Zookeeper - 安裝篇

Ganglia與Nagios的安裝與設定-Part1.安裝Ganglia

準備CCAH與CCDH的認證考試之路 : 第八章 MapReduce的特性

準備CCAH與CCDH的認證考試之路 : 第七章 MapReduce的類型與格式

準備CCAH與CCDH的認證考試之路 : 第六章 MapReduce如何運作

準備CCAH與CCDH的認證考試之路 : 第五章開發MapReduce程式

個人資訊

熱門文章

文章分類

最新文章

動態訂閱

文章精選

文章搜尋

誰來我家

參觀人氣