Hadoop－TonyMoMo的部落格

Jan 15 Tue 2013 10:25
Ganglia與Nagios的安裝與設定-Part1.安裝Ganglia

原本打算先分享第9章與第10章的內容，但是剛好我要重新安裝Ganglia與Nagios，且第10章也會說到叢集監控(Cluster Monitoring)的問題，所以就先分享如何安裝Ganglia和Nagios給大家囉^.^，這裡先分享如何安裝Ganglia於Hadoop上。

- 何謂Ganglia

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣()

個人分類：Hadoop

▲top

Jan 14 Mon 2013 00:56
準備CCAH與CCDH的認證考試之路 : 第八章 MapReduce的特性

MapReduce於Hadoop definitive guide edtion 2 中於要進入尾聲了，我會盡量把前面的情況整理一遍，或許會帶有一點情境的感覺，前幾天老闆買了MapReduce Design Pattern，害我看了好想買，但是我又想買Hadoop definitive guide edtion 3和HBase中文版，先看狀況好了，因為第二版還有HBase和Zookeeper沒有跟大家做個介紹，那麼第8章結束後還有第9章與第10章的介紹，9、10章大致上是要說明Hadoop的管理。

那麼第8章主要是要闡述一些MapReduce更進階的特性，包含計數器(在5.5.5也有說過)、資料集的排序和連結。

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣()

個人分類：Hadoop

▲top

Jan 12 Sat 2013 12:02
準備CCAH與CCDH的認證考試之路 : 第七章 MapReduce的類型與格式

剩下兩個章節就要結束MapReduce的練習囉^0^~，但這也只是MapReduce V1的版本，往後還會在與大家分享MapReduce V2(YARN)的內容，在這個章節要說明的就是MapReduce的類型(type)與格式(format)。

- 7.1 MapReduce的類型，這個小節主要說明map任務與reduce任務的輸入與輸出型別，大致上詳細的流程可以為：

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣()

個人分類：Hadoop

▲top

Jan 06 Sun 2013 11:08
準備CCAH與CCDH的認證考試之路 : 第六章 MapReduce如何運作

接下來是第六章了，這個章節主要是說明，MapReduce的運作過程，主要是可以了解一下從作業的提交到開始執行作業中的發生過程。

- 6.1 作業的剖析，這裡主要分成四塊

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣()

個人分類：Hadoop

▲top

Jan 03 Thu 2013 14:47
準備CCAH與CCDH的認證考試之路 : 第五章開發MapReduce程式

首先~先祝大家2013新年快樂唷!!~，接下來要進入第五章囉，接下來是進行開發MapReduce程式，大致上都得先在local端使用部分資料測試，也就是所謂的單機測試，測試完後再放上叢集跑，通常這樣能夠消除大多數的bug，但是通過單機測試不代表放上叢集不會出錯，故Hadoop就提供一些小工具來協助debug的動作，像是使用Counter或是IsolationRunner等工具，在撰寫MapReduce前必須先了解一些組態的設定。

- 5.1 Configuration的設定是玩Hadoop的必經過程，使用者必須知道如何設定組態(configuration)，來達到基本或是更進階的功能，Hadoop Definitive Guide edition2中範例5-1的例子可以看說如何來設定name-value的組態(xml檔)，那麼這裡我就抄個例子來讓各位看官看一下吧。

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣()

個人分類：Hadoop

▲top

Dec 30 Sun 2012 00:28
準備CCAH與CCDH的認證考試之路 : 第四章 Hadoop的I/O

本章則是要說明Hadoop的I/O，從這個章節開始我會把code貼上，我發現有些例子照著書上做根本做不出來，所以我會針對這些例子把它做完整的呈現，有些例子實在是太簡短了就懶得放了，如果有需要的話請跟我說一下，我會實作一下並再與您討論，請大家一起做練習吧~^.^~

- 4.1 HDFS的資料完整性，說明當你從叢集取資料時，hadoop能夠確保你拿到的資料的沒有缺失的。

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣()

個人分類：Hadoop

▲top

Dec 17 Mon 2012 16:46
準備CCAH與CCDH的認證考試之路 : 第三章 HDFS

本章主要說明Hadoop distributed file system (HDFS)，是如何儲存資料，以及對資料的處理，還有像是透過shell的指令與Java的介面對於HDFS資料的讀取、儲存、查詢等功能。

- 3.1 說明了HDFS的優缺點

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣()

個人分類：Hadoop

▲top

Dec 15 Sat 2012 11:55
準備CCAH與CCDH的認證考試之路 : 第二章 Mapreduce

最近準備要開始準備CCAH與CCDH的證照考試(目標2013年3月底以前，因為還要忙公司的事情，而且還有HBase要看!~公司至上^_^~)，所以我將要重新再吃一次Hadoop definitive guide edition2中文版，我也會把練習的心得分享給大家^^~，再這邊的例子都是基於非初學者喔...因為跟著書的章節走，初學者一定會GG。建議是需要先懂HDFS的操作，才有辦法玩下去!!

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣()

個人分類：Hadoop

▲top

Nov 22 Thu 2012 11:10
Rack的設定!!~

話說hadoop有rack感知器(rack awareness) ，但是如果你沒設定，叢集中每一台都是default-rack，可使用hadoop dfsadmin -report查看，那麼廢話不多說底下先介紹如何設定rack!!~

1. 設定core-site.xml

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣()

個人分類：Hadoop

▲top

Nov 17 Sat 2012 11:25
挑選適合的compression tool for HBase與如何安裝SNAPPY

最近在研究如何在HBase使用壓縮，在(http://code.google.com/p/snappy/)這裡說了，壓縮不能只是看壓縮率，而是要整體的表現，網路上也是滿多人在討論下圖的關係，甚至也有人去對這些做了實驗，而下圖大致上能說明其表現的差異，而這邊並不需要去討論誰好誰壞，因為這邊只是敘述挑選壓縮工具的需求，但注意下圖LZO的壓縮率仍比SNAPPY好(這樣放的確容易照成誤解!!)

compare

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(0) 人氣()

個人分類：Hadoop

▲top

Nov 15 Thu 2012 15:33
使用Eclipse做遠端叢集的操作!~

首先必須先載下Eclipse (http://www.eclipse.org/downloads/)，我則是選擇Eclipse IDE for Java EE Developers來使用。我是在window 7的系統下安裝Eclipse(for widow的版本)，而在叢集上的某一台也安裝Eclipse(for Linux的版本)，廢話不多說請照下面的步驟進行安裝。

(1). Build出hadoop-eclipse-plugin-1.0.3.jar並放置於window下，安裝eclipse的路徑中的plugins內，for ex: C:\eclipse\plugins\

(繼續閱讀...)

TonyMoMo 發表在痞客邦留言(3) 人氣()