本章則是要說明Hadoop的I/O,從這個章節開始我會把code貼上,我發現有些例子照著書上做根本做不出來,所以我會針對這些例子把它做完整的呈現,有些例子實在是太簡短了就懶得放了,如果有需要的話請跟我說一下,我會實作一下並再與您討論,請大家一起做練習吧~^.^~ 

- 4.1 HDFS的資料完整性,說明當你從叢集取資料時,hadoop能夠確保你拿到的資料的沒有缺失的。

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

本章主要說明Hadoop distributed file system (HDFS),是如何儲存資料,以及對資料的處理,還有像是透過shell的指令與Java的介面對於HDFS資料的讀取、儲存、查詢等功能。

- 3.1 說明了HDFS的優缺點

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

最近準備要開始準備CCAH與CCDH的證照考試(目標2013年3月底以前,因為還要忙公司的事情,而且還有HBase要看!~公司至上^_^~),所以我將要重新再吃一次Hadoop definitive guide edition2中文版,我也會把練習的心得分享給大家^^~,再這邊的例子都是基於非初學者喔...因為跟著書的章節走,初學者一定會GG。建議是需要先懂HDFS的操作,才有辦法玩下去!!

 

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

話說hadoop有rack感知器(rack awareness) ,但是如果你沒設定,叢集中每一台都是default-rack,可使用hadoop dfsadmin -report查看,那麼廢話不多說底下先介紹如何設定rack!!~

1. 設定core-site.xml

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

最近在研究如何在HBase使用壓縮,在(http://code.google.com/p/snappy/)這裡說了,壓縮不能只是看壓縮率,而是要整體的表現,網路上也是滿多人在討論下圖的關係,甚至也有人去對這些做了實驗,而下圖大致上能說明其表現的差異,而這邊並不需要去討論誰好誰壞,因為這邊只是敘述挑選壓縮工具的需求,但注意下圖LZO的壓縮率仍比SNAPPY好(這樣放的確容易照成誤解!!)

 compare  

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

首先必須先載下Eclipse (http://www.eclipse.org/downloads/),我則是選擇Eclipse IDE for Java EE Developers來使用。我是在window 7的系統下安裝Eclipse(for widow的版本),而在叢集上的某一台也安裝Eclipse(for Linux的版本),廢話不多說請照下面的步驟進行安裝。

(1). Build出hadoop-eclipse-plugin-1.0.3.jar並放置於window下,安裝eclipse的路徑中的plugins內,for ex: C:\eclipse\plugins\

TonyMoMo 發表在 痞客邦 留言(3) 人氣()

Hadoop的核心是由 "HDFS(Hadoop Distributed File System)"以及"MapReduce"所構成,

但經由很多神人以及大大以及很多open source fundation 的努力下,差點忘記Yahoo與Facebook

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

國網中心有推出hadoop for window的版本,是整合型的挺酷的喔!~

http://code.google.com/p/hadoop4win/

TonyMoMo 發表在 痞客邦 留言(0) 人氣()

«12