新聞中心
在學(xué)習(xí)Hadoop的過程中,你可能會(huì)遇到HadoopStudio中開發(fā)部署MapReduce應(yīng)用問題,這里向大家介紹一下,希望通過本節(jié)的介紹,大家能夠掌握HadoopStudio下開發(fā)部署MapReduce應(yīng)用的方法。

HadoopStudio開發(fā)部署MapReduce應(yīng)用
HadoopStudio是基于Hadoop框架的MapReduce應(yīng)用集成開發(fā)和部署環(huán)境。HadoopStudio以NetBeans模塊插件的方式使用,可在NetBeans插件中心獲取。開發(fā)者可以通過HadoopStudio的可視化界面,部署分布在不同節(jié)點(diǎn)的計(jì)算任務(wù),并監(jiān)控MapReduce處理過程中各階段的輸入、輸出以及交互過程。
針對(duì)MapReduce任務(wù)執(zhí)行過程的各要素,HadoopStudio提供了HDFS、JobTracker以及Cluster節(jié)點(diǎn)的配置工具。使用HadoopStudio配置之前,需要預(yù)先在目標(biāo)機(jī)器上部署Hadoop作業(yè)執(zhí)行環(huán)境,在UbuntuLinux上的Hadoop配置過程,已有詳盡教程(單節(jié)點(diǎn),多節(jié)點(diǎn))可供參考。
在HadoopStudio中對(duì)作業(yè)節(jié)點(diǎn)配置,首先需要定義負(fù)責(zé)數(shù)據(jù)存儲(chǔ)的Filesystems節(jié)點(diǎn),可選節(jié)點(diǎn)包含本地磁盤訪問、HDFS文件系統(tǒng)和AmazonS3連接三種方式。HDFS節(jié)點(diǎn)的配置,需要指定NameNode節(jié)點(diǎn)的地址、訪問端口和登錄用戶名,其中登錄用戶名為可選項(xiàng)。對(duì)于目前***的r0.20版本,F(xiàn)ilesystems節(jié)點(diǎn)的端口配置由conf/hadoop-site.xml改為在conf/core-site.xml中設(shè)定。
在HadoopCluster配置部分,添加遠(yuǎn)程計(jì)算節(jié)點(diǎn)對(duì)應(yīng)的JobTracker,指定節(jié)點(diǎn)的地址,并在下拉列表中選擇之前添加的Filesystems節(jié)點(diǎn),添加的節(jié)點(diǎn)則會(huì)出現(xiàn)在Hadoop可用節(jié)點(diǎn)的列表中。在主節(jié)點(diǎn)計(jì)算任務(wù)啟動(dòng)之后,包含DataNode、TaskTracker、JobTracker、NameNode、SecondaryNameNode進(jìn)程。對(duì)于數(shù)據(jù)處理,集群中結(jié)點(diǎn)由一個(gè)NameNode和若干DataNode組成,SecondaryNameNode為NameNode的備份。計(jì)算任務(wù)中,節(jié)點(diǎn)由一個(gè)JobTracker和若干TaskTracker組成,JobTracker負(fù)責(zé)任務(wù)調(diào)度,TaskTracker執(zhí)行并行計(jì)算任務(wù)。TaskTracker須運(yùn)行在DataNode上以獲取用于計(jì)算的數(shù)據(jù)。
對(duì)于已編寫的計(jì)算任務(wù),HadoopStudio提供了簡(jiǎn)化的作業(yè)部署流程。首先在HadoopJobs中添加生成好的jar包(如Hadoop自帶的Hadoop-*-examples.jar示例),之后選擇要執(zhí)行的主類并添加依賴項(xiàng),并選擇執(zhí)行任務(wù)的目標(biāo)Cluster節(jié)點(diǎn)和目標(biāo)Filesystems后即可啟動(dòng)計(jì)算任務(wù)。同時(shí),HadoopStudio提供了實(shí)時(shí)顯示的MapReduce任務(wù)工作流視圖,可顯示任務(wù)執(zhí)行過程中的作業(yè)類型、完成情況、執(zhí)行狀態(tài)、起止時(shí)間、報(bào)錯(cuò)信息以及輸出結(jié)果等內(nèi)容。
Hadoop應(yīng)用開發(fā)方面,HadoopStudio將Hadoop類庫(kù)進(jìn)行打包,可直接在項(xiàng)目中添加所有依賴項(xiàng)。編碼過程中,HadoopStudio為每種作業(yè)的提供了模板,并能夠在代碼編輯的同時(shí)自動(dòng)對(duì)模板視圖進(jìn)行更新。
目前HadoopStudio支持Hadoop0.18.x版本的ClientAPI和Hadoop0.20.x的Client與Server的API,并且支持不同版本Hadoop的混合使用。但HadoopStudio目前的文檔比較簡(jiǎn)單,感興趣的朋友可以在freshmeat.net的項(xiàng)目站點(diǎn)跟蹤HadoopStudio的***信息。
【編輯推薦】
- Hadoop創(chuàng)建Hbase表方法指導(dǎo)
- Hbase和Hadoop操作文件性能測(cè)試
- Hadoop集群與Hadoop性能優(yōu)化
- Hadoop 從Yahoo向Google的技術(shù)轉(zhuǎn)折
- Hadoop初探
當(dāng)前文章:HadoopStudio中實(shí)現(xiàn)MapReduce應(yīng)用
轉(zhuǎn)載注明:http://www.dlmjj.cn/article/cdedcsh.html


咨詢
建站咨詢
