新聞中心
這里和大家一起學(xué)習(xí)一下Hadoop0.20.2集群配置,本節(jié)主要包括準(zhǔn)備工作和Hadoop配置兩部分內(nèi)容,希望通過(guò)本節(jié)介紹對(duì)Hadoop0.20.2集群配置有一定的認(rèn)識(shí)。

專業(yè)成都網(wǎng)站建設(shè)公司,做排名好的好網(wǎng)站,排在同行前面,為您帶來(lái)客戶和效益!創(chuàng)新互聯(lián)建站為您提供成都網(wǎng)站建設(shè),五站合一網(wǎng)站設(shè)計(jì)制作,服務(wù)好的網(wǎng)站設(shè)計(jì)公司,成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)負(fù)責(zé)任的成都網(wǎng)站制作公司!
Hadoop0.20.2集群配置入門
一、準(zhǔn)備工作
在動(dòng)手準(zhǔn)備實(shí)踐hadoop之前,最好把GoogleFileSystem和Map/Reduce的原理搞清楚,否則可能要走很多彎路。
準(zhǔn)備機(jī)器:一臺(tái)master,若干臺(tái)slave,配置每臺(tái)機(jī)器的/etc/hosts保證各臺(tái)機(jī)器之間通過(guò)機(jī)器名可以互訪,例如:
10.0.0.10master
10.0.0.11slave1
10.0.0.12slave2
保存后,重啟網(wǎng)絡(luò)服務(wù),命令:servicenetworkrestart
Linux所需軟件包括:
JavaTM1.5.x以上,必須安裝,建議選擇Sun公司發(fā)行的Java版本。
ssh必須安裝并且保證sshd一直運(yùn)行,以便用Hadoop腳本管理遠(yuǎn)端Hadoop守護(hù)進(jìn)程。
ssh的安裝以UbuntuLinux為例:
$sudoapt-getinstallssh
$sudoapt-getinstallrsync
免密碼ssh設(shè)置,保證至少?gòu)膍aster可以不用口令登陸所有的slaves:
登陸master,執(zhí)行命令
$ssh-keygen-tdsa-P''-f~/.ssh/id_dsa
將生成的id_dsa.pub拷貝到所有slaves機(jī)器上相同路徑下,例如:$scp~/.ssh/id_dsa.pubroot@slave1:/root/.ssh/master_dsa.pub
注意,此處重命名了一下。
登陸到slaves的機(jī)器上執(zhí)行命令:
$cat/root/.ssh/master_rsa.pub>>/root/.ssh/authorized_keys
現(xiàn)在再嘗試通過(guò)ssh從master登錄到slaves,應(yīng)該不需要密碼了
$sshslave1
如果還有問(wèn)題,可以參考“理解RSA/DSA認(rèn)證”:http://www.ibm.com/developerworks/cn/linux/security/openssh/part1/index.html。下面看一下Hadoop0.20.2集群配置入門中Hadoop的詳細(xì)配置介紹。
二、hadoop配置
1.安裝
下載hadoop發(fā)行版,地址:http://apache.freelamp.com/hadoop/core/stable/
安裝Hadoop集群通常要將安裝軟件解壓到集群內(nèi)的所有機(jī)器上。并且安裝路徑要一致,如果我們用HADOOP_HOME指代安裝的根路徑,通常,集群里的所有機(jī)器的HADOOP_HOME路徑相同。
通常,集群里的一臺(tái)機(jī)器被指定為NameNode,另一臺(tái)不同的機(jī)器被指定為JobTracker。這些機(jī)器是masters。余下的機(jī)器即作為DataNode也作為TaskTracker。這些機(jī)器是slaves。
下載安裝包后,直接解壓安裝即可:
$tar-zxvfhadoop-0.20.2.tar.gz
$cdhadoop-0.20.2
注:如果集群內(nèi)機(jī)器的環(huán)境完全一樣,可以在一臺(tái)機(jī)器上把Hadoop0.20.2集群配置好,然后把配置好的軟件即hadoop-0.20.2整個(gè)文件夾拷貝到其他機(jī)器的相同位置即可。
2.配置
編輯conf/hadoop-env.sh文件,至少需要將JAVA_HOME設(shè)置為Java安裝根路徑。
配置conf/core-site.xml:
fs.default.name hdfs://master:9100 - fs.default.name是NameNode的URI。hdfs://主機(jī)名:端口/
dfs.name.dir是NameNode持久存儲(chǔ)名字空間及事務(wù)日志的本地文件系統(tǒng)路徑。當(dāng)這個(gè)值是一個(gè)逗號(hào)分割的目錄列表時(shí),nametable數(shù)據(jù)將會(huì)被復(fù)制到所有目錄中做冗余備份。
dfs.data.dir是DataNode存放塊數(shù)據(jù)的本地文件系統(tǒng)路徑,逗號(hào)分割的列表。當(dāng)這個(gè)值是逗號(hào)分割的目錄列表時(shí),數(shù)據(jù)將被存儲(chǔ)在所有目錄下,通常分布在不同設(shè)備上。
dfs.replication是數(shù)據(jù)需要備份的數(shù)量,默認(rèn)是3,如果此數(shù)大于集群的機(jī)器數(shù)會(huì)出錯(cuò)。
注意:此處的name1、name2、data1、data2目錄不能預(yù)先創(chuàng)建,hadoop格式化時(shí)會(huì)自動(dòng)創(chuàng)建,如果預(yù)先創(chuàng)建反而會(huì)有問(wèn)題。
配置conf/mapred-site.xml
mapred.job.tracker master:9200
mapred.job.tracker是JobTracker的主機(jī)(或者IP)和端口。主機(jī):端口。
配置conf/masters和conf/slaves來(lái)設(shè)置主從結(jié)點(diǎn),注意最好使用主機(jī)名,并且保證機(jī)器之間通過(guò)主機(jī)名可以互相訪問(wèn),每個(gè)主機(jī)名一行。
masters:master
slaves:slave1,slave2
配置結(jié)束,把配置好的hadoop-0.20.2文件夾拷貝到其他集群的機(jī)器中,并且保證上面的配置對(duì)于其他機(jī)器而言正確,例如:如果其他機(jī)器的Java安裝路徑不一樣,要修改conf/hadoop-env.sh
$scp-r/opt/hadoop/hadoop-0.20.2root@slave1:/opt/hadoop。請(qǐng)繼續(xù)關(guān)注下節(jié)關(guān)于Hadoop0.20.2集群配置詳細(xì)介紹。
網(wǎng)站題目:Hadoop0.20.2集群配置入門指導(dǎo)手冊(cè)
本文URL:http://www.dlmjj.cn/article/djchgdh.html


咨詢
建站咨詢
