成年人高清无码,超碰91在线观看

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案

Hadoop入門(mén)經(jīng)典

本節(jié)接著上節(jié)繼續(xù)向大家介紹一下Hadoop入門(mén)方面的知識(shí)，主要內(nèi)容有如何運(yùn)行Hadoop程序和它的效率問(wèn)題，歡迎大家一起來(lái)學(xué)習(xí)Hadoop入門(mén)，首先我們先看一下Hadoop的概念。

為泉港等地區(qū)用戶提供了全套網(wǎng)頁(yè)設(shè)計(jì)制作服務(wù)，及泉港網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為網(wǎng)站設(shè)計(jì)制作、網(wǎng)站制作、泉港網(wǎng)站設(shè)計(jì)，以傳統(tǒng)方式定制建設(shè)網(wǎng)站，并提供域名空間備案等一條龍服務(wù)，秉承以專業(yè)、用心的態(tài)度為用戶提供真誠(chéng)的服務(wù)。我們深信只要達(dá)到每一位用戶的要求，就會(huì)得到認(rèn)可，從而選擇與我們長(zhǎng)期合作。這樣，我們也可以走得更遠(yuǎn)！

Hadoop簡(jiǎn)介

Hadoop一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu)，由Apache基金會(huì)開(kāi)發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開(kāi)發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。
　　簡(jiǎn)單地說(shuō)來(lái)，Hadoop是一個(gè)可以更容易開(kāi)發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái)。
　　Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)（HadoopDistributedFileSystem），簡(jiǎn)稱HDFS。HDFS有著高容錯(cuò)性（fault-tolerent）的特點(diǎn)，并且設(shè)計(jì)用來(lái)部署在低廉的（low-cost）硬件上。而且它提供高傳輸率（highthroughput）來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（largedataset）的應(yīng)用程序。HDFS放寬了（relax）POSIX的要求（requirements）這樣可以流的形式訪問(wèn)（streamingaccess）文件系統(tǒng)中的數(shù)據(jù)。

一、運(yùn)行Hadoop程序
Hadoop入門(mén)首先看一下如何運(yùn)行Hadoop程序。Hadoop這方面的文檔寫(xiě)得不全面，綜合參考GettingStartedWithHadoop與NutchHadoopTutorial兩篇后，再碰了很多釘子才終于完整的跑起來(lái)了，記錄如下：

1.1local運(yùn)行模式

完全不進(jìn)行任何分布式計(jì)算，不動(dòng)用任何namenode,datanode的做法，適合一開(kāi)始做調(diào)試代碼。
解壓hadoop，其中conf目錄是配置目錄，hadoop的配置文件在hadoop-default.xml，如果要修改配置，不是直接修改該文件，而是修改hadoop-site.xml，將該屬性在hadoop-site.xml里重新賦值。
hadoop-default.xml的默認(rèn)配置已經(jīng)是local運(yùn)行，不用任何修改，配置目錄里唯一必須修改的是hadoop-env.sh里JAVA_HOME的位置。
將編譯好的HadoopGrep與RegMapper.class放入hadoop/build/classes/demo/hadoop/目錄找一個(gè)比較大的log文件放入一個(gè)目錄，然后運(yùn)行hadoop/bin/hadoopdemo.hadoop.HadoopGreplog文件所在目錄任意的輸出目錄grep的字符串。查看輸出目錄的結(jié)果，查看hadoop/logs/里的運(yùn)行日志。在重新運(yùn)行前，先刪掉輸出目錄。我們看一下Hadoop入門(mén)中運(yùn)行Hadoop程序的第二種模式。

1.2單機(jī)集群運(yùn)行模式

現(xiàn)在來(lái)搞一下只有單機(jī)的集群.假設(shè)以完成3.1中的設(shè)置，本機(jī)名為hadoopserver

第1步.然后修改hadoop-site.xml，加入如下內(nèi)容：

 
 
   
  
     
  
  fs.default.name   
  
  hadoopserver:9000   
  
     
  
     
  
  mapred.job.tracker   
  
  hadoopserver:9001   
  
     
  
     
  
  dfs.replication   
  
  1

從此就將運(yùn)行從local文件系統(tǒng)轉(zhuǎn)向了hadoop的hdfs系統(tǒng)，mapreduce的jobtracker也從local的進(jìn)程內(nèi)操作變成了分布式的任務(wù)系統(tǒng)，9000，9001兩個(gè)端口號(hào)是隨便選擇的兩個(gè)空余端口號(hào)。
另外，如果你的/tmp目錄不夠大，可能還要修改hadoop.tmp.dir屬性。

第2步.增加ssh不輸入密碼即可登陸。
因?yàn)镠adoop需要不用輸入密碼的ssh來(lái)進(jìn)行調(diào)度，在不su的狀態(tài)下，在自己的home目錄運(yùn)行ssh-keygen-trsa,然后一路回車生成密鑰，再進(jìn)入.ssh目錄,cpid_rsa.pubauthorized_keys
詳細(xì)可以man一下ssh,此時(shí)執(zhí)行sshhadoopserver，不需要輸入任何密碼就能進(jìn)入了。

3.格式化namenode，執(zhí)行
bin/hadoopnamenode-format

4.啟動(dòng)Hadoop
執(zhí)行hadoop/bin/start-all.sh,在本機(jī)啟動(dòng)namenode,datanode,jobtracker,tasktracker

5.現(xiàn)在將待查找的log文件放入hdfs,。
執(zhí)行hadoop/bin/hadoopdfs可以看到它所支持的文件操作指令。
執(zhí)行hadoop/bin/hadoopdfsputlog文件所在目錄in，則log文件目錄已放入hdfs的/user/user-name/in目錄中

6.現(xiàn)在來(lái)執(zhí)行Grep操作
hadoop/bin/hadoopdemo.hadoop.HadoopGrepinout
查看hadoop/logs/里的運(yùn)行日志，重新執(zhí)行前。運(yùn)行hadoop/bin/hadoopdfsrmrout刪除out目錄。

7.運(yùn)行hadoop/bin/stop-all.sh結(jié)束。單機(jī)集群運(yùn)行模式介紹完畢，我們看一下Hadoop入門(mén)中運(yùn)行Hadoop程序的第三種集群運(yùn)行模式。

1.3集群運(yùn)行模式
假設(shè)已執(zhí)行完3.2的配置，假設(shè)第2臺(tái)機(jī)器名是hadoopserver2

1.創(chuàng)建與hadoopserver同樣的執(zhí)行用戶，將hadoop解壓到相同的目錄。

2.同樣的修改haoop-env.sh中的JAVA_HOME及修改與3.2同樣的hadoop-site.xml

3.將hadoopserver中的/home/username/.ssh/authorized_keys復(fù)制到hadoopserver2,保證hadoopserver可以無(wú)需密碼登陸hadoopserver2
scp/home/username/.ssh/authorized_keysusername@hadoopserver2:/home/username/.ssh/authorized_keys

4.修改hadoop-server的hadoop/conf/slaves文件,增加集群的節(jié)點(diǎn)，將localhost改為
hadoop-server
hadoop-server2

5.在hadoop-server執(zhí)行hadoop/bin/start-all.sh
將會(huì)在hadoop-server啟動(dòng)namenode,datanode,jobtracker,tasktracker
在hadoop-server2啟動(dòng)datanode和tasktracker

6.現(xiàn)在來(lái)執(zhí)行Grep操作
hadoop/bin/hadoopdemo.hadoop.HadoopGrepinout
重新執(zhí)行前,運(yùn)行hadoop/bin/hadoopdfsrmrout刪除out目錄

7.運(yùn)行hadoop/bin/stop-all.sh結(jié)束。

二、效率
經(jīng)測(cè)試，Hadoop并不是萬(wàn)用靈丹，很取決于文件的大小和數(shù)量，處理的復(fù)雜度以及群集機(jī)器的數(shù)量，相連的帶寬，當(dāng)以上四者并不大時(shí)，hadoop優(yōu)勢(shì)并不明顯。
比如，不用hadoop用java寫(xiě)的簡(jiǎn)單grep函數(shù)處理100M的log文件只要4秒，用了hadooplocal的方式運(yùn)行是14秒，用了hadoop單機(jī)集群的方式是30秒，用雙機(jī)集群10M網(wǎng)口的話更慢，慢到不好意思說(shuō)出來(lái)的地步。本節(jié)關(guān)于Hadoop入門(mén)方面的內(nèi)容就介紹到這里。

【編輯推薦】

Hadoop起源及其四大特性詳解
Hadoop開(kāi)源已經(jīng)實(shí)現(xiàn)
Hadoop集群與Hadoop性能優(yōu)化
Hadoop 從Yahoo向Google的技術(shù)轉(zhuǎn)折
Yahoo公布Hadoop的源代碼

網(wǎng)頁(yè)標(biāo)題：Hadoop入門(mén)經(jīng)典
本文鏈接：http://www.dlmjj.cn/article/cdjjpji.html

日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

新聞中心

其他資訊