日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關咨詢
選擇下列產品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
Nutch怎么使用

這篇文章主要講解了“Nutch怎么使用”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“Nutch怎么使用”吧!

十年的香河網(wǎng)站建設經(jīng)驗,針對設計、前端、開發(fā)、售后、文案、推廣等六對一服務,響應快,48小時及時工作處理。成都營銷網(wǎng)站建設的優(yōu)勢是能夠根據(jù)用戶設備顯示端的尺寸不同,自動調整香河建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設計,從而大程度地提升瀏覽體驗。創(chuàng)新互聯(lián)從事“香河網(wǎng)站設計”,“香河網(wǎng)站推廣”以來,每個客戶項目都認真落實執(zhí)行。

Nutch現(xiàn)在已經(jīng)到了2.2.2版本,而且版本1.x已經(jīng)更新到了1.8,這里以1.7為例,1.8中的部分命令行工具的API有變,入門時不是很容易。

#安轉運行Nutch#

  • 下載安裝Nutch

  • 在${NUTCH_HOME}下,mkdir urls

  • cd urls

  • touch seed.txt

  • edit seed.txt ,write :http://nutch.apache.org

  • edit ${NUTCH_HOME}/conf/regex.urlfilter.txt

  • replace

'#accept anything else
+.

with

+^http://([a-z0-9]*\.)*nutch.apache.org/
  • 爬取網(wǎng)頁: bin/nutch crawl urls -dir crawl -depth 3 -topN 5 注意:此命令1.8版本有改變

#安裝Solr#

  • 下載安裝Solr,我使用的時最新版的4.8

  • cd ${SOLR_HOME}/example

  • java -jar start.jar

  • 驗證安裝:http://localhost:8983/solr/

#Nutch和Solr集成# 這里要注意:文檔說了那么多其實只有兩件事:

  • 使用${NUTCH_HOME}/conf/schema-solr4.xml 替換掉${SOLR_HOME}/example/solr/collection1/conf/schema.xml ,并將schema-solr4.xml改名為schema.xml

  • 在schema.xml中第351行后面(其實只要添加在types標簽中即可)添加:

到這里集成就完成了?,F(xiàn)在只要重新啟動solr,并用下面的命令將Nutch爬取的數(shù)據(jù)索引到solr即可。

在${NUTCH_HOME}下,運行:

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

然后訪問:http://localhost:8983/solr/

感謝各位的閱讀,以上就是“Nutch怎么使用”的內容了,經(jīng)過本文的學習后,相信大家對Nutch怎么使用這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關知識點的文章,歡迎關注!


網(wǎng)站名稱:Nutch怎么使用
URL鏈接:http://www.dlmjj.cn/article/ppescj.html