中文字幕观看2015,伊人av中文无码字幕,日韩在线中文制服一区

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案

使用nutch檢索的歷程

最近開始做一個(gè)項(xiàng)目的搜索引擎，技術(shù)選型為爬蟲nutch。開始以為除了cms系統(tǒng)發(fā)布的靜態(tài)頁面以外，還有數(shù)據(jù)庫存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)需要索引(其實(shí)這些用頁面是用jsp展示的，在系統(tǒng)中已經(jīng)有了)。所以用爬蟲爬完網(wǎng)站后，就想著再把結(jié)構(gòu)化的數(shù)據(jù)通lucene的api寫進(jìn)nutch的索引中，最后通過多次嘗試發(fā)現(xiàn)很難實(shí)現(xiàn)。雖然能將lucene建立的索引追加進(jìn)到nutch的索引中，可是卻很難讀出來(有一款luke軟件可以，可是想要趕緊完成項(xiàng)目，這個(gè)luke的源碼沒有時(shí)間來讀)。

在綏化等地區(qū)，都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局，加強(qiáng)發(fā)展的系統(tǒng)性、市場(chǎng)前瞻性、產(chǎn)品創(chuàng)新能力，以專注、極致的服務(wù)理念，為客戶提供成都網(wǎng)站建設(shè)、做網(wǎng)站網(wǎng)站設(shè)計(jì)制作按需設(shè)計(jì)網(wǎng)站,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),品牌網(wǎng)站設(shè)計(jì),營(yíng)銷型網(wǎng)站建設(shè),外貿(mào)網(wǎng)站制作,綏化網(wǎng)站建設(shè)費(fèi)用合理。

lucene是一個(gè)平面化的存儲(chǔ)，一個(gè)索引就相當(dāng)于數(shù)據(jù)庫的一張表。而nutch的存儲(chǔ)結(jié)構(gòu)是hdfs存儲(chǔ)系統(tǒng)，hadoop的分布式系統(tǒng)，索引里面寫入了很多hadoop的數(shù)據(jù)，而且其中10個(gè)字段title/url/segment/host/site/content/anchor/boost/digest/tstamp業(yè)也不像原生的lucene索引的存放方式。多次嘗試發(fā)現(xiàn)用lucene基礎(chǔ)api讀取nutch的索引很難實(shí)現(xiàn)。

最近才發(fā)現(xiàn)原來nutch的搜索應(yīng)用中的一個(gè)的一個(gè)配置文件regex-urlfilter.txt ，里面默認(rèn)在后臺(tái)只爬取靜態(tài)頁面。所以導(dǎo)致我開始的想法。

知道這個(gè)以后好辦了，修改后臺(tái)和前臺(tái)應(yīng)用的配置文件，消除對(duì)php/jsp/xxAction.do等動(dòng)態(tài)url的過濾：

方法如下：修改conf下面的2個(gè)文件regex-urlfilter.txt，crawl-urlfilter.txt

將

# skip URLs containing certain characters as probable queries, etc.

-[?*!@=]

修改成

# accept URLs containing certain characters as probable queries, etc.

+[?=&]

從而允許動(dòng)態(tài)傳參數(shù)的?=&等url的爬取。

換了個(gè)思路，省了不少事兒。nutch繼續(xù)研究使用中

【相關(guān)文章】

在Hibernate中處理批量更新和批量刪除

利用HSQLDB進(jìn)行Hibernate單元測(cè)試

使用Hibernate編寫通用數(shù)據(jù)庫操作代碼

標(biāo)題名稱：使用nutch檢索的歷程
當(dāng)前鏈接：http://www.dlmjj.cn/article/ccojgcc.html

日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

新聞中心

其他資訊