日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
在Scrapy中如何利用Xpath選擇器從網(wǎng)頁中采集目標數(shù)據(jù)——詳細教程(上篇)

 /前言/

創(chuàng)新互聯(lián)是專業(yè)的福建網(wǎng)站建設(shè)公司,福建接單;提供網(wǎng)站設(shè)計、網(wǎng)站建設(shè),網(wǎng)頁設(shè)計,網(wǎng)站設(shè)計,建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進行福建網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團隊,希望更多企業(yè)前來合作!

上一篇文章我們講述了網(wǎng)頁結(jié)構(gòu)和Xpath表達式語法知識,感興趣的小伙伴可以戳這篇文章:網(wǎng)頁結(jié)構(gòu)的簡介和Xpath語法的入門教程。我們了解到Xpath表達式最好是通過自己進行網(wǎng)頁分析和針對性的選取唯一性的標簽進行定位,可以提高提取效率,而且還不容易出錯。

有了Xpath表達式基礎(chǔ)之后,這篇文章我們將通過Xpath表達式來進行提取數(shù)據(jù),具體教程如下,仍然以之前的網(wǎng)站為例進行說明,我們的目標數(shù)據(jù)是標題、發(fā)布日期、主題、正文內(nèi)容、點贊數(shù)、收藏數(shù)、評論數(shù)等。具體的教程如下。

/具體實現(xiàn)/

1、針對標題,在上篇文章中就有提及,其Xpath表達式有多種,任選其一即可,在scrapy shell腳本下進行調(diào)試,得到標題的提取方式,并寫入到爬蟲主體文件中。

2、接下來是發(fā)布日期的提取,仍然是以交互式的方式實現(xiàn)網(wǎng)頁與源碼之間的交互,如下圖所示。

3、而且標簽“entry-meta-hide-on-mobile”具有全局唯一性,可以很方便的定位到元素。

4、根據(jù)網(wǎng)頁結(jié)構(gòu),我們可輕易的寫出發(fā)布日期的Xpath表達式,可以在scrapy shell中先進行測試,再將選擇器表達式寫入爬蟲文件中,詳情如下圖所示。

這里有部分雜質(zhì)信息,需要利用strip()和replace()函數(shù)剔除多余的雜質(zhì),還日期一個“清白”。

5、關(guān)于文章主題標簽的Xpath表達式,可以看到其在網(wǎng)頁結(jié)構(gòu)上處于日期的下方,如下圖所示。

因此可以通過更改一下發(fā)布日期的Xpath表達式,即可獲取到文章主題標簽。

6、文章主題標簽處于a標簽下,如下圖所示。

獲取到整個列表之后,利用join函數(shù)將數(shù)組中的元素以逗號連接生成一個新的字符串叫tags,然后寫入Scrapy爬蟲文件中去。

7、對于點贊數(shù),其分析方法同之前一致,找到唯一的一個標簽“vote-post-up”即可定位到數(shù)據(jù)。

8、細心的小伙伴可能會看到“vote-post-up”屬性并不是class標簽中唯一一個屬性,所以一開始的Xpath表達式匹配的內(nèi)容為空。

這里給大家安利一個小技巧,如果標簽中存在多個屬性,且屬性是唯一的時候,可以利用contains函數(shù)進行助攻,其用法是'//span[contains(@class,"vote-post-up"),務(wù)必要多加練習,否則容易忘記。根據(jù)網(wǎng)頁結(jié)構(gòu)寫出Xpath表達式,調(diào)試的過程如下圖所示。

取出的點贊數(shù)是個字符串,需要利用int()將其強制轉(zhuǎn)換為數(shù)字。

未完待續(xù)~~~,下一篇文章將繼續(xù)分享Xpath表達式數(shù)據(jù)采集方法。

/小結(jié)/

本文基于Xpath理論基礎(chǔ),主要介紹了Scrapy爬蟲框架中利用Xpath選擇器提取某個網(wǎng)頁中目標數(shù)據(jù)的方法,為后面抓取全網(wǎng)數(shù)據(jù)埋下伏筆,更精彩的操作在下篇文章奉上,希望對大家的學習有幫助。


標題名稱:在Scrapy中如何利用Xpath選擇器從網(wǎng)頁中采集目標數(shù)據(jù)——詳細教程(上篇)
網(wǎng)頁網(wǎng)址:http://www.dlmjj.cn/article/cdoohid.html