日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
利用Python尋找命中注定的另一半,大家都覺(jué)得不可信

既然是Python程序員找美女,就要用python程序員的方法。

今天我們的目標(biāo)是,爬社區(qū)的美女~而且,我們又要用到新的姿勢(shì)(霧)了~scrapy爬蟲(chóng)框架~

1scrapy原理

在寫(xiě)過(guò)幾個(gè)爬蟲(chóng)程序之后,我們就知道,利用爬蟲(chóng)獲取數(shù)據(jù)大概的步驟:請(qǐng)求網(wǎng)頁(yè),獲取網(wǎng)頁(yè),匹配信息,下載數(shù)據(jù),數(shù)據(jù)清洗,存入數(shù)據(jù)庫(kù)。

scrapy是一個(gè)很有名的爬蟲(chóng)框架,可以很方便的進(jìn)行網(wǎng)頁(yè)信息爬取。那么scrapy到底是如何工作的呢?之前在網(wǎng)上看了不少scrapy入門(mén)的教程,大多數(shù)入門(mén)教程都配有這張圖。

_(:зゝ∠)_也不知道是這張圖實(shí)在太經(jīng)典了,還是程序員們都懶得畫(huà)圖,第一次看到這個(gè)圖的時(shí)候,米醬的心情是這樣的

請(qǐng)輸入描述

GIF

經(jīng)過(guò)了一番深入的理解,大概知道這幅圖的意思,讓我來(lái)舉個(gè)栗子(是的,我又要舉奇怪的栗子了):

當(dāng)我們想吃東西的時(shí)候,我們會(huì)出門(mén),走到街上,尋找一家想吃的點(diǎn),然后點(diǎn)餐,服務(wù)員再通知廚房去做,最后菜到餐桌上,或者被打包帶走。這就是爬蟲(chóng)程序在做的事,它要將所有獲取數(shù)據(jù)需要進(jìn)行的操作,都寫(xiě)好。

而scrapy就像一個(gè)點(diǎn)餐app一般的存在,在訂餐列表(spiders)選取自己目標(biāo)餐廳里想吃的菜(items),在收貨(pipeline)處寫(xiě)上自己的收貨地址(存儲(chǔ)方式),點(diǎn)餐系統(tǒng)(scrapy engine)會(huì)根據(jù)訂餐情況要求商鋪(Internet)的廚房(download)將菜做好,由于會(huì)產(chǎn)生多個(gè)外賣取貨訂單(request),系統(tǒng)會(huì)根據(jù)派單(schedule)分配外賣小哥從廚房取貨(request)和送貨(response)。說(shuō)著說(shuō)著我都餓了。。。。

什么意思呢?在使用scrapy時(shí),我們只需要設(shè)置spiders(想要爬取的內(nèi)容),pipeline(數(shù)據(jù)的清洗,數(shù)據(jù)的存儲(chǔ)方式),還有一個(gè)middlewares,是各功能間對(duì)接時(shí)的一些設(shè)置,就可以不用操心其他的過(guò)程,一切交給scrapy模塊來(lái)完成。

2創(chuàng)建scrapy工程

安裝scrapy之后,創(chuàng)建一個(gè)新項(xiàng)目

請(qǐng)輸入描述

我用的是pycharm編譯器,在spiders文件下創(chuàng)建zhihuxjj.py

請(qǐng)輸入描述

在zhihuxjj.py這個(gè)文件中,我們要編寫(xiě)我們的爬取規(guī)則。

3爬取規(guī)則制定(spider)

創(chuàng)建好了項(xiàng)目,讓我們來(lái)看一下我們要吃的店和菜…哦不,要爬的網(wǎng)站和數(shù)據(jù)。

我選用了知乎作為爬取平臺(tái),知乎是沒(méi)有用戶從1到n的序列id的,每個(gè)人可以設(shè)置自己的個(gè)人主頁(yè)id,且為唯一。所以采選了選取一枚種子用戶,爬取他的關(guān)注者,也可以關(guān)注者和粉絲一起爬,考慮到粉絲中有些三無(wú)用戶,我僅選擇了爬取關(guān)注者列表,再通過(guò)關(guān)注者主頁(yè)爬取關(guān)注者的關(guān)注者,如此遞歸。

請(qǐng)輸入描述

對(duì)于程序的設(shè)計(jì),是這樣的。

請(qǐng)輸入描述

start url是scrapy中的一個(gè)標(biāo)志性的值,它用于設(shè)置爬蟲(chóng)程序的開(kāi)始,也就是從哪里開(kāi)始爬,按照設(shè)定,從種子用戶個(gè)人主頁(yè)開(kāi)始爬便是正義,但是考慮到個(gè)人主頁(yè)的鏈接會(huì)進(jìn)行重復(fù)使用,所以在這里我將起始url設(shè)成了知乎主頁(yè)。

之后就是種子用戶的個(gè)人主頁(yè),知乎粉絲多的大V很多,但是關(guān)注多的人就比較難發(fā)現(xiàn)了,這里我選擇了知乎的黃繼新,聯(lián)合創(chuàng)始人,想必關(guān)注了不少優(yōu)質(zhì)用戶(???)。

分析一下個(gè)人主頁(yè)可知,個(gè)人主頁(yè)由'https://www.zhihu.com/people/' + 用戶id 組成,我們要獲取的信息是用callback回調(diào)函數(shù)(敲黑板!!劃重點(diǎn)!!)的方式設(shè)計(jì),這里一共設(shè)計(jì)了兩個(gè)回調(diào)函數(shù):用戶的關(guān)注列表和關(guān)注者的個(gè)人信息。

請(qǐng)輸入描述

使用chrome瀏覽器查看上圖的頁(yè)面可知獲取關(guān)注列表的url,以及關(guān)注者的用戶id。

將鼠標(biāo)放在用戶名上。

請(qǐng)輸入描述

可以獲得個(gè)人用戶信息的url。分析url可知:

請(qǐng)輸入描述

so,我們?cè)谏弦还?jié)中創(chuàng)建的zhihuxjj.py文件中寫(xiě)入以下代碼。

請(qǐng)輸入描述

請(qǐng)輸入描述

這里需要?jiǎng)澲攸c(diǎn)的是yield的用法,以及item['name'],將爬取結(jié)果賦值給item,就是告訴系統(tǒng),這是我們要選的菜…啊呸…要爬的目標(biāo)數(shù)據(jù)。

4設(shè)置其他信息

在items.py文件中,按照spider中設(shè)置的目標(biāo)數(shù)據(jù)item,添加對(duì)應(yīng)的代碼。

請(qǐng)輸入描述

在pipeline.py中添加存入數(shù)據(jù)庫(kù)的代碼(數(shù)據(jù)庫(kù)咋用上一篇文章寫(xiě)了哦~)。

請(qǐng)輸入描述

因?yàn)槭褂昧藀ipeline.py,所以我們還需要再setting.py文件中,將ITEM_PIPELINE注釋解除,這里起到連接兩個(gè)文件的作用。

請(qǐng)輸入描述

到這里,基本就都設(shè)置好了,程序基本上就可以跑了。不過(guò)因?yàn)閟crapy是遵循robots.txt法則的,所以讓我們來(lái)觀察一下知乎的法則https://www.zhihu.com/robots.txt

emmmmmmm,看完法則了嗎,很好,然后我們?cè)趕etting.py中,將ROBOTSTXT_OBEY 改成 False。(逃

請(qǐng)輸入描述

好像…還忘了點(diǎn)什么,對(duì)了,忘記設(shè)置headers了。通用的設(shè)置headers的方法同樣是在setting.py文件中,將DEFAULTREQUESTHEADERS的代碼注釋狀態(tài)取消,并設(shè)置模擬瀏覽器頭。知乎是要模擬登錄的,如果使用游客方式登錄,就需要添加authorization,至于這個(gè)authorization是如何獲取的,我,就,不,告,訴,你(逃

請(qǐng)輸入描述

為了減少服務(wù)器壓力&防止被封,解除DOWNLOADDELAY注釋狀態(tài),這是設(shè)置下載延遲,將下載延遲設(shè)為3(robots法則里要求是10,但10實(shí)在太慢了_(:зゝ∠)知乎的程序員小哥哥看不見(jiàn)這句話看不見(jiàn)這句話…

請(qǐng)輸入描述

寫(xiě)到這里你會(huì)發(fā)現(xiàn),很多我們需要進(jìn)行的操作,scrapy都已經(jīng)寫(xiě)好了,只需要將注釋去掉,再稍作修改,就可以實(shí)現(xiàn)功能了。scrapy框架還有很多功能,可以閱讀官方文檔了解。

5運(yùn)行scrapy文件

寫(xiě)好scrapy程序后,我們可以在終端輸入

運(yùn)行文件。

但也可以在文件夾中添加main.py,并添加以下代碼。

然后直接用pycharm運(yùn)行main.py文件即可,然后我們就可以愉快的爬知乎用戶啦~(小姐姐我來(lái)啦~

6查找美女

關(guān)于怎么快速學(xué)python,可以加下小編的python學(xué)習(xí)群:611+530+101,不管你是小白還是大牛,小編我都?xì)g迎,不定期分享干貨

每天晚上20:00都會(huì)開(kāi)直播給大家分享python學(xué)習(xí)知識(shí)和路線方法,群里會(huì)不定期更新最新的教程和學(xué)習(xí)方法,大家都是學(xué)習(xí)python的,或是轉(zhuǎn)行,或是大學(xué)生,還有工作中想提升自己能力的,如果你是正在學(xué)習(xí)python的小伙伴可以加入學(xué)習(xí)。最后祝所有程序員都能夠走上人生巔峰,讓代碼將夢(mèng)想照進(jìn)現(xiàn)實(shí)

經(jīng)過(guò)了X天的運(yùn)行,_(:зゝ∠)_爬到了7w條用戶數(shù)據(jù),爬取深度5。(這爬取速度讓我覺(jué)得有必要上分布式爬蟲(chóng)了…這個(gè)改天再嘮)

有了數(shù)據(jù)我們就可以選擇,同城市的用戶進(jìn)行研究了……

先國(guó)際慣例的分析一下數(shù)據(jù)。

請(qǐng)輸入描述

在7w用戶中,明顯男性超過(guò)了半數(shù),標(biāo)明自己是女性的用戶只占了30%左右,還有一部分沒(méi)有注明性別,優(yōu)質(zhì)的小姐姐還是稀缺資源呀~

再來(lái)看看小姐姐們都在哪個(gè)城市。(從7w用戶中篩選出性別女且地址信息不為空的用戶)

請(qǐng)輸入描述

看來(lái)小姐姐們還是集中在北上廣深杭的,所以想發(fā)現(xiàn)優(yōu)質(zhì)小姐姐的男孩紙們還是要向一線看齊啊,當(dāng)然也不排除在二三線的小姐姐們沒(méi)有標(biāo)記處自己的地理位置。

emmmmm……這次的分析,就到此為止,你們可以去撩小姐姐們了。(逃

7研究小姐姐

意不意外?開(kāi)不開(kāi)心?這里還有一章。正所謂,授之以魚(yú),不如授之以漁;撒了心靈雞湯,還得加一只心靈雞腿;找到了小姐姐,我們還要了解小姐姐…………

讓我再舉個(gè)栗子~來(lái)研究一個(gè)小姐姐。(知乎名:動(dòng)次,已獲取小姐姐授權(quán)作為示例。)

請(qǐng)輸入描述

讓我們來(lái)爬一下她的動(dòng)態(tài),chrome右鍵檢查翻network這些套路我就不說(shuō)了,直接將研究目標(biāo)。

贊同的答案和文章(了解小姐姐的興趣點(diǎn))發(fā)布的答案和文章(了解小姐姐的世界觀、人生觀、價(jià)值觀)關(guān)注的問(wèn)題和收藏夾(了解小姐姐需求)提出的問(wèn)題(了解小姐姐的疑惑)

代碼也不貼了,會(huì)放在gayhub的,來(lái)看一下輸出。

請(qǐng)輸入描述

因?yàn)槟愫躏L(fēng)格,所以對(duì)停用詞進(jìn)行了一些加工,添加了“如何”“看待”“體驗(yàn)”等詞語(yǔ),得到了小姐姐回答問(wèn)題的詞頻。小姐姐的回答里出現(xiàn)了喜歡、朋友、爺爺?shù)仍~語(yǔ)。

請(qǐng)輸入描述

還有!!在關(guān)注、贊同和輸出中,都有的詞(ω)。(是不是可以靠美味捕獲小姐姐呢……

請(qǐng)輸入描述

再來(lái)一張劉看山背景的,答題詞云。

請(qǐng)輸入描述


當(dāng)前題目:利用Python尋找命中注定的另一半,大家都覺(jué)得不可信
本文URL:http://www.dlmjj.cn/article/cospiig.html