日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關咨詢
選擇下列產(chǎn)品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
反爬煩的不行?看看這個神級程序員怎么來破解的!

爬蟲和反爬的對抗一直在進行著… 為了幫助更好的進行爬蟲行為以及反爬, 今天就來介紹一下網(wǎng)頁開發(fā)者常用的反爬手段。

創(chuàng)新互聯(lián)主營馬鞍山網(wǎng)站建設的網(wǎng)絡公司,主營網(wǎng)站建設方案,重慶App定制開發(fā),馬鞍山h5重慶小程序開發(fā)搭建,馬鞍山網(wǎng)站營銷推廣歡迎馬鞍山等地區(qū)企業(yè)咨詢

1. BAN IP :網(wǎng)頁的運維人員通過分析日志發(fā)現(xiàn)最近某一個IP訪問量特別特別大,某一段時間內(nèi)訪問了無數(shù)次的網(wǎng)頁,則運維人員判斷此種訪問行為并非正常人的行為,于是直接在服務器上封殺了此人IP。

解決方法:此種方法極其容易誤傷其他正常用戶,因為某一片區(qū)域的其他用戶可能有著相同的IP,導致服務器少了許多正常用戶的訪問,所以一般運維人員不會通過此種方法來限制爬蟲。不過面對許多大量的訪問,服務器還是會偶爾把該IP放入黑名單,過一段時間再將其放出來,但我們可以通過分布式爬蟲以及購買代理IP也能很好的解決,只不過爬蟲的成本提高了。

2. BAN USERAGENT :很多的爬蟲請求頭就是默認的一些很明顯的爬蟲頭python-requests/2.18.4,諸如此類,當運維人員發(fā)現(xiàn)攜帶有這類headers的數(shù)據(jù)包,直接拒絕訪問,返回403錯誤

解決方法:直接r=requests.get(url,headers={'User-Agent':'Baiduspider'})把爬蟲請求headers偽裝成百度爬蟲或者其他瀏覽器頭就行了。

案例:雪球網(wǎng)

返回的就是

403

403 Forbidden.

Your IP Address: xxx.xxx.xxx.xxx .

但是當我們這樣寫:

返回的就是

200

< !DOCTYPE html>

3. BAN COOKIES :服務器對每一個訪問網(wǎng)頁的人都set-cookie,給其一個cookies,當該cookies訪問超過某一個閥值時就BAN掉該COOKIE,過一段時間再放出來,當然一般爬蟲都是不帶COOKIE進行訪問的,可是網(wǎng)頁上有一部分內(nèi)容如新浪微博是需要用戶登錄才能查看更多內(nèi)容。

解決辦法:控制訪問速度,或者某些需要登錄的如新浪微博,在某寶上買多個賬號,生成多個cookies,在每一次訪問時帶上cookies

案例:螞蜂窩

以前因為旅游的需求,所以想到了去抓一點游記來找找哪些地方好玩,于是去了螞蜂窩網(wǎng)站找游記,一篇一篇的看真的很慢,想到不如把所有文章抓過來然后統(tǒng)計每個詞出現(xiàn)的頻率***,統(tǒng)計出最熱的一些旅游景點,就寫了一個scrapy爬蟲抓游記,當修改了headers后開始爬取,發(fā)現(xiàn)訪問過快服務器就會斷開掉我的連接,然后過一段時間(幾個小時)才能繼續(xù)爬。于是放慢速度抓就發(fā)現(xiàn)不會再被BAN了。

4. 驗證碼驗證 :當某一用戶訪問次數(shù)過多后,就自動讓請求跳轉(zhuǎn)到一個驗證碼頁面,只有在輸入正確的驗證碼之后才能繼續(xù)訪問網(wǎng)站

解決辦法:python可以通過一些第三方庫如(pytesser,PIL)來對驗證碼進行處理,識別出正確的驗證碼,復雜的驗證碼可以通過機器學習讓爬蟲自動識別復雜驗證碼,讓程序自動識別驗證碼并自動輸入驗證碼繼續(xù)抓取

案例:安全客

當訪問者對安全客訪問過快他就會自動蹦出一個驗證碼界面。

如下:

5. javascript渲染 :網(wǎng)頁開發(fā)者將重要信息放在網(wǎng)頁中但不寫入html標簽中,而瀏覽器會自動渲染