新聞中心
1、爬蟲的工作原理
獲取數(shù)據(jù)--解析數(shù)據(jù)--提取數(shù)據(jù)--存儲數(shù)據(jù)
2、獲取數(shù)據(jù)
本質(zhì)就是通過URL去向服務(wù)器發(fā)出請求,服務(wù)器再把相關(guān)內(nèi)容封裝成一個Response對象返回給我們,這是通過requests.get()實(shí)現(xiàn)的。而我們獲取到的Response對象下有四個常用的方法(status_code、content、text、encoding)。
3、requests.get()
import requests? #引入requests模塊
res = requests.get('url')? ?# 向服務(wù)器請求數(shù)據(jù),服務(wù)器返回的結(jié)果是個Response對象
print(type(res)) # 終端顯示:
這代表著res是一個對象,屬于requests.models.Response類。
3、response.status_code?
用法:print(變量.status_code),
用來檢查請求是否正確響應(yīng),如果響應(yīng)狀態(tài)碼為200,即代表請求成功。
響應(yīng)狀態(tài)碼表示服務(wù)器對請求的響應(yīng)結(jié)果。例如,200代表服務(wù)器響應(yīng)成功,403代表禁止訪問,404代表頁面未找到,408代表請求超時。瀏覽器會根據(jù)狀態(tài)碼做出相應(yīng)的處理。在爬蟲中,可以根據(jù)狀態(tài)碼來判斷服務(wù)器的狀態(tài),如果狀態(tài)碼為200,則繼續(xù)處理數(shù)據(jù),否則直接忽略。
4、response.content?
response.content能把Response對象的內(nèi)容以二進(jìn)制數(shù)據(jù)的形式返回,適用于圖片、音頻、視頻的下載,示例:
import requests #圖片地址 URL=''https://img1.baidu.com/it/u=2076064484,1314795796&fm=253&fmt=auto&app=120&f=JPEG?w=531&h=309'' # 發(fā)出請求,并把返回的結(jié)果放在變量res中 res = requests.get(url) # 把Reponse對象的內(nèi)容以二進(jìn)制數(shù)據(jù)的形式返回 pic = res.content # 下載一個圖片文件并命名為picture.jpg, 圖片內(nèi)容需要以二進(jìn)制wb只寫。 with open(r'C:\Users\Avery\Desktop\test\picture.jpg', 'wb') as f: ????????# 獲取pic的二進(jìn)制內(nèi)容,寫入f ????????f.write(pic)
這樣我們圖片就下載成功了!
5、response.text?
response.text這個方法可以把Response對象的內(nèi)容以字符串的形式返回,適用于文字、網(wǎng)頁源代碼的下載。示例如下:
import requests # 文章地址 url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md' # 發(fā)出請求,并把返回的結(jié)果放在變量res中 res = requests.get(url) # 把Response對象的內(nèi)容以字符串的形式返回 novel = res.text #打印變量 print(novel[0:170])
6、response.encoding?
response.encoding方法,它能幫我們定義Response對象的編碼,示例如下:
import requests # 文章地址 url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md' # 發(fā)出請求,并把返回的結(jié)果放在變量res中 res = requests.get(url) # 定義response對應(yīng)的編碼為utf-8 res.encoding = 'utf-8' # 把Response對象的內(nèi)容以字符串的形式返回 novel = res.text # 打印變量 print(novel[0:170])
你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級服務(wù)器適合批量采購,新人活動首月15元起,快前往官網(wǎng)查看詳情吧
網(wǎng)站標(biāo)題:1.獲取數(shù)據(jù)-requests.get()-創(chuàng)新互聯(lián)
當(dāng)前URL:http://www.dlmjj.cn/article/ddeooc.html