日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
手把手教你使用Curl2py自動(dòng)構(gòu)造爬蟲代碼并進(jìn)行網(wǎng)絡(luò)爬蟲

大家好,我是Python進(jìn)階者。

創(chuàng)新互聯(lián)專注于東至企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè)公司,成都商城網(wǎng)站開發(fā)。東至網(wǎng)站建設(shè)公司,為東至等地區(qū)提供建站服務(wù)。全流程定制網(wǎng)站,專業(yè)設(shè)計(jì),全程項(xiàng)目跟蹤,創(chuàng)新互聯(lián)專業(yè)和態(tài)度為您提供的服務(wù)

前言

前幾天給大家分享了小小明大佬的兩篇文章,分別是盤點(diǎn)一個(gè)小小明大佬開發(fā)的Python庫(kù),4個(gè)超贊功能和手把手教你用Python網(wǎng)絡(luò)爬蟲獲取B站UP主10萬(wàn)條數(shù)據(jù)并用Pandas庫(kù)進(jìn)行趣味數(shù)據(jù)分析,這兩篇文章里邊都有說(shuō)到curl2py命令,這個(gè)命令十分的神奇,通過(guò)curl2py命令將網(wǎng)頁(yè)請(qǐng)求參數(shù)直接轉(zhuǎn)換為python代碼。

curl2py命令是小小明大佬開發(fā)的filestools庫(kù)下四大神器之一,filestools目前包含四個(gè)工具包,分別是樹形目錄顯示、文件差異比較、圖片加水印和curl請(qǐng)求轉(zhuǎn)python代碼。關(guān)于其他三個(gè)神器的介紹,在上面那個(gè)超鏈接里邊也有,這里給出源地址出處,直擊小小明大佬開發(fā)的庫(kù)。

https://pypi.org/project/filestools/

前幾天有粉絲在問(wèn)這個(gè)curl2py命令不知道怎么使用,今天這篇文章就是一個(gè)手把手教程,希望大家后面都可以用上,下面一起來(lái)看看吧!

一、安裝

你可以選擇在命令提示符使用pip安裝filestools庫(kù),安裝命令:

 
 
 
 
  1. pip install filestools 
  2. 或者 
  3. pip install filestools -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com 

二、傳統(tǒng)方法

1、目標(biāo)網(wǎng)站

安裝之后,我們就可以進(jìn)行使用了。這里我們以小小明大佬之前介紹過(guò)的這個(gè)網(wǎng)站為例,進(jìn)行說(shuō)明。

小小數(shù)據(jù)網(wǎng)站:https://xxkol.cn/kol

【注意】:如果是初次登錄這個(gè)網(wǎng)站,需要進(jìn)行微信掃碼登錄,才能有瀏覽權(quán)限噢!

2、網(wǎng)頁(yè)請(qǐng)求

那么現(xiàn)在我們需要獲取這個(gè)網(wǎng)站的數(shù)據(jù),就需要對(duì)改網(wǎng)站進(jìn)行請(qǐng)求。老規(guī)矩,右鍵選擇“檢查”(如下圖所示)或者直接按下鼠標(biāo)快捷鍵F12,可以進(jìn)入開發(fā)者模式。

進(jìn)入到開發(fā)者模式,如下圖所示。依次選擇網(wǎng)絡(luò)-->Fetch/XHR。

我們嘗試進(jìn)行翻頁(yè)查看數(shù)據(jù)的話,發(fā)現(xiàn)這個(gè)網(wǎng)站其實(shí)是JS加載的,那么就需要構(gòu)造請(qǐng)求頭,如下圖所示。

按照以往的做法,我們肯定是需要手動(dòng)的去把這些cookies、headers和params參數(shù)挨個(gè)的去復(fù)制粘貼到我們的代碼文件里邊。這么做肯定是可以的,但是容易出現(xiàn)出錯(cuò)或者漏了某一個(gè)參數(shù),而且費(fèi)時(shí)費(fèi)力,萬(wàn)一出錯(cuò)了,你還得挨個(gè)從頭到尾去檢查,十分的頭大。

那現(xiàn)在小小明大佬給我們開發(fā)的這個(gè)curl2py工具呢,就直接解放了我們的雙手,我直呼小小明yyds!下面一起來(lái)看看如何使用吧。

三、curl2py工具

1、復(fù)制為cURL(bash)

繼續(xù)沿用上一步的網(wǎng)站和分析情況,我們只需要在JS網(wǎng)址上進(jìn)行右鍵,然后依次選擇復(fù)制-->復(fù)制為cURL(bash),如下圖所示。

2、使用curl2py工具轉(zhuǎn)換代碼

復(fù)制好之后,我們只需要在Pycharm中運(yùn)行以下代碼,其中代碼中的xxx,就是上面復(fù)制到的curl命令,直接粘貼替換下面的xxx即可。

 
 
 
 
  1. from curl2py.curlParseTool import curlCmdGenPyScript 
  2.  
  3. curl_cmd = """xxx""" 
  4. output = curlCmdGenPyScript(curl_cmd) 
  5. print(output) 

3、實(shí)例

下面來(lái)看實(shí)際操作,以剛剛這個(gè)網(wǎng)站為例,小編剛剛已經(jīng)復(fù)制了,然后替換粘貼代碼,代碼如下所示。

 
 
 
 
  1. from curl2py.curlParseTool import curlCmdGenPyScript 
  2.  
  3. curl_cmd = ''' 
  4. curl 'https://xxkol.cn/api/klist?pagesize=20&page=2&name=&follower_start=&follower_end=&inter_start=&inter_end=&xxpoint_start=&xxpoint_end=&platform=&sex=&attribute=&category=&sort_type=' \ 
  5.   -H 'authority: xxkol.cn' \ 
  6.   -H 'sec-ch-ua: "Chromium";v="92", " Not A;Brand";v="99", "Microsoft Edge";v="92"' \ 
  7.   -H 'accept: application/json, text/plain, */*' \ 
  8.   -H 'authorization: eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9.W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA' \ 
  9.   -H 'sec-ch-ua-mobile: ?0' \ 
  10.   -H 'user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73' \ 
  11.   -H 'sec-fetch-site: same-origin' \ 
  12.   -H 'sec-fetch-mode: cors' \ 
  13.   -H 'sec-fetch-dest: empty' \ 
  14.   -H 'referer: https://xxkol.cn/kol' \ 
  15.   -H 'accept-language: zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6' \ 
  16.   -H 'cookie: Hm_lvt_d4217dc2524e360ff487588dd84ad4ab=; xxtoken=eyJ0eXGciOiJIUzI1NiJ9.eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9.W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA; Hm_lpvt_d4217dc2524e360ff487588dd84ad4ab=1629212' \ 
  17.   --compressed 
  18. ''' 
  19. output = curlCmdGenPyScript(curl_cmd) 
  20. print(output) 

運(yùn)行代碼之后,我們?cè)诳刂婆_(tái)會(huì)得到具體的爬蟲代碼,如下圖所示。

也就是說(shuō),都不需要你動(dòng)手,小小明大佬直接給你把代碼都構(gòu)造出來(lái)了,是不是個(gè)狠人?

這里我把控制臺(tái)輸出的代碼直接拷貝出來(lái),粘貼到這里,這樣大家看得可能會(huì)更直觀一些。

 
 
 
 
  1. ####################################### 
  2. #      The generated by curl2py.       
  3. #      author:小小明                   
  4. ####################################### 
  5.  
  6. import requests 
  7. import json 
  8.  
  9. headers = { 
  10.     "authority": "xxkol.cn", 
  11.     "sec-ch-ua": "\"Chromium\";v=\"92\", \" Not A;Brand\";v=\"99\", \"Microsoft Edge\";v=\"92\"", 
  12.     "accept": "application/json, text/plain, */*", 
  13.     "authorization": "eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9.W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA", 
  14.     "sec-ch-ua-mobile": "?0", 
  15.     "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73", 
  16.     "sec-fetch-site": "same-origin", 
  17.     "sec-fetch-mode": "cors", 
  18.     "sec-fetch-dest": "empty", 
  19.     "referer": "https://xxkol.cn/kol", 
  20.     "accept-language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6" 
  21. cookies = { 
  22.     "Hm_lvt_d4217dc2524e36588dd84ad4ab": "1629232919", 
  23.     "xxtoken": "eyJ0eXAiOiJKVhbGciOiJIUzI1NiJ9.eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9.W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA", 
  24.     "Hm_lpvt_d4217dc2524e360ff488dd84ad4ab": "16292212" 
  25. params = { 
  26.     "pagesize": "20", 
  27.     "page": "2", 
  28.     "name": "", 
  29.     "follower_start": "", 
  30.     "follower_end": "", 
  31.     "inter_start": "", 
  32.     "inter_end": "", 
  33.     "xxpoint_start": "", 
  34.     "xxpoint_end": "", 
  35.     "platform": "", 
  36.     "sex": "", 
  37.     "attribute": "", 
  38.     "category": "", 
  39.     "sort_type": "" 
  40.  
  41. res = requests.get( 
  42.     "https://xxkol.cn/api/klist", 
  43.     params=params, 
  44.     headers=headers, 
  45.     cookies=cookies 
  46. print(res.text) 

喲嚯,這代碼,直接給你呈現(xiàn)出來(lái)了,講真,這代碼比我們自己寫出來(lái)的還要好呢,真是tql!

有的吃瓜群眾可能就要問(wèn)了,小編啊,這個(gè)代碼能跑嘛?當(dāng)然可以了!下面一起來(lái)運(yùn)行下吧!直接在Pycharm里邊復(fù)制控制臺(tái)的代碼,將首尾兩行Pycharm自帶的提示去除,就可以跑了,右鍵運(yùn)行,得到下圖的結(jié)果。

可以看到返回code 0,說(shuō)明程序運(yùn)行成功,而且可以看到滾動(dòng)條那么小,可以想象數(shù)據(jù)量還是蠻大的,這個(gè)數(shù)據(jù)一看就是json格式的,直接將結(jié)果放到在線json網(wǎng)站中去看看。

json在線解析網(wǎng)址:https://www.sojson.com/

然后點(diǎn)擊紅色框框中的校驗(yàn)/格式化,可以看到j(luò)son格式的數(shù)據(jù),如下圖所示。

這下看上去是不是清爽很多了呢?

四、總結(jié)

我是Python進(jìn)階者,這篇文章主要給大家介紹了curl2py工具及其用法。curl2py工具的確是一個(gè)神器,功能強(qiáng)大,而且十分方便,有了它,基本上網(wǎng)頁(yè)請(qǐng)求數(shù)據(jù)的復(fù)制、粘貼等傳統(tǒng)方式都通通幫你搞定了,而且省事省心省力,還不用擔(dān)心翻車。小伙伴們,你學(xué)會(huì)了嘛?快快用起來(lái)吧!


網(wǎng)頁(yè)名稱:手把手教你使用Curl2py自動(dòng)構(gòu)造爬蟲代碼并進(jìn)行網(wǎng)絡(luò)爬蟲
新聞來(lái)源:http://www.dlmjj.cn/article/ccegpho.html