狠狠热日日干,国产123区999,不卡AV在线免费观看无需播放器

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

Pyppeteer怎么在python中使用-創(chuàng)新互聯(lián)

本篇文章為大家展示了Pyppeteer怎么在python中使用，內(nèi)容簡明扼要并且容易理解，絕對能使你眼前一亮，通過這篇文章的詳細介紹希望你能有所收獲。

創(chuàng)新互聯(lián)公司是一家以成都網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計、品牌設(shè)計、軟件運維、成都網(wǎng)站營銷、小程序App開發(fā)等移動開發(fā)為一體互聯(lián)網(wǎng)公司。已累計為成都紙箱等眾行業(yè)中小客戶提供優(yōu)質(zhì)的互聯(lián)網(wǎng)建站和軟件開發(fā)服務(wù)。

01.Pyppeteer簡介

Puppeteer是谷歌出品的一款基于Node.js開發(fā)的一款工具，主要是用來操縱Chrome瀏覽器的 API，通過Javascript代碼來操縱Chrome瀏覽器，完成數(shù)據(jù)爬取、Web程序自動測試等任務(wù)。

Pyppeteer其實是Puppeteer的Python版本，下面簡單介紹下Pyppeteer的兩大特點，chromium瀏覽器和asyncio框架：

1).chromium

Chromium是一款獨立的瀏覽器，是Google為發(fā)展自家的瀏覽器Google Chrome而開啟的計劃，相當(dāng)于Chrome的實驗版，Chromium的穩(wěn)定性不如Chrome但是功能更加豐富，而且更新速度很快，通常每隔數(shù)小時就有新的開發(fā)版本發(fā)布。

Pyppeteer的web自動化是基于chromium來實現(xiàn)的，由于chromium中某些特性的關(guān)系，Pyppeteer的安裝配置非常簡單，關(guān)于這一點稍后我們會詳細介紹。

2).asyncio

asyncio是Python的一個異步協(xié)程庫，自3.4版本引入的標準庫，直接內(nèi)置了對異步IO的支持，號稱是Python最有野心的庫，官網(wǎng)上有非常詳細的介紹:

Pyppeteer怎么在python中使用

02.安裝與使用

1).極簡安裝

使用pip install pyppeteer命令就能完成pyppeteer庫的安裝，至于chromium瀏覽器，只需要一條pyppeteer-install命令就會自動下載對應(yīng)的最新版本chromium瀏覽器到pyppeteer的默認位置。

如果不運行pyppeteer-install命令，在第一次使用pyppeteer的時候也會自動下載并安裝chromium瀏覽器，效果是一樣的。總的來說，pyppeteer比起selenium省去了driver配置的環(huán)節(jié)。

當(dāng)然，出于某種原因，也可能會出現(xiàn)chromium自動安裝無法順利完成的情況，這時可以考慮手動安裝：首先，從下列網(wǎng)址中找到自己系統(tǒng)的對應(yīng)版本，下載chromium壓縮包；

'linux': 'https://storage.googleapis.com/chromium-browser-snapshots/Linux_x64/575458/chrome-linux.zip'
'mac': 'https://storage.googleapis.com/chromium-browser-snapshots/Mac/575458/chrome-mac.zip'
'win32': 'https://storage.googleapis.com/chromium-browser-snapshots/Win/575458/chrome-win32.zip'
'win64': 'https://storage.googleapis.com/chromium-browser-snapshots/Win_x64/575458/chrome-win32.zip'

然后，將壓縮包放到pyppeteer的指定目錄下解壓縮，windows系統(tǒng)的默認目錄。其他系統(tǒng)下的默認目錄可以參照下面這幅圖：

Pyppeteer怎么在python中使用

2).使用

安裝完后就來試試效果。一起來看下面這段代碼，在main函數(shù)中，先是建立一個瀏覽器對象，然后打開新的標簽頁，訪問百度主頁，對當(dāng)前頁面截圖并保存為“example.png”，最后關(guān)閉瀏覽器。前文也提到過，pyppeteer是基于asyncio構(gòu)建的，所以在使用的時候需要用到async/await結(jié)構(gòu)。

Pyppeteer怎么在python中使用

運行上面這段代碼會發(fā)現(xiàn)并沒有瀏覽器彈出運行，這是因為Pyppeteer默認使用的是無頭瀏覽器，如果想要瀏覽器顯示，需要在launch函數(shù)中設(shè)置參數(shù)“headless =False”，程序運行結(jié)束后在同一目錄下會出現(xiàn)截取到的網(wǎng)頁圖片：

Pyppeteer怎么在python中使用

03.實戰(zhàn)異步基金爬取

我們前面一直在說Pyppeteer是一款非常高效的web自動化測試工具，其本質(zhì)原因是由于Pyppeteer是基于asyncio構(gòu)建的，它的所有屬性和方法幾乎都是coroutine對象，因此在構(gòu)建異步程序的時候非常方便，天生就支持異步運行。

下面就來對比順序執(zhí)行和異步運行的效率究竟如何:

1).基金爬取

我們把天天基金網(wǎng)中的開放式基金凈值數(shù)據(jù)爬取作為本次的實驗任務(wù)，下面這張圖是一支基金的歷史凈值數(shù)據(jù)，這個頁面是js加載的，沒辦法通過requests直接獲取內(nèi)容信息，因此可以考慮使用模擬瀏覽器操作的方式進行數(shù)據(jù)抓取。（事實上基金凈值數(shù)據(jù)的獲取是有API接口的，本次任務(wù)只是為了演示，不具備實用價值）

Pyppeteer怎么在python中使用

為了使效果更加明顯，我們此次爬取基金列表頁（下圖）前50支基金的近20個交易日的凈值數(shù)據(jù)。

Pyppeteer怎么在python中使用

2).順序執(zhí)行

程序構(gòu)建的基本思路是新建一個browser瀏覽器和一個頁面page，依次訪問每個基金的凈值數(shù)據(jù)頁面并爬取數(shù)據(jù)。核心代碼如下：

Pyppeteer怎么在python中使用

代碼中的get_data()函數(shù)用于凈值數(shù)據(jù)頁面解析和數(shù)據(jù)的轉(zhuǎn)化，get_all_codes()函數(shù)用于獲取全部開放式基金的基金代碼（共6000余個）。雖然程序也使用了async/await的結(jié)構(gòu)，但是對多個基金的凈值數(shù)據(jù)獲取都是在callurl_and_getdata()函數(shù)中順序執(zhí)行的，之所以這樣寫是因為pyppeteer中的方法都是coroutine對象，必須以這種形式構(gòu)建程序。

為了排除打開瀏覽器的耗時干擾，我們僅統(tǒng)計訪問頁面和數(shù)據(jù)抓取的用時，其結(jié)果為：12.08秒。

3).異步執(zhí)行

下面我們把程序改造一下，功能函數(shù)都不變，主要是把對fundlist的循環(huán)運行改裝成async的task對象。核心代碼如下：

Pyppeteer怎么在python中使用

耗時的統(tǒng)計區(qū)間仍然從瀏覽器打開后開始計算，其運行用時為：2.18秒，相比順序執(zhí)行要快了6倍?？梢韵胂螅绻枰廊〉墓ぷ髁勘容^大，順序執(zhí)行需要10個小時的話，異步執(zhí)行可能只需要不到2個小時，優(yōu)化效果可謂非常明顯了。

上述內(nèi)容就是Pyppeteer怎么在python中使用，你們學(xué)到知識或技能了嗎？如果還想學(xué)到更多技能或者豐富自己的知識儲備，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

文章標題：Pyppeteer怎么在python中使用-創(chuàng)新互聯(lián)
轉(zhuǎn)載來源：http://www.dlmjj.cn/article/dgeocp.html

日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

新聞中心

其他資訊