新聞中心
這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
如何用Node寫頁面爬蟲的工具集-創(chuàng)新互聯(lián)
最近做了幾個寫爬蟲的小項目(從頁面端到APP端的都有),在網(wǎng)上搜尋了一番好用的爬蟲工具,做了個工具集整理:
Puppeteer
簡介
Puppeteer 是一個Node庫,它提供了一個高級 API 來通過 DevTools協(xié)議控制Chromium或Chrome。簡單點說,就是使用Node命令控制一個無需渲染至用戶界面的瀏覽器。
與使用 PhantomJS 搭配 Python 進行爬蟲抓取類似,其原理也是去完全地模擬一個瀏覽器進行頁面的渲染,從而抓取其中某些特定的內容。
特性
Puppeteer 可以完整地模擬一個瀏覽器的行為,并且可以進行截圖、攔截瀏覽器請求、獲取Cookie、通過Node注入JS代碼等操作,使用Chrome瀏覽器開發(fā)者工具能做到的,Puppeteer也能做到。
使用起來也十分的簡單,以下是官方的例子:
const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto('https://example.com'); await page.screenshot({path: 'example.png'}); await browser.close(); })();
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。
文章題目:如何用Node寫頁面爬蟲的工具集-創(chuàng)新互聯(lián)
當前路徑:http://www.dlmjj.cn/article/dpedso.html