日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
如何使用Photon高效率提取網(wǎng)站數(shù)據(jù)

 Photon是一種高效率的的網(wǎng)絡(luò)爬蟲,可從目標(biāo)中提取URL,文件以及各類情報(bào)。其通過(guò)多線程大大加快數(shù)據(jù)提取進(jìn)程。

創(chuàng)新互聯(lián)公司為您提適合企業(yè)的網(wǎng)站設(shè)計(jì)?讓您的網(wǎng)站在搜索引擎具有高度排名,讓您的網(wǎng)站具備超強(qiáng)的網(wǎng)絡(luò)競(jìng)爭(zhēng)力!結(jié)合企業(yè)自身,進(jìn)行網(wǎng)站設(shè)計(jì)及把握,最后結(jié)合企業(yè)文化和具體宗旨等,才能創(chuàng)作出一份性化解決方案。從網(wǎng)站策劃到做網(wǎng)站、成都網(wǎng)站制作, 我們的網(wǎng)頁(yè)設(shè)計(jì)師為您提供的解決方案。

項(xiàng)目地址:

https://github.com/s0md3v/Photon

主要特點(diǎn)

Photon提供的各種選項(xiàng)可以讓用戶按照自己的方式抓取網(wǎng)頁(yè),不過(guò),Photon最棒的功能并不是這個(gè)。

數(shù)據(jù)提取

默認(rèn)情況下,Photon在抓取時(shí)會(huì)提取以下數(shù)據(jù):

網(wǎng)址(范圍內(nèi)和范圍外的)

帶參數(shù)的網(wǎng)址(example.com/gallery.php?id=2)

情報(bào)(電子郵件,社交媒體帳戶,亞馬遜水桶等)

文件(pdf,png,xml等)

JavaScript等文件

基于自定義正則表達(dá)式模式的字符串

提取的信息按下圖方式保存。

智能多線程

大多數(shù)浮于互聯(lián)網(wǎng)表面的工具都沒有正確使用多線程,它們要么為線程提供一個(gè)項(xiàng)目列表,這會(huì)導(dǎo)致多個(gè)線程訪問(wèn)同一個(gè)項(xiàng)目,或者只是放置一個(gè)線程鎖定并最終使多線程無(wú)效。

Ninja模式

在Ninja模式中,3個(gè)在線服務(wù)器用于代表你向目標(biāo)發(fā)出請(qǐng)求。

所以基本上,現(xiàn)在你有4個(gè)客戶端同時(shí)向同一個(gè)服務(wù)器發(fā)出請(qǐng)求,如果連接速度慢,那么可以提高速度,***限度地降低連接重置的風(fēng)險(xiǎn)以及來(lái)自單個(gè)客戶端的延遲請(qǐng)求。

這是Quark生成的比較圖,其中的線代表線程:

兼容性&依賴

兼容性

Photon目前全面兼容python2.x – 3.x,但因?yàn)檫@個(gè)項(xiàng)目正處于積極開發(fā)階段,可能會(huì)需要python2.x不具備的功能。故開發(fā)者最終可能會(huì)放棄對(duì)python2.x的支持。

操作系統(tǒng)

Photon已經(jīng)在Linux(Arch,Debian,Ubuntu),Termux,Windows(7&10)和Mac上進(jìn)行了測(cè)試,并在所有系統(tǒng)上如期運(yùn)行,如果你發(fā)現(xiàn)了任何bug,請(qǐng)?jiān)趃ithub上提交。

顏色

Mac和Windows不支持ANSI轉(zhuǎn)義序列,因此所輸出內(nèi)容不會(huì)在Mac和Windows上顯示顏色。

依賴

requests
urllib3
argparse

Photon所使用的其余python庫(kù)是預(yù)裝的python解釋器的標(biāo)準(zhǔn)庫(kù)。

如何使用Photon

語(yǔ)法: photon.py [選項(xiàng)]
  -u --url              目標(biāo)url
  -l --level            抓取等級(jí)
  -t --threads          線程數(shù)
  -d --delay            請(qǐng)求間的延遲
  -c --cookie           cookie
  -r --regex            正則表達(dá)式模式
  -s --seeds            其他的子url
  -e --export           導(dǎo)出格式化結(jié)果
  -o --output           指定輸出目錄
  --exclude             通過(guò)正則表達(dá)式排除特定url
  --timeout             http 請(qǐng)求超時(shí)
  --ninja               ninja 模式
  --update              更新
  --dns                 轉(zhuǎn)儲(chǔ)dns數(shù)據(jù)
  --only-urls           僅提取url
  --user-agent          指定 user-agent(s)

僅抓取單個(gè)網(wǎng)站

選項(xiàng) -u 或 –url,使用示例:

 
 
 
 
  1. python photon.py -u "http://example.com" 

抓取深度

選項(xiàng) -l 或 –level,默認(rèn)深度為2,使用示例:

 
 
 
 
  1. python photon.py -u "http://example.com" -l 3 

通過(guò)該選項(xiàng),用戶可以設(shè)置抓取的遞歸限制,例如,深度為2意思是Photon會(huì)從主頁(yè)和子頁(yè)。

線程數(shù)

選項(xiàng) -t 或 –threads,默認(rèn)線程數(shù)為2,使用示例:

 
 
 
 
  1. python photon.py -u "http://example.com" -t 10 

該選項(xiàng)可以對(duì)目標(biāo)進(jìn)行并發(fā)請(qǐng)求,-t選項(xiàng)可用于指定要進(jìn)行的并發(fā)請(qǐng)求數(shù)量。值得注意的是,雖然多線程可以加速抓取,但是也可能會(huì)觸發(fā)安全機(jī)制,此外,線程數(shù)過(guò)多,也有可能使小型網(wǎng)站宕機(jī)。

每個(gè)HTTP請(qǐng)求間的延遲

選項(xiàng) -d 或 –delay,默認(rèn)為0,使用示例:

 
 
 
 
  1. python photon.py -u "http://example.com" -d 2 

該選項(xiàng)可以指定每個(gè)HTTP(S)請(qǐng)求之間間隔的秒數(shù)。有效值是int,例如1表示1秒。

超時(shí)

選項(xiàng) –timeout,默認(rèn)為5,使用示例:

 
 
 
 
  1. python photon.py -u "http://example.com --timeout=4 

該選項(xiàng)指定HTTP(S)請(qǐng)求等待多長(zhǎng)時(shí)間即為超時(shí)。

Cookies

選項(xiàng) -c 或 –cookies,默認(rèn)為 no cookie header is sent,使用示例:

 
 
 
 
  1. python photon.py -u "http://example.com" -c "PHPSESSID=u5423d78fqbaju9a0qke25ca87" 

該選項(xiàng)允許你在非ninja模式下為發(fā)出的每個(gè)HTTP請(qǐng)求添加Cookie header,主要用于目標(biāo)網(wǎng)站需要基于Cookie驗(yàn)證的情形。

指定輸出目錄

選項(xiàng) -o 或 –output,默認(rèn)為 目標(biāo)域名,使用示例:

 
 
 
 
  1. python photon.py -u "http://example.com" -o "我的目錄" 

Photon將結(jié)果保存在以目標(biāo)域名命名的目錄中,但你可以使用此選項(xiàng)自定義目錄。

排除特定url

選項(xiàng) –exclude,使用示例:

 
 
 
 
  1. python photon.py -u "http://example.com" --exclude="/blog/20[17|18]" 

匹配指定正則表達(dá)式的網(wǎng)址將不會(huì)被抓取及顯示在結(jié)果中。

指定子url

選項(xiàng) -s 或 –seeds,使用示例:

 
 
 
 
  1. python photon.py -u "http://example.com" --seeds "http://example.com/blog/2018,http://example.com/portals.html" 

你可以使用此選項(xiàng)添加自定義子URL,要以逗號(hào)分隔。

指定user-agent(s)

選項(xiàng) –user-agent,使用示例:

 
 
 
 
  1. python photon.py -u "http://example.com" --user-agent "curl/7.35.0,Wget/1.15 (linux-gnu)" 

你可以使用此選項(xiàng)使用自己的用戶代理,以逗號(hào)分隔。此選項(xiàng)僅用于幫助用戶在不修改默認(rèn)user-agents.txt文件的情況下使用特定用戶代理。

自定義正則表達(dá)式模式

選項(xiàng) -r 或 –regex,使用示例:

 
 
 
 
  1. python photon.py -u "http://example.com" --regex "\d{10}" 

通過(guò)使用此選項(xiàng)指定正則表達(dá)式模式,可以在抓取期間提取字符串。

導(dǎo)出格式化結(jié)果

選項(xiàng) -e 或 –export

通過(guò) -e 選項(xiàng),你可以指定要保存文件的輸出格式,使用示例:

 
 
 
 
  1. python photon.py -u "http://example.com" --export=json 

目前支持的格式:json

跳過(guò)數(shù)據(jù)提取

選項(xiàng): –only-urls,使用示例:

 
 
 
 
  1. python photon.py -u "http://example.com" --only-urls 

該選項(xiàng)會(huì)跳過(guò)提取js文件等數(shù)據(jù),當(dāng)你只需要抓取目標(biāo)時(shí),該選項(xiàng)可以派上用場(chǎng)。

更新

選項(xiàng) –update,使用示例:

 
 
 
 
  1. python photon.py --update 

如果使用此選項(xiàng),Photon會(huì)檢查更新。如果有新的版本,Photon會(huì)下載并將更新文件合并到當(dāng)前目錄中,Photon不會(huì)覆蓋其他文件。

Ninja模式

選項(xiàng) –ninja

此選項(xiàng)啟用Ninja模式。在該模式下,Photon會(huì)使用以下網(wǎng)站代表你發(fā)出請(qǐng)求。

 
 
 
 
  1. codebeautify.org 
  2. photopea.com 
  3. pixlr.com 

轉(zhuǎn)儲(chǔ)DNS數(shù)據(jù)

選項(xiàng) –dns,使用示例:

 
 
 
 
  1. python photon.py -u http://example.com --dns 

創(chuàng)建顯示目標(biāo)域名的DNS數(shù)據(jù)的圖像。目前不支持目標(biāo)是子域。


網(wǎng)站題目:如何使用Photon高效率提取網(wǎng)站數(shù)據(jù)
文章分享:http://www.dlmjj.cn/article/djpihjd.html