日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
使用Python輕松收集Web站點(diǎn)數(shù)據(jù)

使用基本的Python模塊,可以編寫腳本來與Web站點(diǎn)交互,但是如果沒有必要的話,那么您就不希望這樣做。Python2.x中的模塊urllib和urllib2,以及Python3.0中的統(tǒng)一的urllib.*子包,可以在URL的末尾獲取資源。然而,當(dāng)您希望與Web頁面中找到的內(nèi)容進(jìn)行某種比較復(fù)雜的交互時,您需要使用mechanize庫。

創(chuàng)新互聯(lián)建站是由多位在大型網(wǎng)絡(luò)公司、廣告設(shè)計(jì)公司的優(yōu)秀設(shè)計(jì)人員和策劃人員組成的一個具有豐富經(jīng)驗(yàn)的團(tuán)隊(duì),其中包括網(wǎng)站策劃、網(wǎng)頁美工、網(wǎng)站程序員、網(wǎng)頁設(shè)計(jì)師、平面廣告設(shè)計(jì)師、網(wǎng)絡(luò)營銷人員及形象策劃。承接:成都網(wǎng)站設(shè)計(jì)、做網(wǎng)站、網(wǎng)站改版、網(wǎng)頁設(shè)計(jì)制作、網(wǎng)站建設(shè)與維護(hù)、網(wǎng)絡(luò)推廣、數(shù)據(jù)庫開發(fā),以高性價比制作企業(yè)網(wǎng)站、行業(yè)門戶平臺等全方位的服務(wù)。

推薦專題: Python實(shí)用開發(fā)指南

在自動化Webscrap或用戶與Web站點(diǎn)的交互模擬中,最大的困難之一就是服務(wù)器使用cookies跟蹤會話進(jìn)度。顯然,cookies是HTTP頭部的一部分,在urllib打開資源時會自然顯示出來。

即使如此,在這個層次上執(zhí)行處理也非常的繁瑣。mechanize庫將這種處理提升到一個更高程度的抽象并使您的腳本—或交互性Pythonshell—表現(xiàn)出非常類似實(shí)際Web瀏覽器的行為。

Python的mechanize受到Perl的WWW:Mechanize的啟發(fā),后者具有類似的一組功能。當(dāng)然,作為長期的Python支持者,我認(rèn)為mechanize更健壯,它看上去似乎繼承了兩種語言的通用模式。

mechanize的一個親密伙伴是同樣出色的BeautifulSoup庫。這是一個非常神奇的“粗糙的解析器”,用于解析實(shí)際Web頁面中包含的有效HTML。您不需要將BeautifulSoup用于mechanize,反之亦然,但是多半情況下,當(dāng)您與“實(shí)際存在的Web”交互時,您將希望同時使用這兩種工具。

一個實(shí)際示例

我曾在多個編程項(xiàng)目中使用過mechanize。最近一個項(xiàng)目是從一個流行的Web站點(diǎn)中收集匹配某種條件的名稱的列表。該站點(diǎn)提供了一些搜索工具,但是沒有提供任何正式的API來執(zhí)行此類搜索。雖然訪問者可能能夠更明確地猜出我過去在做什么,但我將修改給出的代碼的細(xì)節(jié),以避免暴露有關(guān)被scrap的站點(diǎn)或我的客戶機(jī)的過多信息。一般情況下,我給出的代碼對于類似任務(wù)是通用的。

入門工具

在實(shí)際開發(fā)Webscrap/分析代碼的過程中,我發(fā)現(xiàn)以交互式方式查看、處理和分析Web頁面的內(nèi)容以了解相關(guān)Web頁面實(shí)際發(fā)生的操作是非常重要的功能。通常,站點(diǎn)中的一些頁面是由查詢動態(tài)生成(但是具有一致的模式),或是根據(jù)非常嚴(yán)格的模板預(yù)先生成。

完成這種交互式體驗(yàn)的一種重要方法就是在Pythonshell內(nèi)使用mechanize本身,特別是在一個增強(qiáng)的shell內(nèi),比如IPython。通過這種方式,您可以在編寫執(zhí)行希望用于生產(chǎn)中的交互的最終腳本之前,請求各種已鏈接的資源、提交表單、維護(hù)或操作站點(diǎn)cookies,等等。

然而,我發(fā)現(xiàn)我與Web站點(diǎn)的許多實(shí)驗(yàn)性質(zhì)的交互在實(shí)際的現(xiàn)代Web瀏覽器中得到了更好的執(zhí)行。方便地呈現(xiàn)頁面可以使您更加快速地了解給定頁面或表單中正在發(fā)生的事情。問題在于,呈現(xiàn)頁面僅僅完成了事情的一半,可能還不到一半。獲得“頁面源代碼”會讓您更進(jìn)一步。要真正理解給定Web頁面或與Web服務(wù)器的一系列交互的背后的原理,需要了解更多。

要了解這些內(nèi)容,我常常使用Firebug或面向Firefox的WebDeveloper插件。所有這些工具都可以執(zhí)行諸如顯示表單字段、顯示密碼、檢查頁面的DOM、查看或運(yùn)行Javascript、觀察Ajax通信等操作。比較這些工具的優(yōu)劣需要另外撰寫一篇文章,但是如果您要進(jìn)行面向Web的編程的話,那么必須熟悉這些工具。

不管使用哪一種工具來對準(zhǔn)備實(shí)現(xiàn)自動化交互的Web站點(diǎn)做實(shí)驗(yàn),您都需要花比編寫簡潔的mechanize代碼(用于執(zhí)行您的任務(wù))更多的時間來了解站點(diǎn)實(shí)際發(fā)生的行為。

搜索結(jié)果scraper

考慮到上面提到的項(xiàng)目的意圖,我將把包含100行代碼的腳本分為兩個功能:

◆檢索所有感興趣的結(jié)果

◆從被檢索的頁面中拉取我感興趣的信息

使用這種方式組織腳本是為了便于開發(fā);當(dāng)我開始任務(wù)時,我需要知道如何完成這兩個功能。我覺得我需要的信息位于一個普通的頁面集合中,但是我還沒有檢查這些頁面的具體布局。

首先我將檢索一組頁面并將它們保存到磁盤,然后執(zhí)行第二個任務(wù),從這些已保存的文件中拉取所需的信息。當(dāng)然,如果任務(wù)涉及使用檢索到的信息構(gòu)成同一會話內(nèi)的新交互,那么您將需要使用順序稍微不同的開發(fā)步驟。因此,首先讓我們查看我的fetch()函數(shù):

 
 
 
  1. 清單1.獲取頁面內(nèi)容  
  2. importsys,time,os  
  3. frommechanizeimportBrowser  
  4.  
  5. LOGIN_URL='http://www.example.com/login' 
  6. USERNAME='DavidMertz' 
  7. PASSWORD='TheSpanishInquisition' 
  8. SEARCH_URL='http://www.example.com/search?' 
  9. FIXED_QUERY='food=spam&''utensil=spork&''date=the_future&' 
  10. VARIABLE_QUERY=['actor=%s'%actorforactorin  
  11. ('GrahamChapman',  
  12. 'JohnCleese',  
  13. 'TerryGilliam',  
  14. 'EricIdle',  
  15. 'TerryJones',  
  16. 'MichaelPalin')]  
  17.  
  18. deffetch():  
  19. result_no=0#Numbertheoutputfiles  
  20. br=Browser()#Createabrowser  
  21. br.open(LOGIN_URL)#Opentheloginpage  
  22. br.select_form(name="login")#Findtheloginform  
  23. br['username']=USERNAME#Settheformvalues  
  24. br['password']=PASSWORD  
  25. resp=br.submit()#Submittheform 
 
 
 
  1. #Automaticredirectsometimesfails,followmanuallywhenneeded  
  2. if'Redirecting'inbr.title():  
  3. resp=br.follow_link(text_regex='clickhere')  
  4.  
  5. #Loopthroughthesearches,keepingfixedqueryparameters  
  6. foractorininVARIABLE_QUERY:  
  7. #Iliketowatchwhat'shappeningintheconsole  
  8. print>>sys.stderr,'***',actor  
  9. #Letsdotheactualquerynow  
  10. br.open(SEARCH_URL+FIXED_QUERY+actor)  
  11. #Thequeryactuallygivesuslinkstothecontentpageswelike,  
  12. #buttherearesomeotherlinksonthepagethatweignore  
  13. nice_links=[lforlinbr.links()  
  14. if'good_path'inl.url  
  15. and'credential'inl.url]  
  16. ifnotnice_links:#Maybetherelevantresultsareempty  
  17. break  
  18. forlinkinnice_links:  
  19. try:  
  20. response=br.follow_link(link)  
  21. #Moreconsolereportingontitleoffollowedlinkpage  
  22. print>>sys.stderr,br.title()  
  23. #Incrementoutputfilenames,openandwritethefile  
  24. result_no+=1  
  25. out=open(result_%04d'%result_no,'w')  
  26. print>>out,response.read()  
  27. out.close()  
  28. #Nothingevergoesperfectly,ignoreifwedonotgetpage  
  29. exceptmechanize._response.httperror_seek_wrapper:  
  30. print>>sys.stderr,"Responseerror(probably404)"  
  31. #Let'snothammerthesitetoomuchbetweenfetches  
  32. time.sleep(1) 

對感興趣的站點(diǎn)進(jìn)行交互式研究后,我發(fā)現(xiàn)我希望執(zhí)行的查詢含有一些固定的元素和一些變化的元素。我僅僅是將這些元素連接成一個大的GET請求并查看“results”頁面。而結(jié)果列表包含了我實(shí)際需要的資源的鏈接。

因此,我訪問這些鏈接(當(dāng)此過程出現(xiàn)某些錯誤時,會拋出try/except塊)并保存在這些內(nèi)容頁面上找到的任何內(nèi)容。很簡單,是不是?Mechanize可以做的不止這些,但是這個簡單的例子向您展示了Mechanize的大致功能。

#p#

處理結(jié)果

現(xiàn)在,我們已經(jīng)完成了對mechanize的操作;剩下的工作是理解在fetch()循環(huán)期間保存的大量HTML文件。批量處理特性讓我能夠在一個不同的程序中將這些文件整齊、明顯地分離開來,fetch()和process()可能交互得更密切。BeautifulSoup使得后期處理比初次獲取更加簡單。對于這個批處理任務(wù),我們希望從獲取的各種Web頁面的零散內(nèi)容中生成表式的以逗號分隔的值(CSV)數(shù)據(jù)。

 
 
 
  1. 清單2.使用BeautifulSoup從無序的內(nèi)容中生成整齊的數(shù)據(jù)  
  2. fromglobimportglob  
  3. fromBeautifulSoupimportBeautifulSoup  
  4.  
  5. defprocess():  
  6. print"!MOVIE,DIRECTOR,KEY_GRIP,THE_MOOSE"  
  7. forfnameinglob('result_*'):  
  8. #PutthatsloppyHTMLintothesoup  
  9. soup=BeautifulSoup(open(fname))  
  10.  
  11. #Trytofindthefieldswewant,butdefaulttounknownvalues  
  12. try:  
  13. movie=soup.findAll('span',{'class':'movie_title'})[1].contents[0]  
  14. exceptIndexError:  
  15. fname="UNKNOWN" 
  16.  
  17. try:  
  18. director=soup.findAll('div',{'class':'director'})[1].contents[0]  
  19. exceptIndexError:  
  20. lname="UNKNOWN" 
  21.  
  22. try:  
  23. #Maybemultiplegripslisted,keyoneshouldbeinthere  
  24. grips=soup.findAll('p',{'id':'grip'})[0]  
  25. grips="".join(grips.split())#Normalizeextraspaces  
  26. exceptIndexError:  
  27. title="UNKNOWN" 
  28.  
  29. try:  
  30. #HidesomestuffintheHTMLtags  
  31. moose=soup.findAll('meta',{'name':'shibboleth'})[0]['content']  
  32. exceptIndexError:  
  33. moose="UNKNOWN" 
  34. print'"%s","%s","%s","%s"'%(movie,director,grips,moose) 

第一次查看BeautifulSoup,process()中的代碼令人印象深刻。讀者應(yīng)當(dāng)閱讀有關(guān)文檔來獲得關(guān)于這個模塊的更多細(xì)節(jié),但是這個代碼片段很好地體現(xiàn)了它的整體風(fēng)格。大多數(shù)soup代碼包含一些對只含有格式良好的HTML的頁面的.findAll()調(diào)用。這里是一些類似DOM的.parent、nextSibling和previousSibling屬性。它們類似于Web瀏覽器的“quirks”模式。我們在soup中找到的內(nèi)容并不完全是一個解析樹。

結(jié)束語

諸如我之類的守舊者,甚至于一些更年輕的讀者,都會記住使用TCLExpect(或使用用Python和其他許多語言編寫的類似內(nèi)容)編寫腳本帶來的愉悅。自動化與shell的交互,包括telnet、ftp、ssh等等遠(yuǎn)程shell,變得非常的直觀,因?yàn)闀捴械乃袃?nèi)容都被顯示出來。

Web交互變得更加細(xì)致,因?yàn)樾畔⒈环譃轭^部和內(nèi)容體,并且各種相關(guān)的資源常常通過href鏈接、框架、Ajax等被綁定在一起。然而,總的來說,您可以使用wget之類的工具來檢索Web服務(wù)器提供的所有字節(jié),然后像使用其他連接協(xié)議一樣運(yùn)行與Expect風(fēng)格完全相同的腳本。

在實(shí)踐中,幾乎沒有編程人員過分執(zhí)著于過去的老方法,比如我建議的wget+Expect方法。Mechanize保留了許多與出色的Expect腳本相同的東西,令人感覺熟悉和親切,并且和Expect一樣易于編寫(如果不是更簡單的話)。

Browser()對象命令,比如.select_form()、.submit()和.follow_link(),真的是實(shí)現(xiàn)“查找并發(fā)送”操作的最簡單、最明顯的方法,同時綁定了我們希望在Web自動化框架中具備的復(fù)雜狀態(tài)和會話處理的所有優(yōu)點(diǎn)。

【編輯推薦】

  1. PHP資深開發(fā)者談:緣何放棄PHP改用Python
  2. 加速程序開發(fā) Python整合C語言模塊
  3. 對Python特色的詳細(xì)介紹 

網(wǎng)頁名稱:使用Python輕松收集Web站點(diǎn)數(shù)據(jù)
分享路徑:http://www.dlmjj.cn/article/dppodgd.html