成人激情av电影导航,www.AV无码.com,97人妻人人揉人人躁影院

新聞中心

這里有您想知道的互聯(lián)網營銷解決方案

利用IronPython做更靈活的網頁爬蟲

我們經常需要去別的網站采集一些信息，.NET下所有相關的技術都已經非常成熟，用Webrequest抓取頁面，雖然支持自定義Reference頭，又支持cookie，解析頁面一般都是用正則，但是對方網站結構一變，還得重新改代碼，重新編譯，發(fā)布。有了IronPython，可以把抓取和分析的邏輯做成Python腳本，如果對方頁面結構變了，只需修改腳本就行了，不需重新編譯軟件，這樣可以用c#做交互和界面部分，用Python封裝預期經常變化的部分。

安平網站建設公司成都創(chuàng)新互聯(lián)公司,安平網站設計制作，有大型網站制作公司豐富經驗。已為安平近千家提供企業(yè)網站建設服務。企業(yè)網站搭建\外貿網站建設要多少錢，請找那個售后服務好的安平做網站的公司定做！

如何利用IronPython把抓取和分析的邏輯做成Python腳本
　　安裝好IronPython和vs.net 2010后，還需要下載一個SGMLReader（見參考鏈接），這個組件可以把格式不是很嚴格的HTML轉換成格式良好的XML文件，甚至還能增加DTD的驗證　　
　　我們以抓取百度貼吧頁面為例，新建一個Console項目，引用IronPython,Microsoft.Dynamic,Microsoft.Scripting,SgmlReaderDll這些組件，把SGMLReader里的Html.dtd復制到項目目錄下，如果沒有這個，它會根據doctype去網絡上找dtd，然后新建baidu.py的文件，最后在項目屬性的生成事件里寫上如下代碼，把這兩個文件拷貝到目標目錄里。

 
   
  copy $(ProjectDir)\*.py $(TargetDir)    
  copy $(ProjectDir)\*.dtd $(TargetDir)

　　在baidu.py里首先引用必要的.net程序集。

 
   
  import clr, sys    
  clr.AddReference("SgmlReaderDll")    
  clr.AddReference("System.Xml")

完了導入我們需要的類

 
   
  from Sgml import *    
  from System.Net import *    
  from System.IO import TextReader,StreamReader    
  from System.Xml import *    
  from System.Text.UnicodeEncoding import UTF8

利用SgmlReader寫一個把html轉換成xml的函數，注意SystemLiteral屬性必須設置，否則就會去網上找dtd了，浪費時間

 
   
  def fromHtml(textReader):        
  sgmlReader = SgmlReader()        
  sgmlReader.SystemLiteral = "html.dtd"    sgmlReader.WhitespaceHandling =WhitespaceHandling.All        
  sgmlReader.CaseFolding = CaseFolding.ToLower    sgmlReader.InputStream = textReader            
     
     
  doc = XmlDocument()        
  doc.PreserveWhitespace = True        
  doc.XmlResolver = None        
  doc.Load(sgmlReader)        
  eturn doc

利用webrequest寫一個支持cookie和網頁編碼的抓網頁方法

 
   
  def getWebData(url, method, data = None, cookie = None, encoding = "UTF-8"):        
     req = WebRequest.Create(url)        
     req.Method = method            
     if cookie != None:            
        req.CookieContainer = cookie            
     if data != None:            
        stream = req.GetRequestStream()            
        stream.Write(data, 0, data.Length)                
     rsp = req.GetResponse()        
     reader = StreamReader(rsp.GetResponseStre(),              
     UTF8.GetEncoding(encoding))              
     return reader

寫一個類來定義抓取結果，這個類不需要在c#項目里定義，到時候直接用c# 4.0的dynamic關鍵字就可以使用

 
   
  class Post:    
      def __init__(self, hit, comments, title, link, author):    
          self.hit = hit    
          self.comments = comments     
          self.title = title    
          self.link = link    
          self.author = author

定義主要工作的類，__init__大概相當于構造函數，我們傳入編碼參數，并初始化cookie容器和解析結果，[]是python里的列表，大約相當于c#的List

 
   
  class BaiDu:    
      def __init__(self,encoding):    
          self.cc = self.cc = CookieContainer()    
               self.encoding = encoding   
              self.posts = []

接下來定義抓取方法，調用getWebData抓網頁，然后用fromHtml轉換成xml，剩下的就是xml操作，和.net里一樣，一看便知

 
   
  def getPosts(self, url):    
          reader = getWebData(url, "GET", None, self.cc, self.encoding)    
          doc = fromHtml(reader)    
          trs = doc.SelectNodes("html//table[@id='thread_list_table']/tbody/tr")         
          self.parsePosts(trs)    
     
  def parsePosts(self, trs):    
          for tr in trs:    
              tds = tr.SelectNodes("td")    
              hit = tds[0].InnerText    
              comments = tds[1].InnerText    
              title = tds[2].ChildNodes[1].InnerText    
              link = tds[2].ChildNodes[1].Attributes["href"]     
              author = tds[3].InnerText    
     
              post = Post(hit, comments, title, link, author)    
              self.posts.append(post)

c#代碼要創(chuàng)建一個腳本運行環(huán)境，設置允許調試，然后執(zhí)行baidu.py，最后創(chuàng)建一個Baidu的類的實例，并用dynamic關鍵字引用這個實例

 
   
  Dictionary options = new Dictionary();        
    options["Debug"] = true;              
    ScriptEngine engine = Python.CreateEngine(options);              
    ScriptScope scope = engine.ExecuteFile("baidu.py");              
    dynamic baidu = engine.Operations.Invoke(scope.GetVariable("BaiDu"), "GBK");

接下來調用BaiDu這個python類的方法獲取網頁抓取結果，然后輸出就可以了

 
   
  baidu.getPosts("http://tieba.baidu.com/f?kw=seo");               
     dynamic posts = baidu.posts;            
     foreach (dynamic post in posts)              
    {                     
       Console.WriteLine("{0} (回復數:{1})(點擊數：{2})[作者:{3}]",                        
       post.title,                    
    post.comments,                       
     post.hit,                     
    post.author);             
    }

網站欄目：利用IronPython做更靈活的網頁爬蟲
本文來源：http://www.dlmjj.cn/article/dpgodgd.html

其他資訊

SQLServer7.0轉換數據庫的實際排序規(guī)則
seo服務器多ip(seo站群服務器)（seo服務器）
云服務器怎么安裝數據庫軟件
bootstrap布局樣式_樣式
使用Redis檢查連接狀態(tài)（redis查看接點狀態(tài)）

日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

新聞中心

其他資訊