新聞中心
linux下python怎么寫爬蟲獲取圖片
跟linux有什么關(guān)系,python是跨平臺(tái)的,爬取圖片的代碼如下:
創(chuàng)新互聯(lián)堅(jiān)信:善待客戶,將會(huì)成為終身客戶。我們能堅(jiān)持多年,是因?yàn)槲覀円恢笨芍档眯刨嚒N覀儚牟缓鲇瞥踉L客戶,我們用心做好本職工作,不忘初心,方得始終。十年網(wǎng)站建設(shè)經(jīng)驗(yàn)創(chuàng)新互聯(lián)是成都老牌網(wǎng)站營銷服務(wù)商,為您提供網(wǎng)站設(shè)計(jì)、網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)、H5響應(yīng)式網(wǎng)站、網(wǎng)站制作、成都品牌網(wǎng)站建設(shè)、微信小程序服務(wù),給眾多知名企業(yè)提供過好品質(zhì)的建站服務(wù)。
import urllib.requestimport osimport randomdef url_open(url):
req=urllib.request.Request(url) ? ?#為請(qǐng)求設(shè)置user-agent,使得程序看起來更像一個(gè)人類
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0') ? ?#代理IP,使用戶能以不同IP訪問,從而防止被服務(wù)器發(fā)現(xiàn)
'''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']
proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]
urllib.request.install_opener(opener)'''
response=urllib.request.urlopen(req)
html=response.read() ? ?return htmldef get_page(url):
html=url_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a) ? ?#print(html[a:b])
return html[a:b]def find_imgs(url):
html=url_open(url).decode('utf-8')
img_addrs=[]
a=html.find('img src=') ? ?while a!=-1:
b=html.find('.jpg',a,a+140) ? ? ? ?if b!=-1: ? ? ? ? ? ?if html[a+9]!='h':
img_addrs.append('http:'+html[a+9:b+4]) ? ? ? ? ? ?else:
img_addrs.append(html[a+9:b+4]) ? ? ? ?else:
b=a+9
a=html.find('img src=',b) ? ?for each in img_addrs:
print(each+'我的打印') ? ?return img_addrsdef save_imgs(folder,img_addrs):
for each in img_addrs: ? ? ? ?#print('one was saved')
filename=each.split('/')[-1] ? ? ? ?with open(filename,'wb') as f:
img=url_open(each)
f.write(img)def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)
url=""
page_num=int(get_page(url)) ? ?for i in range(pages):
page_num=page_num-1
page_url=url+'page-'+str(page_num)+'#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)if __name__=='__main__':
download_mm()1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374
完成
運(yùn)行結(jié)果
linux python爬蟲怎么寫
mac用來寫python爬蟲可以Linux下運(yùn)行Python程序,一般說來有以下兩種形式,其實(shí)和Windows下基本一樣。
一、在IDLE中運(yùn)行
在終端窗口輸入$ python進(jìn)入交互式運(yùn)行環(huán)境,然后就可以邊輸入邊執(zhí)行代碼了:
print 'Hello Python'
Hello Python退出使用Ctrl-D。
二、以腳本方式運(yùn)行
在py腳本所在目錄下輸入
linux下nginx如何啟用網(wǎng)站日志,查看蜘蛛爬蟲
默認(rèn)的路徑是你安裝時(shí)候指定的
如果用的LNMP之類的安裝包
你可以在SHELL下
whereisnginx
找到相應(yīng)的路徑之后
在NGINX下的CONF文件夾里看配置文件,日志文件如果記錄了話
在配置文件里有路徑的~
python和linux到底有關(guān)系
python和linux兩者間沒什么關(guān)系,python是一門程序設(shè)計(jì)語言,linux是一個(gè)操作系統(tǒng),向上支持應(yīng)用軟件的運(yùn)行,向下控制硬件,是軟件和硬件的過渡層。Python語言可以在Linux系統(tǒng)下學(xué)習(xí)和開發(fā)。
比如,如果是想用Python開發(fā)網(wǎng)站(現(xiàn)今流行的、成熟的Python Web框架)就需要使用到Linux平臺(tái);如果想使用Python爬蟲爬取數(shù)據(jù),在Linux系統(tǒng)上也要更方便一些;還有就是想學(xué)習(xí)網(wǎng)絡(luò)安全滲透測試,在Linux上編寫Python自動(dòng)化測試腳本也很有必要。
擴(kuò)展資料:
可以通過python對(duì)linux進(jìn)行操作,利用python操縱linux的命令為:
1、import os
#返回操作系統(tǒng)類型,值為posix,是linux操作系統(tǒng),值為nt,是window操作系統(tǒng)
2、print os.name
#返回操作系統(tǒng)的詳細(xì)信息
3、print os.uname()
#系統(tǒng)的環(huán)境變量
4、print os.environ
print os.environ.get('PATH')
#判斷是否為絕對(duì)路徑(不會(huì)判斷文件或者目錄是否存在)
5、print os.path.isabs('/tmp/westos')
print os.path.isabs('hello')
#生成絕對(duì)路徑
關(guān)于將爬蟲爬取的數(shù)據(jù)存入hdfs
先放入linux文件里面,然后使用hdfs命令將本地文件傳輸?shù)絟dfs即可
Python爬蟲與mac下Scrapy配置
用Python開發(fā)爬蟲很方便。
本質(zhì):抓取---分析---存儲(chǔ)
要點(diǎn):
(1)get請(qǐng)求:最基本抓取。用到 urllib ?urllib2 ?requests ?httplib2 。
(2)表單登陸:向服務(wù)器發(fā)送post請(qǐng)求,服務(wù)器再將返回的cookie存入本地
(3)使用cookie登陸:
(4)對(duì)于反爬蟲機(jī)制的處理:
(5)對(duì)于斷線重連:使用multi_session和multi_open對(duì)爬蟲抓取的session或opener進(jìn)行保持
(6)多線程抓取
(7)對(duì)于Ajax請(qǐng)求
(8)自動(dòng)化測試工具Selenium
由于 Linux下已經(jīng)預(yù)裝了 lxml 和 OPENSSL
如果想驗(yàn)證 lxml ,可以分別輸入
出現(xiàn)下面的提示這證明已經(jīng)安裝成功
如果想驗(yàn)證 open ssl,則直接輸入openssl 即可,如果跳轉(zhuǎn)到 OPENSSL 命令行,則安裝成功。
接下來直接安裝 Scrapy 即可
安裝完畢之后,輸入 scrapy
注意,這里linux下不要輸入Scrapy,linux依然嚴(yán)格區(qū)分大小寫的,感謝kamen童鞋提醒。
如果出現(xiàn)如下提示,這證明安裝成功
下面是stackoverflow上的高票解決辦法:
I've just fixed this issue on my OS X.
Please backup your files first.
Scrapy 1.0.0 is ready to go.
分享標(biāo)題:linux爬蟲命令,shell爬蟲
當(dāng)前路徑:http://www.dlmjj.cn/article/hoighs.html