日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
當(dāng)Excel遇到大數(shù)據(jù)問題,是時候用Python來拯救了

與從事分析工作的人交談,他們會告訴你他們對Excel的愛恨情仇:

創(chuàng)新互聯(lián)建站堅持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:成都網(wǎng)站設(shè)計、成都做網(wǎng)站、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時代的西湖網(wǎng)站設(shè)計、移動媒體設(shè)計的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!

Excel能做很多事情;當(dāng)涉及到更大的數(shù)據(jù)集時,這簡直是一種痛苦。數(shù)據(jù)需要很長時間才能加載,在你意識到機器的內(nèi)存耗盡之前,整個事情就變得無法管理了。更不用說Excel最多只能支持1,048,576行。

如果有一種簡單的方法,那就是將數(shù)據(jù)傳輸?shù)絊QL數(shù)據(jù)庫中進行分析。這就是Python拯救世界的方式。

Python中的SQL

首先,讓我們研究一下在Python中使用SQL時最流行的選項:MySQL和SQLite。

MySQL有兩個流行的庫:PyMySQL和MySQLDb;而SQLite有SQLite3。

SQLite就是所謂的嵌入式數(shù)據(jù)庫,這意味著它在我們的應(yīng)用程序中運行,因此不需要先在某個地方安裝它(不像MySQL)。

這是一個重要的區(qū)別;在我們尋求快速數(shù)據(jù)分析的過程中起著關(guān)鍵作用。因此,我們將繼續(xù)學(xué)習(xí)如何使用SQLite。

在Python中設(shè)置SQLite

我們需要做的第一件事是導(dǎo)入庫:

 
 
 
  1. import sqlite3 

然后,我們需要確定是否要在任何地方保存這個數(shù)據(jù)庫,還是在應(yīng)用程序運行時將它保存在內(nèi)存中。

如果決定通過導(dǎo)入任何數(shù)據(jù)來實際保存數(shù)據(jù)庫,那么我們必須給數(shù)據(jù)庫一個名稱,例如' FinanceExplainedDb ',并使用以下命令:

 
 
 
  1. dbname = 'FinanceExplainedDb' 
  2. conn = sqlite3.connect(dbname + '.sqlite') 

另一方面,如果我們想把整個東西保存在內(nèi)存中,并在完成后讓它消失,我們可以使用以下命令:

 
 
 
  1. conn = sqlite3.connect(':memory:') 

至此,SQLite已經(jīng)全部設(shè)置好,可以在Python中使用了。假設(shè)我們在Table 1中加載了一些數(shù)據(jù),我們可以用以下方式執(zhí)行SQL命令:

 
 
 
  1. cur = conn.cursor() 
  2. cur.execute('SELECT * FROM Table1') 
  3. for row in cur: 
  4.     print(row) 

現(xiàn)在讓我們探索如何通過使用pandas的應(yīng)用程序使數(shù)據(jù)可用。

使用pandas加載數(shù)據(jù)

假設(shè)我們已經(jīng)有了數(shù)據(jù),我們想要進行分析,我們可以使用Pandas庫來做這件事。

首先,我們需要導(dǎo)入pandas庫,然后我們可以加載數(shù)據(jù):

 
 
 
  1. import pandas as pd 
  2. #if we have a csv file 
  3. df = pd.read_csv('ourfile.csv') 
  4. #if we have an excel file 
  5. df = pd.read_excel('ourfile.xlsx') 

一旦我們加載數(shù)據(jù),我們可以把它直接放入我們的SQL數(shù)據(jù)庫與一個簡單的命令:

 
 
 
  1. df.to_sql(name='Table1', con=conn) 

如果在同一個表中加載多個文件,可以使用if_exists參數(shù):

 
 
 
  1. df.to_sql(name='Table1', con=conn, if_exists='append') 

在處理較大的數(shù)據(jù)集時,我們將無法使用這個單行命令來加載數(shù)據(jù)。我們的應(yīng)用程序?qū)⒑谋M內(nèi)存。相反,我們必須一點一點地加載數(shù)據(jù)。在這個例子中,我們假設(shè)每次加載10,000行:

 
 
 
  1. chunksize = 10000 
  2. for chunk in pd.read_csv('ourfile.csv', chunksizechunksize=chunksize): 
  3.     chunk.to_sql(name='Table1', con=conn, if_exists='append') 

把所有的東西放在一起

為了將所有內(nèi)容綜合起來,我們提供一個Python腳本,它涵蓋了我們討論的大部分內(nèi)容。

 
 
 
  1. import sqlite3, pandas as pd, numpy as np 
  2. #####Creating test data for us -- you can ignore 
  3. from sklearn import datasets 
  4. iris = datasets.load_iris() 
  5. df1 = pd.DataFrame(data= np.c_[iris['data'], iris['target']], columns= iris['feature_names'] + ['target']) 
  6. df1.to_csv('TestData.csv',index=False) 
  7. ########################### 
  8. conn = sqlite3.connect(':memory:') 
  9. cur = conn.cursor() 
  10. chunksize = 10 
  11. for chunk in pd.read_csv('TestData.csv', chunksizechunksize=chunksize): 
  12.     chunkchunk.columns = chunk.columns.str.replace(' ', '_') #replacing spaces with underscores for column names 
  13.     chunk.to_sql(name='Table1', con=conn, if_exists='append') 
  14. cur.execute('SELECT * FROM Table1') 
  15. names = list(map(lambda x: x[0], cur.description)) #Returns the column names 
  16. print(names) 
  17. for row in cur: 
  18.     print(row) 
  19. cur.close() 

當(dāng)前名稱:當(dāng)Excel遇到大數(shù)據(jù)問題,是時候用Python來拯救了
URL標(biāo)題:http://www.dlmjj.cn/article/dhjhjhp.html