日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
如何成為Python的數(shù)據(jù)操作庫(kù)Pandas的專家?

Pandas庫(kù)是Python中最流行的數(shù)據(jù)操作庫(kù)。受到R語(yǔ)言的frames啟發(fā),它提供了一種通過(guò)其data-frame API操作數(shù)據(jù)的簡(jiǎn)單方法。下面我們給大家介紹Pandas在Python中的定位。

創(chuàng)新互聯(lián)專業(yè)為企業(yè)提供新樂(lè)網(wǎng)站建設(shè)、新樂(lè)做網(wǎng)站、新樂(lè)網(wǎng)站設(shè)計(jì)、新樂(lè)網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)與制作、新樂(lè)企業(yè)網(wǎng)站模板建站服務(wù),十年新樂(lè)做網(wǎng)站經(jīng)驗(yàn),不只是建網(wǎng)站,更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。

了解Pandas

要很好地理解pandas,關(guān)鍵之一是要理解pandas是一系列其他python庫(kù)的包裝器。主要的有Numpy、SQL alchemy、Matplot lib和openpyxl。

data frame的核心內(nèi)部模型是一系列NumPy數(shù)組和pandas函數(shù)。

pandas利用其他庫(kù)來(lái)從data frame中獲取數(shù)據(jù)。例如,SQL alchemy通過(guò)read_sql和to_sql函數(shù)使用;openpyxl和xlsx writer用于read_excel和to_excel函數(shù)。而Matplotlib和Seaborn則用于提供一個(gè)簡(jiǎn)單的接口,使用諸如df.plot()這樣的命令來(lái)繪制data frame中可用的信息。

Numpy的Pandas-高效的Pandas

您經(jīng)常聽(tīng)到的抱怨之一是Python很慢,或者難以處理大量數(shù)據(jù)。通常情況下,這是由于編寫的代碼的效率很低造成的。原生Python代碼確實(shí)比編譯后的代碼要慢。不過(guò),像Pandas這樣的庫(kù)提供了一個(gè)用于編譯代碼的python接口,并且知道如何正確使用這個(gè)接口。

向量化操作

與底層庫(kù)Numpy一樣,pandas執(zhí)行向量化操作的效率比執(zhí)行循環(huán)更高。這些效率是由于向量化操作是通過(guò)C編譯代碼執(zhí)行的,而不是通過(guò)本機(jī)python代碼執(zhí)行的。另一個(gè)因素是向量化操作的能力,它可以對(duì)整個(gè)數(shù)據(jù)集進(jìn)行操作,而不只是對(duì)一個(gè)子數(shù)據(jù)集進(jìn)行操作。

應(yīng)用接口允許通過(guò)使用CPython接口進(jìn)行循環(huán)來(lái)獲得一些效率:

df.apply(lambda x: x['col_a'] * x['col_b'], axis=1)

但是,大部分性能收益可以通過(guò)使用向量化操作本身獲得,可以直接在pandas中使用,也可以直接調(diào)用它的內(nèi)部Numpy數(shù)組。

通過(guò)DTYPES高效地存儲(chǔ)數(shù)據(jù)

當(dāng)通過(guò)read_csv、read_excel或其他數(shù)據(jù)幀讀取函數(shù)將數(shù)據(jù)幀加載到內(nèi)存中時(shí),pandas會(huì)進(jìn)行類型推斷,這可能是低效的。這些api允許您明確地利用dtypes指定每個(gè)列的類型。指定dtypes允許在內(nèi)存中更有效地存儲(chǔ)數(shù)據(jù)。

df.astype({'testColumn': str, 'testCountCol': float})

Dtypes是來(lái)自Numpy的本機(jī)對(duì)象,它允許您定義用于存儲(chǔ)特定信息的確切類型和位數(shù)。

例如,Numpy的類型np.dtype(' int32 ')表示一個(gè)32位長(zhǎng)的整數(shù)。pandas默認(rèn)為64位整數(shù),我們可以節(jié)省一半的空間使用32位:

處理帶有塊的大型數(shù)據(jù)集

pandas允許按塊(chunk)加載數(shù)據(jù)幀中的數(shù)據(jù)。因此,可以將數(shù)據(jù)幀作為迭代器處理,并且能夠處理大于可用內(nèi)存的數(shù)據(jù)幀。

在讀取數(shù)據(jù)源時(shí)定義塊大小和get_chunk方法的組合允許panda以迭代器的方式處理數(shù)據(jù),如上面的示例所示,其中數(shù)據(jù)幀一次讀取兩行。然后我們可以遍歷這些塊:

i = 0for a in df_iter: # do some processing chunk = df_iter.get_chunk() i += 1 new_chunk = chunk.apply(lambda x: do_something(x), axis=1) new_chunk.to_csv("chunk_output_%i.csv" % i )

它的輸出可以被提供到一個(gè)CSV文件,pickle,導(dǎo)出到數(shù)據(jù)庫(kù),等等…


網(wǎng)站名稱:如何成為Python的數(shù)據(jù)操作庫(kù)Pandas的專家?
網(wǎng)頁(yè)網(wǎng)址:http://www.dlmjj.cn/article/djjhich.html