日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
加速數(shù)據(jù)分析,這10個(gè)小技巧好用到哭

劃重點(diǎn)!!!本文列舉了一些使用Python和Jupyter Notebook的技巧,討論了如何輕松分析數(shù)據(jù)以及如何進(jìn)行格式化編碼、輸出和調(diào)試等操作。

成都創(chuàng)新互聯(lián)專業(yè)為企業(yè)提供周口網(wǎng)站建設(shè)、周口做網(wǎng)站、周口網(wǎng)站設(shè)計(jì)、周口網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)與制作、周口企業(yè)網(wǎng)站模板建站服務(wù),十年周口做網(wǎng)站經(jīng)驗(yàn),不只是建網(wǎng)站,更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。

在編程領(lǐng)域,有時(shí)一個(gè)小技巧就能節(jié)省大量時(shí)間,甚至能起到救命的效果。這些“必殺技”往往能在未來(lái)的數(shù)據(jù)分析中發(fā)揮重大作用。

1. 分析Pandas數(shù)據(jù)框架

Profiling(分析)是一個(gè)幫助理解數(shù)據(jù)的過(guò)程,Pandas Profiling(數(shù)據(jù)預(yù)覽分析)作為一個(gè)python工具包,就是用來(lái)幫助理解數(shù)據(jù)的。該工具能夠簡(jiǎn)單快速地對(duì)熊貓數(shù)據(jù)框架進(jìn)行探索性數(shù)據(jù)分析。pandas df.describe()和df.info()functions通常是EDA過(guò)程的第一步。然而,這個(gè)步驟只提供一個(gè)基本的數(shù)據(jù)預(yù)覽,對(duì)大型數(shù)據(jù)集幫助不大。另外,Pandas Profiling功能使用df.profile_report()擴(kuò)展了熊貓數(shù)據(jù)框架,可以快速進(jìn)行數(shù)據(jù)分析。該功能僅用一行代碼就可以顯示很多信息,這也可以應(yīng)用在交互式的HTML報(bào)告中。

對(duì)于給定數(shù)據(jù)集,數(shù)據(jù)預(yù)覽分析包會(huì)處理以下數(shù)據(jù):

Pandas Profiling工具包計(jì)算的統(tǒng)計(jì)數(shù)據(jù)

安裝

 
 
 
 
  1. pip install pandas-profiling 
  2. or 
  3. conda install -c anaconda pandas-profiling 

使用

用古老的大數(shù)據(jù)集來(lái)演示python profiler的功能。

 
 
 
 
  1. #importing the necessary packages 
  2. import pandas as pd 
  3. import pandas_profiling 
  4. # Depreciated: pre 2.0.0 version 
  5. df = pd.read_csv('titanic/train.csv') 
  6. pandas_profiling.ProfileReport(df) 

最近,Pandas-Profiling發(fā)布了一個(gè)重要的2.0.0升級(jí)版本。事實(shí)上,該版本對(duì)語(yǔ)法作了一點(diǎn)改變,這個(gè)功能也已經(jīng)包含在熊貓數(shù)據(jù)框架中了,報(bào)告也變得更加全面。以下是最新的語(yǔ)法用法:

使用

要在Jupyter筆記本中顯示報(bào)告,并運(yùn)行:

 
 
 
 
  1. #Pandas-Profiling 2.0.0 
  2. df.profile_report() 

這一行代碼就是用戶在Jupyter筆記本中顯示數(shù)據(jù)分析報(bào)告所需的全部?jī)?nèi)容。顯示的報(bào)告非常詳細(xì),必要時(shí)還包括圖表。

通過(guò)下列代碼用戶還可以將該報(bào)告導(dǎo)出到交互式HTML文件中:

 
 
 
 
  1. profile = df.profile_report(title='Pandas Profiling Report') 
  2. profile.to_file(outputfile="Titanic data profiling.html") 

 

更多詳細(xì)信息和示例:https://pandas-profiling.github.io/pandas-profiling/docs/

2. 增強(qiáng)Pandas plots的互動(dòng)性

Pandas有一個(gè)內(nèi)置的 .plot() 功能,是數(shù)據(jù)框架類的一部分。然而,該功能不盡人意的地方在于呈現(xiàn)的可視化不是交互式的。相反,用pandas.DataFrame.plot()功能繪制圖表就很容易。如果不對(duì)代碼做重大修改,可以繪制出像熊貓圖表一樣的交互式圖表嗎?答案是可以的,Cufflinks庫(kù)能夠幫助做到這一點(diǎn)。

Cufflinks庫(kù)將plotly的功能與Pandas的靈活性結(jié)合起來(lái),使繪圖簡(jiǎn)單化。現(xiàn)在就來(lái)看看如何安裝這個(gè)庫(kù),并讓它在pandas上運(yùn)行。

安裝

 
 
 
 
  1. pip install plotly # Plotly is a pre-requisite before installing cufflinks 
  2. pip install cufflinks 

使用

 
 
 
 
  1. #importing Pandas  
  2. import pandas as pd 
  3. #importing plotly and cufflinks in offline mode 
  4. import cufflinks as cf 
  5. import plotly.offline 
  6. cf.go_offline() 
  7. cf.set_config_file(offline=False, world_readable=True) 

現(xiàn)在來(lái)看看大數(shù)據(jù)集的魔力

 
 
 
 
  1. df.iplot() 

 
 
 
 
  1. df.iplot() 與 df.plot() 

右邊的可視化顯示的是靜態(tài)圖表,而左邊則是交互式圖表,更為詳細(xì)。這些圖表在語(yǔ)法上都沒(méi)有作出重大改變。

更多示例:https://github.com/santosjorge/cufflinks/blob/master/Cufflinks%20Tutorial%20-%20Pandas%20Like.ipynb

3. 少許魔法

魔法命令(Magic commands)是Jupyter筆記本中的一組便捷功能,旨在解決標(biāo)準(zhǔn)數(shù)據(jù)分析中的一些常見(jiàn)問(wèn)題。在 %lsmagic的幫助下,用戶可以看到所有可用的魔法功能。

所有可用魔法功能的清單

魔法命令有兩種:行魔法,即以單個(gè)%字符為前綴,在單行輸入上操作;單元格魔法,即以%%為前綴,在多行輸入上操作。如果設(shè)置為1,則無(wú)需鍵入初始%即可調(diào)用魔術(shù)功能。

一起來(lái)看看兩種魔法命令在常見(jiàn)數(shù)據(jù)分析任務(wù)中的應(yīng)用:

  • % pastebin

%pastebin將代碼上傳到Pastebin并返回url地址。Pastebin屬于在線內(nèi)容托管服務(wù),在這里,用戶可以存儲(chǔ)如源代碼片段等純文本,然后與他人共享網(wǎng)址。事實(shí)上,Github的要點(diǎn)也類似于pastebin,盡管存在版權(quán)限制。

考慮一個(gè)包含以下內(nèi)容的python腳本file.py:

 
 
 
 
  1. #file.py 
  2. def foo(x): 
  3.  return x 

在Jupyter筆記本中使用 %pastebin會(huì)生成一個(gè)pastebin網(wǎng)址。

  • %matplotlib notebook

%matplotlib inline功能用于渲染Jupyter筆記本中的靜態(tài)matplotlib圖。嘗試用notebook替換inline,以輕松獲得可變焦、可調(diào)整大小的繪圖。請(qǐng)確保在導(dǎo)入matplotlib庫(kù)之前啟用該功能。

%matplotlib inline 與 %matplotlib notebook

  • %run

%run 功能在筆記本內(nèi)部運(yùn)行python腳本。

 
 
 
 
  1. %run file.py 
  • %%writefile

%%writefile 將單元格的內(nèi)容寫入文件。通過(guò)該功能,代碼將被寫入一個(gè)名為foo.py的文件,并保存在當(dāng)前目錄中。

  • %%latex

%%latex 功能將單元格內(nèi)容呈現(xiàn)為 LaTeX格式。這對(duì)于在單元格中編寫數(shù)學(xué)公式和方程很有用。

4. 查找并消除錯(cuò)誤

Interactive debugger也是一個(gè)有魔力的功能,但本文對(duì)它進(jìn)行單獨(dú)分類。如果在運(yùn)行代碼單元時(shí)出現(xiàn)異常,用戶可以在新的一行中鍵入 %debug 并恢復(fù)運(yùn)行。這一操作將打開(kāi)一個(gè)交互式調(diào)試環(huán)境,找到發(fā)生異常的位置。用戶還可以檢查程序中分配的變量值,并在此執(zhí)行操作。點(diǎn)擊q即可退出調(diào)試。

5. 美觀排版

如果想建立美觀的數(shù)據(jù)結(jié)構(gòu),pprint是一個(gè)直接的模塊,在打印字典或JSON數(shù)據(jù)時(shí)特別有用。下面來(lái)看一個(gè)使用print 和 pprint 來(lái)顯示輸出的例子。

6. 筆記突出顯示

可以在Jupyter筆記本中使用alert/Note boxes來(lái)標(biāo)記一些重要的或需要突出的內(nèi)容。筆記的顏色取決于突出內(nèi)容的重要程度。用戶只需在需要突出顯示的單元格中添加以下任意或所有代碼。

  • 藍(lán)色筆記框:信息
 
 
 
 
  1.  
  2. Tip: Use blue boxes (alert-info) for tips and notes.  
  3. If it’s a note, you don’t have to include the word “Note”. 
 

 

  • 黃色筆記框:警告

Example: Yellow Boxes are generally used to include additional examples or mathematical formulas.

  • 綠色筆記框:完成
 
 
 
 
  1.  
  2. Use green box only when necessary like to display links to related content. 
 

 

  • 紅色筆記框:危險(xiǎn)
 
 
 
 
  1.  
  2. It is good to avoid red boxes but can be used to alert users to not delete some important part of code etc.  
 

 

7. 打印單元格的所有輸出

例如包含以下代碼行的Jupyter筆記本單元格:

 
 
 
 
  1. In [1]: 10+5  
  2.  11+6 
  3. Out [1]: 17 

只打印最后一個(gè)輸出是單元格的正常屬性,而其他輸出,則需要添加 print()功能。事實(shí)證明,只要在筆記本頂部添加以下代碼段,就可以打印所有的輸出內(nèi)容。

 
 
 
 
  1. from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all" 

現(xiàn)在所有輸出可以一個(gè)接一個(gè)地打印出來(lái)。

 
 
 
 
  1. In [1]: 10+5  
  2.  11+6 
  3.  12+7 
  4. Out [1]: 15 
  5. Out [1]: 17 
  6. Out [1]: 19 

輸入以下代碼可恢復(fù)到初始設(shè)置:

 
 
 
 
  1. InteractiveShell.ast_node_interactivity = "last_expr" 

8. 使用‘i’選項(xiàng)運(yùn)行python腳本

從命令行運(yùn)行python腳本的一種典型方式是:python hello.py。但是,如果在運(yùn)行相同腳本時(shí)添加一個(gè)額外的-i,例如python -i hello.py,則會(huì)帶來(lái)更多優(yōu)勢(shì)。具體操作如下:

  • 首先,一旦程序結(jié)束,python就不會(huì)退出解釋程序。此時(shí),用戶可以檢查變量值和程序中定義功能。

  • 其次,因?yàn)橛脩羧匀辉诮忉尦绦蛑校钥梢酝ㄟ^(guò)以下方式輕松調(diào)用python調(diào)試器:
 
 
 
 
  1. import pdb 
  2. pdb.pm() 

該方式可幫助用戶找到異常發(fā)生的位置,然后可以處理代碼。

漏洞的原始來(lái)源

9. 自動(dòng)注釋代碼

Ctrl/Cmd + / 可以自動(dòng)注釋掉單元格中選定的行。再次點(diǎn)擊該組合鍵可以取消同一行代碼的注釋。

10. 撤銷刪除操作

你曾經(jīng)有不小心刪除過(guò)筆記本中的單元格嗎?如果有,那么這里有一個(gè)快捷鍵可以撤銷刪除操作。

  • 如果刪除了單元格的內(nèi)容,可以通過(guò)點(diǎn)擊CTRL/CMD+Z來(lái)輕松恢復(fù)它
  • 如果需要恢復(fù)整個(gè)刪除的單元格,可以點(diǎn)擊ESC+Z或者 EDIT > Undo Delete Cells

網(wǎng)站欄目:加速數(shù)據(jù)分析,這10個(gè)小技巧好用到哭
分享URL:http://www.dlmjj.cn/article/coshoic.html