新聞中心
這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
創(chuàng)新互聯(lián)Python教程:Python實現(xiàn)Excel數(shù)據(jù)的探索和清洗
數(shù)據(jù)的探索和清洗

創(chuàng)新互聯(lián)公司服務(wù)項目包括和政網(wǎng)站建設(shè)、和政網(wǎng)站制作、和政網(wǎng)頁制作以及和政網(wǎng)絡(luò)營銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢、行業(yè)經(jīng)驗、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,和政網(wǎng)站推廣取得了明顯的社會效益與經(jīng)濟效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到和政省份的部分城市,未來相信會繼續(xù)擴大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!
1、讀取Excel文件的數(shù)據(jù)并轉(zhuǎn)換為dataframe
# 1.讀取Excel文件的數(shù)據(jù)并轉(zhuǎn)換為dataframe file = "d:/test/Summary/Data_Summary.xlsx" data_raw = pd.read_excel(file, header=0, index_col=0) # header設(shè)定為0:是為了使第1行的數(shù)據(jù)成為列的字段名
2、查看數(shù)據(jù)集的整體狀態(tài),了解基本特征列的情況
data_raw.head()
3、刪除無效的數(shù)據(jù)列
remove_col = ["序號"] data_prep0 = data_raw.drop(columns=remove_col, axis=1, inplace=None) data_prep0.head()
4、查看數(shù)據(jù)集的整體信息,了解缺失值的分布情況
data_prep0.info()
5、檢看數(shù)據(jù)集中缺失值的狀態(tài)并刪除缺失值
data_prep = data_prep0.dropna(subset=["產(chǎn)品"], axis=0) data_prep.info()
6、檢查數(shù)據(jù)集中重復(fù)值的狀態(tài)并刪除重復(fù)值
print("數(shù)據(jù)集中的重復(fù)值數(shù)量:", np.sum(data_prep.duplicated()))
# 如果重復(fù)值的數(shù)量不為"0", 則表示有重復(fù)值存在,可使用下列代碼刪除
# data_prep.drop_duplicates(keep="first", inplace=True) 分享名稱:創(chuàng)新互聯(lián)Python教程:Python實現(xiàn)Excel數(shù)據(jù)的探索和清洗
標題來源:http://www.dlmjj.cn/article/cdjjsgh.html


咨詢
建站咨詢
