日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢(xún)
選擇下列產(chǎn)品馬上在線(xiàn)溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案
Python實(shí)現(xiàn)docx文件的讀寫(xiě)操作

 我們?cè)谧鲆恍?shù)據(jù)統(tǒng)計(jì)或分析的時(shí)候,有時(shí)會(huì)接觸到Execl 格式或者Word 格式的文件。Execl格式的數(shù)據(jù)提取和解析,我們?cè)谥暗奈恼路窒磉^(guò)一些非常好用的Python第三方庫(kù),本文中主要介紹如何使用Python python-docx 模塊提取Word 文件中的文本信息和表格數(shù)據(jù)。

python-docx 安裝

本文python-docx 安裝 在Windows 10系統(tǒng),Python3 環(huán)境中使用pip進(jìn)行安裝。

演示文本

為了方便理解,我們以 python-docx.docx 文件為例,演示如何使用Python 提取其中的文本數(shù)據(jù)和表格數(shù)據(jù),并開(kāi)發(fā)自定義函數(shù)以字典的形式提取內(nèi)容,python-docx.docx文件內(nèi)容如下:

在使用python-docx 讀取word文檔中文本之前,我們先了解下python-docx 模塊的幾個(gè)概念。

  • Document 對(duì)象,表示一個(gè)Word文檔。
  • Paragraph 對(duì)象,表示W(wǎng)ord文檔中的一個(gè)段落。
  • Paragraph 對(duì)象的text屬性,表示段落中的文本內(nèi)容。

提取docx文件中文本信息

使用python-docx 提取docx文件中文本數(shù)據(jù),Python實(shí)現(xiàn)代碼如下:

如上,我們將python-docx.docx 文件中的文本信息,按行提取出來(lái),存儲(chǔ)到字典中,字典的Key為行號(hào),Value為文本信息,執(zhí)行上述代碼,輸出結(jié)果如下:

提取docx文件中表格數(shù)據(jù)

使用python-docx 提取docx文件中表格數(shù)據(jù),Python實(shí)現(xiàn)代碼如下:

如上,我們將python-docx.docx 文件中的表單信息,按行提取出來(lái),存儲(chǔ)到列表中,列表每個(gè)元素為一個(gè)表格的數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)為字典,執(zhí)行上述代碼輸出結(jié)果如下:

寫(xiě)入數(shù)據(jù)到docx文件中

我們同樣可以利用python-docx 模塊,實(shí)現(xiàn)docx文件的數(shù)據(jù)寫(xiě)入,如標(biāo)題、字號(hào)、引用、列表、圖片插入等等。由于如下代碼注釋中說(shuō)明比較詳細(xì),此處不做過(guò)多介紹,代碼如下:

執(zhí)行上述代碼,寫(xiě)入數(shù)據(jù)保存至testops—docx.docx 文件中,內(nèi)容如下:

提取包含指定關(guān)鍵字的文本

我們基于上述自定義封裝函數(shù) extract_text、extract_form,結(jié)合re 模塊,就可以實(shí)現(xiàn)提取包含關(guān)鍵字的文本內(nèi)容,代碼實(shí)現(xiàn)如下:

如上,我們實(shí)現(xiàn)了提取docx 文本中包含指定內(nèi)容的文本信息,并輸出該內(nèi)容所在行,執(zhí)行上述代碼,輸出結(jié)果為:


分享題目:Python實(shí)現(xiàn)docx文件的讀寫(xiě)操作
轉(zhuǎn)載來(lái)源:http://www.dlmjj.cn/article/dphgigc.html