天天综合网站入口亚洲无码妖精视频 ,2023国产成人精品,激情久久土豆狠狠

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

Pdf轉(zhuǎn)Word用Python輕松搞定！

大家在日常的工作學(xué)習(xí)過程中，都會(huì)遇到一個(gè)問題就是將pdf中的文本內(nèi)容轉(zhuǎn)化為word的形式，也就是從只讀變成可讀寫的形式。面對(duì)這種情況，大家大都采用網(wǎng)上的工具，但是網(wǎng)上的工具良莠不齊，很難達(dá)到我們的需求。

創(chuàng)新互聯(lián)是一家集網(wǎng)站建設(shè),甘井子企業(yè)網(wǎng)站建設(shè),甘井子品牌網(wǎng)站建設(shè),網(wǎng)站定制,甘井子網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營銷,網(wǎng)絡(luò)優(yōu)化,甘井子網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè)，幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力?？沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿，時(shí)刻以成就客戶成長自我，堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己，讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。

今天，小編就帶領(lǐng)大家利用python來實(shí)現(xiàn)如何將pdf的內(nèi)容轉(zhuǎn)化為word文檔。同時(shí)我們還將提取pdf中的圖片，保存到我們的指定文件夾內(nèi)。

01.文字的提取

我們首先要做的是對(duì)于pdf中文本的提取，如下圖所示：

Pdf中文字是只允許我們進(jìn)行只讀，但是無法進(jìn)行更改，所以我們要做的就是提取pdf中的文字信息，然后將提取到的文字寫入到word文件當(dāng)中，讓我們能夠進(jìn)行后續(xù)的改寫。對(duì)于文字的提取，我們利用的是pdfminer函數(shù)庫，其主要的函數(shù)如下圖所示：

程序首先利用get_content_from_pdf函數(shù)來返回pdf中提取到的數(shù)據(jù);
然后分別創(chuàng)建了PDFResourceManager對(duì)象來保存共享數(shù)據(jù)內(nèi)容，PDFPageAggregator對(duì)象來將資源對(duì)象處理成我們需要的格式，而PDFPageInterpreter則是用來處理頁面的內(nèi)容;
程序中page_index用來幫助我們?cè)O(shè)定需要提取哪幾頁的內(nèi)容，對(duì)于我們需要提取的頁面，通過創(chuàng)建的PDFPageInterpreter對(duì)象來對(duì)頁面信息進(jìn)行解釋;
最后通過PDFPageAggregator對(duì)象來對(duì)數(shù)據(jù)進(jìn)行處理;

這里的layout中就包含了頁面解析出來的各種對(duì)象。包括文本，圖片等信息。但是小編發(fā)現(xiàn)，對(duì)于圖片的提取，pdfminer的效果很不好，所以后面針對(duì)于圖片的提取，小編采用的fitz庫進(jìn)行單獨(dú)的處理，取得很好的圖片提取效果。說了這么多，我們先來看一下對(duì)于文本的處理結(jié)果。

我們的pdf是一個(gè)兩頁的pdf文檔，我們只讓程序去提取第一頁的文本，從上圖可以看出，程序完整的提取出第一頁的文本，沒有任何的錯(cuò)誤。

02.圖片的提取

有了對(duì)于文字的處理，接下來我們就來看一下如何提取pdf中的圖片，并將其保存到本地。對(duì)于圖片的提取，程序如下圖所示：

上述的程序中，我們利用fitz庫來提取pdf文檔中的對(duì)象，然后通過字符串匹配來判斷對(duì)象是不是圖片類型，如果不是的話，我們直接進(jìn)行跳過即可。

如果判斷對(duì)象是圖片類型的話，我們邊可以通過創(chuàng)建PixMap對(duì)象來提取圖片，并保存到我們指定的路徑下即可。結(jié)果如下圖所示：

上圖可以看出，我們正確的將圖片進(jìn)行了提取，從而達(dá)到了我們的圖片提取的目的，而且小編也嘗試過多個(gè)圖片的提取，同樣也是沒有任何壓力?？梢栽诙潭痰膸酌雰?nèi)完成pdf文檔的所有圖片的提取。

以上就是小編為大家?guī)淼膒df轉(zhuǎn)word的提取，我們經(jīng)過講解，不僅僅完成了對(duì)于pdf文檔中文本的提取，而且還完成了對(duì)于圖片的提取，從而大大的緩解我們工作的壓力，提高了工作的效率，大家也趕快下載源碼，應(yīng)用起來吧。

本文標(biāo)題：Pdf轉(zhuǎn)Word用Python輕松搞定！
網(wǎng)頁網(wǎng)址：http://www.dlmjj.cn/article/djcoegh.html

日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

新聞中心

其他資訊