日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
創(chuàng)新互聯(lián)Python教程:解析表格數(shù)據(jù),Python與Tika對比

為了證明Python確實在解析表格數(shù)據(jù)上優(yōu)于其他的選擇,今天我們?yōu)榇蠹疫M行實例對比,具體如下:

成都創(chuàng)新互聯(lián)專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都網(wǎng)站設(shè)計、網(wǎng)站制作、羅湖網(wǎng)絡(luò)推廣、微信小程序開發(fā)、羅湖網(wǎng)絡(luò)營銷、羅湖企業(yè)策劃、羅湖品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運營等,從售前售中售后,我們都將竭誠為您服務(wù),您的肯定,是我們最大的嘉獎;成都創(chuàng)新互聯(lián)為所有大學生創(chuàng)業(yè)者提供羅湖建站搭建服務(wù),24小時服務(wù)熱線:028-86922220,官方網(wǎng)址:www.cdcxhl.com


PDF文件表格樣例



Python解析結(jié)果



其他樣式解析,如Tika


1、TEXT格式


  Tika tika = new Tika();
        tika.setMaxStringLength(100 * 1024 * 1024);
        try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {
            return tika.parseToString(stream);
        }


Text格式解析結(jié)果


2、XHTML格式


       ContentHandler handler = new ToXMLContentHandler();
        AutoDetectParser parser = new AutoDetectParser();
        Metadata metadata = new Metadata();
        try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {
            parser.parse(stream, handler, metadata);
            return handler.toString();
        }


XHTML格式解析結(jié)果


解析PDF常用組件(PdfBox、iText、Tika等)都無法將表格數(shù)據(jù)解析成有規(guī)則的格式。解析后格式基本是TEXT、XHTML等導致處理表格數(shù)據(jù)變的非常復雜。


根據(jù)對比我們可以發(fā)現(xiàn),用Python解析PDF的表格數(shù)據(jù)更為簡單方便,下期我們就為大家?guī)?strong>Python解析PDF具體的方法。更多Python學習推薦:PyThon學習網(wǎng)教學中心。


文章題目:創(chuàng)新互聯(lián)Python教程:解析表格數(shù)據(jù),Python與Tika對比
地址分享:http://www.dlmjj.cn/article/dhihoog.html