新聞中心
為了證明Python確實在解析表格數(shù)據(jù)上優(yōu)于其他的選擇,今天我們?yōu)榇蠹疫M行實例對比,具體如下:

成都創(chuàng)新互聯(lián)專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都網(wǎng)站設(shè)計、網(wǎng)站制作、羅湖網(wǎng)絡(luò)推廣、微信小程序開發(fā)、羅湖網(wǎng)絡(luò)營銷、羅湖企業(yè)策劃、羅湖品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運營等,從售前售中售后,我們都將竭誠為您服務(wù),您的肯定,是我們最大的嘉獎;成都創(chuàng)新互聯(lián)為所有大學生創(chuàng)業(yè)者提供羅湖建站搭建服務(wù),24小時服務(wù)熱線:028-86922220,官方網(wǎng)址:www.cdcxhl.com
PDF文件表格樣例
Python解析結(jié)果
其他樣式解析,如Tika
1、TEXT格式
Tika tika = new Tika();
tika.setMaxStringLength(100 * 1024 * 1024);
try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {
return tika.parseToString(stream);
}
Text格式解析結(jié)果
2、XHTML格式
ContentHandler handler = new ToXMLContentHandler();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {
parser.parse(stream, handler, metadata);
return handler.toString();
}
XHTML格式解析結(jié)果
解析PDF常用組件(PdfBox、iText、Tika等)都無法將表格數(shù)據(jù)解析成有規(guī)則的格式。解析后格式基本是TEXT、XHTML等導致處理表格數(shù)據(jù)變的非常復雜。
根據(jù)對比我們可以發(fā)現(xiàn),用Python解析PDF的表格數(shù)據(jù)更為簡單方便,下期我們就為大家?guī)?strong>Python解析PDF具體的方法。更多Python學習推薦:PyThon學習網(wǎng)教學中心。
文章題目:創(chuàng)新互聯(lián)Python教程:解析表格數(shù)據(jù),Python與Tika對比
地址分享:http://www.dlmjj.cn/article/dhihoog.html


咨詢
建站咨詢
