解析表格数据，Python与Tika对比

767次阅读

没有评论

为了证明Python确实在解析表格数据上优于其他的选择，今天我们为大家进行实例对比，具体如下：

PDF文件表格样例

解析表格数据，Python与Tika对比

Python解析结果

解析表格数据，Python与Tika对比

其他样式解析，如Tika

1、TEXT格式

Tika tika = new Tika(); tika.setMaxStringLength(100 * 1024 * 1024); try (InputStream stream = new FileInputStream(new File(“600060_2018_zB.pdf”))) { return tika.parseToString(stream); }

</pre>
 

Text格式解析结果

 

<img loading="lazy" class="aligncenter size-full wp-image-11175" src="https://www.python51.com/wp-content/uploads/2021/04/1603875426750037.png" width="299" height="437" srcset="https://www.python51.com/wp-content/uploads/2021/04/1603875426750037.png 299w, https://www.python51.com/wp-content/uploads/2021/04/1603875426750037-103x150.png 103w, https://www.python51.com/wp-content/uploads/2021/04/1603875426750037-171x250.png 171w" sizes="(max-width: 299px) 100vw, 299px" />

2、XHTML格式

 

ContentHandler handler = new ToXMLContentHandler();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try (InputStream stream = new FileInputStream(new File(“600060_2018_zB.pdf”))) {
parser.parse(stream, handler, metadata);
return handler.toString();
}
<pre class="brush:js;toolbar:false">

XHTML格式解析结果

解析表格数据，Python与Tika对比

解析PDF常用组件（PdfBox、iText、Tika等）都无法将表格数据解析成有规则的格式。解析后格式基本是TEXT、XHTML等导致处理表格数据变的非常复杂。

根据对比我们可以发现，用Python解析PDF的表格数据更为简单方便，下期我们就为大家带来Python解析PDF具体的方法。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python基础教程

2021-06-08

复制链接

赏

解析表格数据，Python与Tika对比

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置