为了证明Python确实在解析表格数据上优于其他的选择,今天我们为大家进行实例对比,具体如下:
PDF文件表格样例
Python解析结果
其他样式解析,如Tika
1、TEXT格式
Tika tika = new Tika(); tika.setMaxStringLength(100 * 1024 * 1024); try (InputStream stream = new FileInputStream(new File(“600060_2018_zB.pdf”))) { return tika.parseToString(stream); }
</pre> Text格式解析结果 <img loading="lazy" class="aligncenter size-full wp-image-11175" src="https://www.python51.com/wp-content/uploads/2021/04/1603875426750037.png" width="299" height="437" srcset="https://www.python51.com/wp-content/uploads/2021/04/1603875426750037.png 299w, https://www.python51.com/wp-content/uploads/2021/04/1603875426750037-103x150.png 103w, https://www.python51.com/wp-content/uploads/2021/04/1603875426750037-171x250.png 171w" sizes="(max-width: 299px) 100vw, 299px" /> 2、XHTML格式 ContentHandler handler = new ToXMLContentHandler(); AutoDetectParser parser = new AutoDetectParser(); Metadata metadata = new Metadata(); try (InputStream stream = new FileInputStream(new File(“600060_2018_zB.pdf”))) { parser.parse(stream, handler, metadata); return handler.toString(); } <pre class="brush:js;toolbar:false">
XHTML格式解析结果
解析PDF常用组件(PdfBox、iText、Tika等)都无法将表格数据解析成有规则的格式。解析后格式基本是TEXT、XHTML等导致处理表格数据变的非常复杂。
根据对比我们可以发现,用Python解析PDF的表格数据更为简单方便,下期我们就为大家带来Python解析PDF具体的方法。
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试