Python利器: 利用 pdfminer 把pdf 年报数据转成 txt 文本

11194

收藏 2018-03-14

PDFMiner其特征有：
1、完全使用python编写。（适用于2.4或更新版本）
2、解析，分析，并转换成PDF文档。
3、PDF-1.7规范的支持。（几乎）
4、中日韩CJK语言和垂直书写脚本支持。
5、各种字体类型（Type1、TrueType、Type3，和CID）的支持。
6、基本加密（RC4）的支持。
7、PDF与HTML转换。
8、纲要（TOC）的提取。
9、标签内容提取。
10、通过分组文本块重建原始的布局。
如果你的Python有安装pip模块，就可以通过pip命令自动安装pdfminer。(不支持中文)

#python pip install pdfminer

由于我们大部分处理的文档都是中文的所以不能直接pip 安装使用中日韩CJK文字须先编译再安装

首先下载安装包

使用的是pdfminer-20140328.tar.gz

https://pypi.python.org/packages/57/4f/e1df0437858188d2d36466a7bb89aa024d252bd0b7e3ba90cbc567c6c0b8/pdfminer-20140328.tar.gz

然后在Windows cmd下输入命令:

复制代码

下面附上将pdf 转成 txt 的python代码

复制代码

如果嫌麻烦的话，可以联系我帮你转(Free).

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

lowbrow

2018-3-16 09:05:27

转成txt似乎不是什么难事，难的是转成表格。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

MRchesian

2018-3-19 19:23:41

lowbrow 发表于 2018-3-16 09:05
转成txt似乎不是什么难事，难的是转成表格。

你用的是什么转？用python 是因为可以批量处理

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lowbrow

2018-3-20 09:01:07

MRchesian 发表于 2018-3-19 19:23
你用的是什么转？用python 是因为可以批量处理

我没办法

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

escaflowne1985

2018-3-23 11:27:09

这个是python2的吧 python3里是什么模块?

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wpoven

2018-9-14 22:24:32

曾经遇到过年报加密的情况，总之年报的批量转TXT很容易遇到坑

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

MRchesian

2018-9-16 22:03:42

wpoven 发表于 2018-9-14 22:24
曾经遇到过年报加密的情况，总之年报的批量转TXT很容易遇到坑

加密也是有办法的，关键是有些PDF的字符编码不统一才是坑，我处理的是90-16年的年报数据 3w+份

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Suun柿子

2018-9-24 10:47:56

招股说明书也可以转么

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

MRchesian

2018-9-30 11:31:33

Suun柿子发表于 2018-9-24 10:47
招股说明书也可以转么

可以的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

myqinfei

2018-12-25 22:41:56

我在安装的过程中遇到了问题，能否麻烦指导下，有偿。我qq529604532

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

MRchesian

2018-12-29 19:43:31

myqinfei 发表于 2018-12-25 22:41
我在安装的过程中遇到了问题，能否麻烦指导下，有偿。我qq529604532

可以直接说什么问题

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

舵手之达州

2019-5-8 03:54:30

MRchesian 发表于 2018-3-14 22:49
PDFMiner其特征有：
1、完全使用python编写。（适用于2.4或更新版本）
2、解析，分析，并转换成PDF文档 ...

你好，我在批量转换的时候出现加密还有各种情况，你那有转好的可以给我用吗，有偿也行！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dgdgmariner

2019-5-11 01:13:18

有现成的软件，何必那么费劲？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

MRchesian

2019-5-16 15:56:58

dgdgmariner 发表于 2019-5-11 01:13
有现成的软件，何必那么费劲？

你可以介绍下有什么好用的软件

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wudizhao

2019-12-26 23:52:22

MRchesian 发表于 2018-9-16 22:03
加密也是有办法的，关键是有些PDF的字符编码不统一才是坑，我处理的是90-16年的年报数据 3w+份

那请问你是如何解决的？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

panghongwei

2020-1-13 22:25:36

您好，咨询一下，我把pdf转成txt后，txt里怎么都是(cid:3846)(cid:1183)(cid:3248)(cid:1041)((cid:1905))/2019 (cid:2893)/12 (cid:4357)/31 (cid:3248)/(cid:1467) 001 (cid:1009) 这些东西呢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Xiaokeyi_007

2020-3-24 17:40:57

您好，请问安装包安装好之后是放到哪里呢？cmd输入命令后一直报错文件不存在，谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群