全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
11114 16
2018-03-14
PDFMiner其特征有:
1、完全使用python编写。(适用于2.4或更新版本)
2、解析,分析,并转换成PDF文档。
3、PDF-1.7规范的支持。(几乎)
4、中日韩CJK语言和垂直书写脚本支持。
5、各种字体类型(Type1、TrueType、Type3,和CID)的支持。
6、基本加密(RC4)的支持。
7、PDF与HTML转换。
8、纲要(TOC)的提取。
9、标签内容提取。
10、通过分组文本块重建原始的布局。
如果你的Python有安装pip模块,就可以通过pip命令自动安装pdfminer。(不支持中文)

#python pip install pdfminer

由于我们大部分处理的文档都是中文的 所以不能直接pip 安装 使用中日韩CJK文字须先编译再安装


首先下载 安装包

使用的是pdfminer-20140328.tar.gz


https://pypi.python.org/packages/57/4f/e1df0437858188d2d36466a7bb89aa024d252bd0b7e3ba90cbc567c6c0b8/pdfminer-20140328.tar.gz




然后在Windows cmd下输入命令:

复制代码



下面附上将pdf 转成 txt 的python代码


复制代码

如果嫌麻烦的话,可以联系我帮你转(Free).



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-3-16 09:05:27
转成txt似乎不是什么难事,难的是转成表格。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-3-19 19:23:41
lowbrow 发表于 2018-3-16 09:05
转成txt似乎不是什么难事,难的是转成表格。
你用的是什么转?用python 是因为可以批量处理
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-3-20 09:01:07
MRchesian 发表于 2018-3-19 19:23
你用的是什么转?用python 是因为可以批量处理
我没办法
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-3-23 11:27:09
这个是python2的吧 python3里是什么模块?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-9-14 22:24:32
曾经遇到过年报加密的情况,总之年报的批量转TXT很容易遇到坑
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群