全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 悬赏大厅 求助成功区
1767 8
2023-06-16
悬赏 100 个论坛币 已解决
现在有4000多份pdf文档,其中的表格左右没有边框,尝试用了pdfplumber库进行了提取,但左右两边上的数据信息都没有提取到,有信息遗漏。有没有其他办法将无左右边框的表格信息完整地提取出来,并存入EXCEl中?

最佳答案

phonlee 查看完整内容

如果使用pdfplumber库提取表格时出现了信息遗漏的问题,可以尝试使用其他的Python库,例如Tabula-py、PyPDF2、Camelot等。这些库可以用于提取PDF中的表格数据,并将其转换为Excel或CSV格式。 另外,如果表格左右两边没有边框,可以试使用OCR技术进行识别。OCR技术可以将PDF中的图像转换为文本,从而提取表格数据。常用的OCR包括Tesseract、OCRopus等。 需要注意的是,由于PDF文件的格式多种多样,不同的PDF文件可能需要使用不同 ...
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2023-6-16 11:35:52
如果使用pdfplumber库提取表格时出现了信息遗漏的问题,可以尝试使用其他的Python库,例如Tabula-py、PyPDF2、Camelot等。这些库可以用于提取PDF中的表格数据,并将其转换为Excel或CSV格式。
另外,如果表格左右两边没有边框,可以试使用OCR技术进行识别。OCR技术可以将PDF中的图像转换为文本,从而提取表格数据。常用的OCR包括Tesseract、OCRopus等。
需要注意的是,由于PDF文件的格式多种多样,不同的PDF文件可能需要使用不同的方法进行处理。因此,需要根据具体情况选择合适的方法进行处理。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-6-16 18:17:14
如果您尝试了pdfplumber库但左右两边上的数据信息都没有提取到,可能是由于表格的格式比较复杂或者表格边框被设置为不可见。以下是一些可能有用的方法来提取无左右边框的表格信息:

使用Tabula库:Tabula是一个用于提取表格数据的Python库,它可以从PDF文件中提取表格数据,并且可以处理没有边框的表格。您可以使用Tabula将PDF中的表格数据提取为CSV或Excel文件。
使用PDFMiner库:PDFMiner是另一个用于提取PDF数据的Python库,它可以从PDF文件中提取文本和图像。您可以使用PDFMiner提取表格数据,并将其转换为Excel格式。
使用在线工具:如果您不想使用Python库,也可以尝试使用在线工具来提取表格数据。例如,PDF Table Extractor是一个免费的在线工具,可以帮助您从PDF文件中提取表格数据,并且可以处理没有边框的表格。
无论您选择哪种方法,都建议先试几个表格看看效果,以确保提取的表格数据准确无误。另外,如果您需要在Excel中处理这些数据,请注意数据格式和格式化问题,以免出现问题。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-6-16 19:57:14
hujianping2299 发表于 2023-6-16 11:35
现在有4000多份pdf文档,其中的表格左右没有边框,尝试用了pdfplumber库进行了提取,但左右两边上的数据信息 ...
感谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-6-17 14:51:02
娜小娜娜 发表于 2023-6-16 18:17
如果您尝试了pdfplumber库但左右两边上的数据信息都没有提取到,可能是由于表格的格式比较复杂或者表格边框 ...
好专业,赞
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-6-18 08:31:06
点赞分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群