pdf文档中的无边框表格提取并存入excel中

hujianping2299

1767

收藏 2023-06-16

悬赏 100 个论坛币已解决

现在有4000多份pdf文档，其中的表格左右没有边框，尝试用了pdfplumber库进行了提取，但左右两边上的数据信息都没有提取到，有信息遗漏。有没有其他办法将无左右边框的表格信息完整地提取出来，并存入EXCEl中？

最佳答案

phonlee 查看完整内容

如果使用pdfplumber库提取表格时出现了信息遗漏的问题，可以尝试使用其他的Python库，例如Tabula-py、PyPDF2、Camelot等。这些库可以用于提取PDF中的表格数据，并将其转换为Excel或CSV格式。另外，如果表格左右两边没有边框，可以试使用OCR技术进行识别。OCR技术可以将PDF中的图像转换为文本，从而提取表格数据。常用的OCR包括Tesseract、OCRopus等。需要注意的是，由于PDF文件的格式多种多样，不同的PDF文件可能需要使用不同 ...

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

phonlee

2023-6-16 11:35:52

如果使用pdfplumber库提取表格时出现了信息遗漏的问题，可以尝试使用其他的Python库，例如Tabula-py、PyPDF2、Camelot等。这些库可以用于提取PDF中的表格数据，并将其转换为Excel或CSV格式。
另外，如果表格左右两边没有边框，可以试使用OCR技术进行识别。OCR技术可以将PDF中的图像转换为文本，从而提取表格数据。常用的OCR包括Tesseract、OCRopus等。
需要注意的是，由于PDF文件的格式多种多样，不同的PDF文件可能需要使用不同的方法进行处理。因此，需要根据具体情况选择合适的方法进行处理。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

娜小娜娜

2023-6-16 18:17:14

如果您尝试了pdfplumber库但左右两边上的数据信息都没有提取到，可能是由于表格的格式比较复杂或者表格边框被设置为不可见。以下是一些可能有用的方法来提取无左右边框的表格信息：

使用Tabula库：Tabula是一个用于提取表格数据的Python库，它可以从PDF文件中提取表格数据，并且可以处理没有边框的表格。您可以使用Tabula将PDF中的表格数据提取为CSV或Excel文件。
使用PDFMiner库：PDFMiner是另一个用于提取PDF数据的Python库，它可以从PDF文件中提取文本和图像。您可以使用PDFMiner提取表格数据，并将其转换为Excel格式。
使用在线工具：如果您不想使用Python库，也可以尝试使用在线工具来提取表格数据。例如，PDF Table Extractor是一个免费的在线工具，可以帮助您从PDF文件中提取表格数据，并且可以处理没有边框的表格。
无论您选择哪种方法，都建议先试几个表格看看效果，以确保提取的表格数据准确无误。另外，如果您需要在Excel中处理这些数据，请注意数据格式和格式化问题，以免出现问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

小胖125

2023-6-16 19:57:14

hujianping2299 发表于 2023-6-16 11:35
现在有4000多份pdf文档，其中的表格左右没有边框，尝试用了pdfplumber库进行了提取，但左右两边上的数据信息 ...

感谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

fydydhorse1

2023-6-17 14:51:02

娜小娜娜发表于 2023-6-16 18:17
如果您尝试了pdfplumber库但左右两边上的数据信息都没有提取到，可能是由于表格的格式比较复杂或者表格边框 ...

好专业，赞

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

babylaugh

2023-6-18 08:31:06

点赞分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群