2024 SESYD 合成文档数据库免费下载_文档图像分析基准数据集(含 284k 图像 + 190k 符号)
一、数据库核心信息
SESYD(Systems Evaluation SYnthetic Documents)合成文档数据库,是包含基准真实信息的专业文档图像数据集,专为文档图像分析领域打造,自 2010 年由 Mathieu Delalandre、Ernest Valveny、Tony Pridmore、Dimosthenis Karatzas 联合发布以来,已成为该领域关键基准数据库,相关论文「Generation of Synthetic Documents for Performance Evaluation of Symbol Recognition & Spotting Systems」被引用数百次,权威性广受认可。
二、覆盖范围与核心价值
(一)核心研究方向
在线绘图图像(平面图、电路图等)的象征识别与定位
地理地图中字符的分割与识别
(二)数据集规模
数据库由 11 个专业集合构成,累计包含 284k 图像、190k 符号、284k 字符,涵盖 symbol bags、floorplans、diagrams、queries、isrc2011、lowres、sketches、character ones、segment characters、word bags、text/graphics 等多类场景,满足不同性能评估需求。
三、可用途径
适用于文档图像分析、计算机视觉、模式识别等领域的科研实验、算法训练与性能测试,支持高校科研团队、企业技术研发、学术论文撰写等场景使用。