Extract-0 文档信息提取数据集

收藏 2025-10-30

Extract-0 由 Inteli 于 2025 年发布的一个专为文档信息抽取任务设计的高质量训练与评测数据集，相关论文成果为「Extract-0: A Specialized Language Model for Document Information Extraction」，旨在支持小规模参数模型在复杂抽取任务中的性能优化研究。

该数据集共包含 280,128 条文档抽取示例，源自 34,761 个文档块（text chunk），每个样本平均长度约为 532–1900 个 token，覆盖多种数据结构类型（如对象、数组、字符串、日期与数值）。数据来自 arXiv 学术论文、 PubMed Central 医学文献数据库、维基百科条目以及 FDA（美国食品药品监督管理局）数据库的文本数据。每个样本均由原始文档片段与其对应的基于模式（schema-based）抽取任务及结构化输出组成，从而在多领域、多格式文档中提供统一的抽取训练标准。

附件列表

Extract-0.rar

大小:1.19 KB

只需: 101 个论坛币马上下载

磁力链接，55.5M

本附件包括：

Extract-0.torrent

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群