Extract-0 由 Inteli 于 2025 年发布的一个专为文档信息抽取任务设计的高质量训练与评测数据集,相关论文成果为「Extract-0: A Specialized Language Model for Document Information Extraction」,旨在支持小规模参数模型在复杂抽取任务中的性能优化研究。
该数据集共包含 280,128 条文档抽取示例,源自 34,761 个文档块(text chunk),每个样本平均长度约为 532–1900 个 token,覆盖多种数据结构类型(如对象、数组、字符串、日期与数值)。数据来自 arXiv 学术论文、 PubMed Central 医学文献数据库、维基百科条目以及 FDA(美国食品药品监督管理局)数据库的文本数据。每个样本均由原始文档片段与其对应的基于模式(schema-based)抽取任务 及结构化输出组成,从而在多领域、多格式文档中提供统一的抽取训练标准。