全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
22 0
2026-02-10

MCTS 中文文本简化数据集



MCTS 全称为 Multi-Reference Chinese Text Simplification Dataset,是由北京语言大学、东北大学和清华大学的研究团队于 2024 年发布的中文文本简化数据集,相关论文成果为「MCTS: A Multi-Reference Chinese Text Simplification Dataset」,旨在为自然语言处理领域中的文本简化任务提供丰富的资源和支持。



该数据集包含 723 条基于 Penn Chinese TreebankCTB)的标准、选自新闻语料的复杂结构句子,并且每一句都配有多个人工简化的版本,从而成为中文文本简化任务上规模最大、参考最多的评估数据集。此外,MCTS 还定义了三种类型的句子改写方法:改述、句子压缩和结构转换,这样的多样性覆盖了不同的文本简化策略。



MCTS 数据集不仅适用于分级阅读、机器翻译等研究领域,还能够帮助语言学习者更好地理解和处理复杂文本。



使用方法方面,MCTS 提供了训练用的平行数据,可以用于训练和优化中文文本简化模型。同时,研究者也可以通过对比系统生成的简化文本与数据集中的多参考简化版本,使用自动评估指标如 SARI BLEU HSK Level 等来量化系统的表现。





MCTS 中文文本简化数据集.zip
大小:(1.79 KB)

只需: RMB 10元  马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群