全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
22 0
2026-01-04

pyMethods2Test 编程语言处理数据集




pyMethods2Test 数据集是由内布拉斯加大学林肯分校(University of Nebraska–Lincoln)的研究人员于2025年创建的,包含大量的开源单元测试方法和对应的焦点映射,旨在为Python代码生成有效的单元测试用例,弥补了Python语言在大型测试数据集方面的空白。相关论文成果为「pyMethods2Test: A Dataset of Python Tests Mapped to Focal Methods」,该数据集被广泛用于训练大型语言模型(LLM)以生成良好的Python单元测试用例,为LLM提供了丰富的训练数据,使其能够学习如何生成针对Python代码的测试。




该数据集通过挖掘 GitHub 上使用 Pytest unittest 框架的 88,846 Python 项目,构建了一个包含 22,662,037 个测试方法和 2,198,378 个焦点映射的集合。





数据集包含超过 2,200 万个测试方法到焦点方法的映射,提供了每个映射的详细上下文信息,如测试文件路径、焦点文件路径、类名、方法名、行号等;采用了 JSON 格式存储,便于处理;同时提供了生成焦点方法上下文的脚本。





数据存储在两个 ZIP 文件中。如果您只想使用预先挖掘的焦点数据,请解压 focal-data.zip 文件(解压后约 2 GB)。较大的 raw-data.zip 文件(解压后约 42 GB)包含用于生成焦点数据的原始数据,例如从存储库中提取的类和方法。






pyMethods2Test 编程语言处理数据集.zip
大小:(38.7 KB)

只需: RMB 10元  马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群