全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
58 0
2025-10-17
ChemData 化学任务数据集

数据集简介
该数据集是由上海人工智能实验室于 2024 年与其发布的首个科学大模型浦科化学大模型 (ChemLLM) 一同开源的,相关论文成果为「ChemLLM: A Chemical Large Language Model」。


该数据集主要包括了 ChemData700K,研究团队还开源了 ChemBench-4K 、 ChemPref-10K 的中英文版本和 C-MHChem 数据集。


ChemData700K 数据集
ChemData700K 是一个包含了 9 项化学核心任务,730K 个高质量问答的大语言模型化学能力指令微调数据集, 采样自七百万条数据的 1/10 。该数据集涵盖广泛的化学领域知识,并分为 3 个主要任务类别(分子、反应和领域)。


ChemBench4K 基准数据集
ChemBench 是一个创新的基准,由关于化学分子和反应的 9 个任务组成。这 9 项任务与 ChemData 中的任务相同。该基准为客观衡量法学硕士化学水平奠定基础。 ChemBench 包含 4,100 个多项选择题,其中一个为正确答案。


ChemPref-10K 数据集
该数据集可用于优化语言模型以符合人类偏好的方法,包含英文和中文两个版本。


C-MHChem 数据集
C-MHChem 是一个包含了 600 个高质量的全人工编写的单选题测评基准,收集自过去 25 年间中国各地初高中中高考测试题目。





ChemData 化学任务数据集
大小:(85 Bytes)

只需: RMB 35元  马上下载


075e3b89-71fd-4f59-926d-0b980f5bbc1b.png


[color=oklch(0.3 0.01 20)][backcolor=oklch(1 0.01 20)]

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群