全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
111 0
2025-10-20

Miriad-5.8M 医学问答数据集:ETH + 斯坦福联合发布 支持 RAG / 幻觉检测 含 582 万结构化问答对



在医疗 AI 领域,大型语言模型常因医学知识不精准、易产生 幻觉(错误信息),难以满足临床决策、医学检索等专业场景需求。现有医学数据集如 PubMedQAMedQA 存在规模小、形式单一(多为选择题)、非结构化等问题,无法为 LLM 提供高质量知识支撑,导致模型在实际医疗应用中可靠性不足。


为解决这一痛点,苏黎世联邦理工学院联合斯坦福大学、梅奥诊所等机构,于 2025 年发布 Miriad 医学问答数据集,相关成果已发表于论文《MIRIAD: Augmenting LLMs with millions of medical query-response pairs》。该数据集通过 文献筛选 - LLM 生成 - 多轮核验的严谨流程,构建百万级结构化问答资源,为医疗 AI 模型优化提供权威、高质量的知识底座。


1. 核心数据特性,覆盖医疗 AI 多需求


规模与质量:包含 582 万个医学问答对,每对均基于 89.4 万篇同行评审医学文献(源自 S2ORC 语料库)改写,经 规则过滤→GPT-4 标注分类器精筛人类医学专家验证三重核验,最终保留 440 万高质量问答对,确保信息准确性与临床相关性。


结构化优势:区别于传统非结构化医疗文本,采用 问题 - 响应标准化格式,支持 LLM 精准提取知识,同等检索量下,可使医疗问答任务准确率提升 6.7%,幻觉检测 F1 分数提升 22.5%-37%

知识覆盖范围:涵盖从基础医学到临床医学的 56 个医学领域,适配不同细分场景的模型训练需求。


2. 配套工具与下游应用支撑


可视化工具:附带 MIRIAD-Atlas 交互式 2D 知识地图,通过嵌入技术与降维算法将问答对按学科主题聚类,支持直观浏览、检索细分领域知识,降低医学知识探索门槛。


下游任务适配:可直接用于医疗 RAG、医学信息检索、LLM 指令微调、幻觉检测等任务,为智能医疗助手开发、医学知识库构建、医疗 NLP 研究提供核心数据支持。


格式CSV/JSON 结构化数据文件+ 数据集说明文档


适用环境:兼容 PythonTensorFlowPyTorch 等主流数据处理与 AI 训练框架,支持直接导入模型进行训练或微调。


适用人群:医疗 AI 算法工程师(模型开发与优化)、医学信息学研究者、高校医学 / 计算机专业师生、医疗科技企业




Miriad-5.8M 医学问答数据集
大小:(85 Bytes)

只需: RMB 29元  马上下载





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群