Miriad-5.8M 医学问答数据集：ETH + 斯坦福联合发布支持 RAG / 幻觉检测含 582 万结

ewfwedwd

111

收藏 2025-10-20

Miriad-5.8M 医学问答数据集：ETH + 斯坦福联合发布支持 RAG / 幻觉检测含 582 万结构化问答对

在医疗 AI 领域，大型语言模型常因医学知识不精准、易产生 “幻觉”（错误信息），难以满足临床决策、医学检索等专业场景需求。现有医学数据集如 PubMedQA、MedQA 存在规模小、形式单一（多为选择题）、非结构化等问题，无法为 LLM 提供高质量知识支撑，导致模型在实际医疗应用中可靠性不足。

为解决这一痛点，苏黎世联邦理工学院联合斯坦福大学、梅奥诊所等机构，于 2025 年发布 Miriad 医学问答数据集，相关成果已发表于论文《MIRIAD: Augmenting LLMs with millions of medical query-response pairs》。该数据集通过 “文献筛选 - LLM 生成 - 多轮核验” 的严谨流程，构建百万级结构化问答资源，为医疗 AI 模型优化提供权威、高质量的知识底座。

1. 核心数据特性，覆盖医疗 AI 多需求

规模与质量：包含 582 万个医学问答对，每对均基于 89.4 万篇同行评审医学文献（源自 S2ORC 语料库）改写，经 “规则过滤→GPT-4 标注分类器精筛→人类医学专家验证” 三重核验，最终保留 440 万高质量问答对，确保信息准确性与临床相关性。

结构化优势：区别于传统非结构化医疗文本，采用 “问题 - 响应” 标准化格式，支持 LLM 精准提取知识，同等检索量下，可使医疗问答任务准确率提升 6.7%，幻觉检测 F1 分数提升 22.5%-37%。

知识覆盖范围：涵盖从基础医学到临床医学的 56 个医学领域，适配不同细分场景的模型训练需求。

2. 配套工具与下游应用支撑

可视化工具：附带 MIRIAD-Atlas 交互式 2D 知识地图，通过嵌入技术与降维算法将问答对按学科主题聚类，支持直观浏览、检索细分领域知识，降低医学知识探索门槛。

下游任务适配：可直接用于医疗 RAG、医学信息检索、LLM 指令微调、幻觉检测等任务，为智能医疗助手开发、医学知识库构建、医疗 NLP 研究提供核心数据支持。

格式：CSV/JSON 结构化数据文件+ 数据集说明文档

适用环境：兼容 Python、TensorFlow、PyTorch 等主流数据处理与 AI 训练框架，支持直接导入模型进行训练或微调。

适用人群：医疗 AI 算法工程师（模型开发与优化）、医学信息学研究者、高校医学 / 计算机专业师生、医疗科技企业。

Miriad-5.8M 医学问答数据集
大小:(85 Bytes)

只需: RMB 29元马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群