全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
79 0
2026-01-21

百度 WebQA v1.0 数据集 中文问答训练数据 人工标注 (ANN)+ 浏览器检索 (IR) 格式



核心信息

百度 WebQA v1.0 中文问答数据集是 2016 年百度官方开源的优质中文问答训练资源,数据均来源于百度知道平台,采用 一个问题 + 多篇意思一致文章的结构化格式,适配中文 NLP 模型训练、问答系统开发等场景。



内容覆盖范围

数据类型:中文问答成对数据(问题 + 关联文章)

标注分类:文章分为人工标注(ANN)、浏览器检索(IR)两类;答案分为可回答(positive)、不可回答(other_negative)两类

数据特点:覆盖多领域日常问答场景,结构化程度高,兼顾人工筛选与广泛检索数据,适配不同模型训练需求



可用途径

中文 NLP 模型训练(问答匹配、意图识别、答案抽取等任务)

智能问答系统开发(客服机器人、智能助手训练)

学术研究数据支撑(中文问答领域论文实验、算法验证)

教育 / 企业内部问答知识库构建



WebQA v1.0 百度中文问答数据集.zip
大小:(4.78 KB)

只需: RMB 10元  马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群