全部版块 我的主页
论坛 数据科学与人工智能 人工智能 自然语言处理
162 0
2025-10-31

MLDR(Multilingual Long-Document Retrieval)是一个基于维基百科(Wikipedia)、悟道数据集(Wudao)和 mC4 多语言语料库,构建的多语言长文档检索数据集,旨在支持跨语言长文本检索任务的研究与开发。涵盖 13 种类型学上不同的语言,包括阿拉伯语(ar)、德语(de)、英语(en)、西班牙语(es)、法语(fr)、印地语(hi)、意大利语(it)、日语(ja)、韩语(ko)、葡萄牙语(pt)、俄语(ru)、泰语(th)、中文(zh)。

特点优势:多语言覆盖广:包含 13 种语言,覆盖多种语系(如印欧语系、汉藏语系、阿拉伯语系等)。长文档特性:文档平均长度达 4,737 词,适用于真实场景中长文本处理需求。标准化构建:通过 GPT-3.5 生成高质量查询,确保查询与文档内容的强相关性。

附件列表

MLDR.rar

大小:93.89 KB

只需: 201 个论坛币  马上下载

磁力链接,9.3G

本附件包括:

  • MLDR.torrent

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群