全部版块 我的主页
论坛 数据科学与人工智能 人工智能 机器学习
390 0
2026-03-27

WikiLinks 维基百科链接数据集是一个将维基百科的全文按段落、短语或段落本身的一部分进行搜索的数据集。该数据集将维基百科上的每个页面视为代表一个实体 (或概念或想法),基于从网络搜索中找到的超链接,并使用锚文本作为提及,最终可以提供大规模不需要人工操作的标记数据。

数据集包括:

来自 400 多万篇文章的近 19 亿个单词

300 万个实体上的 4000 万个提法

10 个压缩文本文件 data-0000[0-9]-of-00010.gz.

此数据集创建于 2012 年 9 月 29 日

附件列表

WikiLinks.rar

大小:18.07 KB

只需: 201 个论坛币  马上下载

磁力链接1.71G

本附件包括:

  • WikiLinks.torrent

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群