全部版块 我的主页
论坛 数据科学与人工智能 人工智能 AI学习社区
25 0
2026-03-30

ChineseWebText 是目前最新、最大的中文数据集,包含 1.42 TB 的数据。每个文本都被分配了一个质量分数,方便大语言模型的研究人员根据新的质量阈值选择数据。这里还发布了一个更清洁的子集,包含 600 GB 的中文文本,质量超过 90% 。该目录包含 ChineseWebText 数据集和用于处理 CommonCrawl 数据的 EvalWeb 工具链。

附件列表

ChineseWebText.rar

大小:3.9 MB

只需: 1001 个论坛币  马上下载

磁力链接398.86G

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群