全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
7414 4
2019-08-16
pat=re.compile(r'[\u4e00-\u9fa5]+')      
result=pat.findall(row)
“\u4e00-\u9fa5”是中文编码范围,只会剩下中文内容,免去了在停用词表中添加一些无意义的标点符号,数字,英文字母等。
附件是“百度停用词列表”,“哈工大停用词表”,“四川大学机器智能实验室停用词库”,“中文停用词库”原始停用词表以及四个整合到一起的停用词表,删除了原有停用词表的标点符号,字母,数字。
stopwords.txt
大小:(12.13 KB)

只需: 1 个论坛币  马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-2-19 08:21:25
楼主,好人榜排第一!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-3-4 17:31:21
xiexieshouzhu
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-10-13 14:17:48
MiSs.RainBowsss 发表于 2019-8-16 11:10
pat=re.compile(r'[\u4e00-\u9fa5]+')      
result=pat.findall(row)
“\u4e00-\u9fa5”是中文编码范围, ...
为什么最后一个包烟删除标点符号呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-10-13 14:18:41
dbyluck 发表于 2020-10-13 14:17
为什么最后一个包烟删除标点符号呢?
最后一个停用词包为啥不需要包含标点符号呢?谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群