【python】文本分析时的停用词表以及去除除中文外的所有内容的小技巧 - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析师（CDA）专版

【python】文本分析时的停用词表以及去除除中文外的所有内容的小技巧

MiSs.RainBowsss

7414

4

收藏 2019-08-16

pat=re.compile(r'[\u4e00-\u9fa5]+')
result=pat.findall(row)
“\u4e00-\u9fa5”是中文编码范围，只会剩下中文内容，免去了在停用词表中添加一些无意义的标点符号，数字，英文字母等。
附件是“百度停用词列表”，“哈工大停用词表”，“四川大学机器智能实验室停用词库”，“中文停用词库”原始停用词表以及四个整合到一起的停用词表，删除了原有停用词表的标点符号，字母，数字。

中文停用词库.txt
大小:(4.05 KB)

四川大学机器智能实验室停用词库.txt
大小:(6.21 KB)

哈工大停用词表.txt
大小:(4.48 KB)

百度停用词列表.txt
大小:(9.11 KB)

stopwords.txt
大小:(12.13 KB)

只需: 1 个论坛币马上下载

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2020-2-19 08:21:25

楼主，好人榜排第一！

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2020-3-4 17:31:21

xiexieshouzhu

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2020-10-13 14:17:48

MiSs.RainBowsss 发表于 2019-8-16 11:10
pat=re.compile(r'[\u4e00-\u9fa5]+')
result=pat.findall(row)
“\u4e00-\u9fa5”是中文编码范围， ...

为什么最后一个包烟删除标点符号呢？

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2020-10-13 14:18:41

dbyluck 发表于 2020-10-13 14:17
为什么最后一个包烟删除标点符号呢？

最后一个停用词包为啥不需要包含标点符号呢？谢谢

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群