全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
18507 10
2014-05-24
用tm做文本分析,想要剔除中文的停用词
在网上找了一个哈工大的停用词表
然后保存为一个名为stopwordsCN的文本向量
但是用tm_map(X, removeWords,stopwordsCN)却提示出错了,“错误于gsub(sprintf("(*UCP)\\b(%s)\\b", paste(words, collapse = "|"))”
求解决方法
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-10-7 10:26:38
我也遇到了同样的问题,大神,您解决了吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-10-9 10:14:11
大神,如何解决的~~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-10-18 16:33:41
我也是,悲催
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-10-18 16:33:58
我也是,悲催
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-26 22:11:37
我也遇到这个问题,被我解决了,出现这个的原因是你的stopwordsCN存在非UTF-8的字符,解决方法:
stopwordsCN<-enc2utf8(stopwordsCN) #转utf-8
stopwordsCN<-stopwordsCN[Encoding(stopwordsCN)!="unknown"]#去除未知编码字符
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群