全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
5575 2
2014-11-25
reuters <- tm_map(reuters, removeWords, unlist(stopwords))#停用词去除
这条命令..居然出现乱码了
> reuters <- tm_map(reuters, removeWords, unlist(stopwords))#停用词去除
Error in gsub(sprintf("(*UCP)\\b(%s)\\b", paste(words, collapse = "|")),  :
  invalid regular expression '(*UCP)\b(鈥斺
我单独查看是没有乱码的,R语言有什么函数可以转换编码的吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-11-25 19:06:08
好吧,我自己解决了,在这里分享下.
出现这个错误的原因是我的stopwords里存在非UTF-8的元素
可以使用Encoding函数查看,解决方法就是,把那些字符去掉就行.
stopwords<-stopwords[Encoding(stopwords)!="unknown"]#去除未知编码字符
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-29 17:44:07
358463121 发表于 2014-11-25 19:06
好吧,我自己解决了,在这里分享下.
出现这个错误的原因是我的stopwords里存在非UTF-8的元素
可以使用Encod ...
您好,我用了您的方法,可结果显示stopwords中所有信息都没有了,这是为什么呢?谢谢您~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群