R语言TM包遇到问题 - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛

R语言TM包遇到问题

5656

2

收藏 2014-11-25

reuters <- tm_map(reuters, removeWords, unlist(stopwords))#停用词去除
这条命令..居然出现乱码了
> reuters <- tm_map(reuters, removeWords, unlist(stopwords))#停用词去除
Error in gsub(sprintf("(*UCP)\\b(%s)\\b", paste(words, collapse = "|")), :
invalid regular expression '(*UCP)\b(鈥斺
我单独查看是没有乱码的,R语言有什么函数可以转换编码的吗?

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2014-11-25 19:06:08

好吧,我自己解决了,在这里分享下.
出现这个错误的原因是我的stopwords里存在非UTF-8的元素
可以使用Encoding函数查看,解决方法就是,把那些字符去掉就行.
stopwords<-stopwords[Encoding(stopwords)!="unknown"]#去除未知编码字符

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

0535快乐宝贝

2015-9-29 17:44:07

358463121 发表于 2014-11-25 19:06
好吧,我自己解决了,在这里分享下.
出现这个错误的原因是我的stopwords里存在非UTF-8的元素
可以使用Encod ...

您好,我用了您的方法,可结果显示stopwords中所有信息都没有了,这是为什么呢?谢谢您~

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群