文本分析（tm）怎么导入中文停用词？

18507

收藏 2014-05-24

用tm做文本分析，想要剔除中文的停用词
在网上找了一个哈工大的停用词表
然后保存为一个名为stopwordsCN的文本向量
但是用tm_map(X, removeWords,stopwordsCN)却提示出错了，“错误于gsub(sprintf("(*UCP)\\b(%s)\\b", paste(words, collapse = "|"))”
求解决方法

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

mmcaihong88

2014-10-7 10:26:38

我也遇到了同样的问题，大神，您解决了吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zzzjlu

2014-10-9 10:14:11

大神，如何解决的~~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

静晓晓晓晓

2014-10-18 16:33:41

我也是，悲催

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

静晓晓晓晓

2014-10-18 16:33:58

我也是，悲催

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

358463121

2014-11-26 22:11:37

我也遇到这个问题,被我解决了,出现这个的原因是你的stopwordsCN存在非UTF-8的字符,解决方法:
stopwordsCN<-enc2utf8(stopwordsCN) #转utf-8
stopwordsCN<-stopwordsCN[Encoding(stopwordsCN)!="unknown"]#去除未知编码字符

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

zheguzai100

2014-12-24 16:26:20

文件--另存为--stopwordsCN.dat (##在【保存】按钮左边齐平的位置编码类型设置为‘UTF-8’##)
done.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

用户名是啥

2015-5-5 15:20:21

请问如何进行分词啊
> words = unlist(lapply(X = res,FUN = segmentCN))
Error in .jcall(analyzer, "S", strfunc, X) :
java.lang.OutOfMemoryError: Java heap space: failed reallocation of scalar replaced objects
> word=lapply(X=words, FUN=strsplit, " ")
Error in FUN(X[[i]], ...) : 非字符参数
为何我的会出现如下错误？？另外楼主你说的停词表还有细胞词库应该怎么编写语句啊？求大神指点

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

郭田奇

2015-6-24 10:35:33

用户名是啥发表于 2015-5-5 15:20
请问如何进行分词啊
> words = unlist(lapply(X = res,FUN = segmentCN))
Error in .jcall(analyzer, " ...

stopcn<-read.csv("stopword.csv")#保存的时候编码就保存为utf-8
stopwordcn<-as.character(stopcn$x)
X <- tm_map(X,removeWords,stopwordcn)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

松子茶hc

2015-11-3 16:29:42

我将停用词转换成了uft-8编码，也导入成功了，没有错误，但是实际结果中，停用词并没有被删除，请问有遇到过这种情况的吗？怎么解决呢？谢谢啦~~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yangming98

2015-11-3 22:44:22

lightcatcher 发表于 2014-5-24 15:39
用tm做文本分析，想要剔除中文的停用词
在网上找了一个哈工大的停用词表
然后保存为一个名为stopwordsCN的 ...

好的?

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群