全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
11443 13
2015-11-03
请问用Rwordseg分词的时候,导入的中文停用词,是txt格式,导入成功没有错误,但是实际结果中停用词并没有被删除。请问这是什么原因?怎么解决呢?谢谢啦!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-11-3 16:36:29
这是我导入停用词的程序:
data_stw=read.table(file=file.choose(),colClasses="character")
stopwords_CN=c(NULL)
for(i in 1:dim(data_stw)[1]){
stopwords_CN=c(stopwords_CN,data_stw[i,1])
}
for(j in 1:length(stopwords_CN)){
myfile.words <- subset(myfile.words,myfile.words!=stopwords_CN[j])
}
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-7-25 17:02:50
您好,请问你这个问题最后解决了吗?因为我也出现了同样的问题
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-7-25 17:15:33
baoyuzeng 发表于 2016-7-25 17:02
您好,请问你这个问题最后解决了吗?因为我也出现了同样的问题
我的是手动删除,做词频云图时候,那些停用词、不相关的词没必要出现,手动删除比较方便
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-7-25 17:55:59
太阳之子追梦者 发表于 2016-7-25 17:15
我的是手动删除,做词频云图时候,那些停用词、不相关的词没必要出现,手动删除比较方便
但是停用词表一共1000多个词呢,手动岂不是太麻烦了!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-7-25 18:02:05
baoyuzeng 发表于 2016-7-25 17:55
但是停用词表一共1000多个词呢,手动岂不是太麻烦了!!
在excel里面还不是简单vlookup一下的事情吗
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群