全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
3016 5
2017-07-04
用R语言对中文文章进行爬虫,之后进行词频处理过程中,得出的文章中出现最多的词往往是“的”,“和”之类的连接词,真实有效的信息被掩盖掉了,请问如何处理这样的问题?谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-7-4 21:05:58
这种叫做停用词。停用词要去掉的。多找些文本分析的文章里面可能会写具体代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-7-4 22:32:03
方法一:去除停用词
res<-gsub(pattern="[我|你|的|了|是|们]","",res)
这个是用替换的方法把原文本中的这些单个无意义的词去掉,再做的到位一点可以添加停用词词典,这个词典搜狗上应该有。

方法二:在统计时去掉词长小于2的词
m<-subset(t, nchar(as.character(t$词))>1 & t$词频>=1)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-7-4 22:33:46
风之将尽 发表于 2017-7-4 22:32
方法一:去除停用词
res=1)
t后面应该是跟号dollar号,网页这么打好像出不来,“tdollar号词“”
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-7-18 15:08:33
风之将尽 发表于 2017-7-4 22:33
t后面应该是跟号dollar号,网页这么打好像出不来,“tdollar号词“”
segmentCN(file.choose(),returnType="tm")
mydoc<-readLines(file.choose(),encoding = "UTF-8")
mydoc.vec<-VectorSource(mydoc)
mydoc.corpus<-Corpus(mydoc.vec)
#删除停用词
data_stw=read.table(file=file.choose(),colClasses="character")   #读取的csv文件。有需要去掉的标点,数字,英文字母,中文。
stopwords_CN=c(NULL)
for(i in 1:length(data_stw)){
  stopwords_CN=c(stopwords_CN,data_stw)
}
mydoc.corpus<-tm_map(mydoc.corpus,removeWords,stopwords_CN)  

Error in sort.int(x, na.last = na.last, decreasing = decreasing, ...) :
  'x' must be atomic
这个问题请问怎么解决?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-8-5 16:35:12
chaunceyzhou 发表于 2017-7-18 15:08
segmentCN(file.choose(),returnType="tm")
mydoc
我也是初学,不过代码是不是没贴全,报错中的sort.int并没在代码中。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群