关于R语言分词的疑问

teresa_ya

3016

收藏 2017-07-04

用R语言对中文文章进行爬虫，之后进行词频处理过程中，得出的文章中出现最多的词往往是“的”，“和”之类的连接词，真实有效的信息被掩盖掉了，请问如何处理这样的问题？谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

showmonki

2017-7-4 21:05:58

这种叫做停用词。停用词要去掉的。多找些文本分析的文章里面可能会写具体代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

风之将尽

2017-7-4 22:32:03

方法一：去除停用词
res<-gsub(pattern="[我|你|的|了|是|们]","",res)
这个是用替换的方法把原文本中的这些单个无意义的词去掉，再做的到位一点可以添加停用词词典，这个词典搜狗上应该有。

方法二：在统计时去掉词长小于2的词
m<-subset(t, nchar(as.character(t$词))>1 & t$词频>=1)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

风之将尽

2017-7-4 22:33:46

风之将尽发表于 2017-7-4 22:32
方法一：去除停用词
res=1)

t后面应该是跟号dollar号，网页这么打好像出不来，“tdollar号词“”

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

chaunceyzhou

2017-7-18 15:08:33

风之将尽发表于 2017-7-4 22:33
t后面应该是跟号dollar号，网页这么打好像出不来，“tdollar号词“”

segmentCN(file.choose(),returnType="tm")
mydoc<-readLines(file.choose(),encoding = "UTF-8")
mydoc.vec<-VectorSource(mydoc)
mydoc.corpus<-Corpus(mydoc.vec)
#删除停用词
data_stw=read.table(file=file.choose(),colClasses="character") #读取的csv文件。有需要去掉的标点，数字，英文字母，中文。
stopwords_CN=c(NULL)
for(i in 1:length(data_stw)){
  stopwords_CN=c(stopwords_CN,data_stw)
}
mydoc.corpus<-tm_map(mydoc.corpus,removeWords,stopwords_CN)

Error in sort.int(x, na.last = na.last, decreasing = decreasing, ...) :
  'x' must be atomic
这个问题请问怎么解决？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

地板

风之将尽

2017-8-5 16:35:12

chaunceyzhou 发表于 2017-7-18 15:08
segmentCN(file.choose(),returnType="tm")
mydoc
我也是初学，不过代码是不是没贴全，报错中的sort.int并没在代码中。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

[求助] 请教一个R语言运行结果问题

请教讨教统计学R语言的问题

R中怎么打印一个5*5矩阵的左上角2*2矩阵

请教一下R语言拟合问题

R语言如何截取中文？

R语言进行装袋法后变量重要性排序

R语言中by函数的使用问题

R语言的一个编程问题

R语言α选股分享

R语言中数据框内的数值怎么进行计算？

栏目导航

R语言论坛

经管在职研

商学院

学术道德监督

经管文库（原现金交易版）

新手入门区

热门文章

CDA 数据分析师：线性回归实战指南 —— 从 ...

世界上最简单的会计书（高清pdf版）

同心动力携手山西金控，共筑金融企业“以人 ...

AI应用新范式：从工具革命到“超级OS”的演 ...

R语言实战机器学习与数据分

R语言预测实战

20XX年扶贫办雨露计划工作方案

如盈财女：10.31黄金短线偏强，上方还有上涨 ...

2018届高考化学基础模块综合检测17

蔡定创教授、李云庆院长致联合国秘书长古特 ...

推荐文章

AI狂潮席卷学术圈，不会编程也能打造专属智 ...

最快1年拿证，学费不足5W！热门美国人工智能 ...

关于如何利用文献的若干建议

关于学术研究和论文发表的一些建议

关于科研中如何学习基础知识的一些建议 (一 ...

一个自编的经济学建模小案例 --写给授课本科 ...

AI智能体赋能教学改革: 全国AI教育教学应用 ...

2025中国AIoT产业全景图谱报告-406页

关于文献求助的一些建议

几种免费下载文献的方法----我的文献应助经

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群