如何使用DocumentTermMatrix函数 - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛

如何使用DocumentTermMatrix函数

8018

3

收藏 2015-06-23

我在做中文文本的分类代码如下：words<-as.character(csv$keywords)
words<-strsplit(words,',')
corpus = Corpus(VectorSource(words))
(dtm <- DocumentTermMatrix(corpus))

之后使用dtm$dimnames查看发现其中出现了类似“最新研究\n科学家发现\n摄影”这个几个词组合在一起的情况，为什么会出现这样的情况，还有我该如何做才能够避免这类情况发生？

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2015-6-25 00:37:04

提示: 作者被禁止或删除内容自动屏蔽

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-1-11 19:32:28

是因为词的长度不统一。如果你都是用两个词，就不会出现那个情况。

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2016-3-27 15:36:36

langmalee 发表于 2016-1-11 19:32
是因为词的长度不统一。如果你都是用两个词，就不会出现那个情况。

两个词？我把词的长度统一后测试，结果还是一样呢

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群