[tm包]TermDocumentMatrix方法 - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛

[tm包]TermDocumentMatrix方法

6826

9

收藏 2015-09-13

中文分词后使用tm包的DocumentTermMatrix()创建矩阵后，得到的结果出现\n符号代码如下：
corpus <- Corpus(VectorSource(sample.words))

sample.dtm <- DocumentTermMatrix(corpus,control=list(removePunctuation=TRUE,
stopwords=TRUE,wordLengths=c(2,Inf)))
inspect(sample.dtm)

结果
   Terms
Docs  万\n关键字\n新\n举措万\n规模万\n号称万\n计划万\n络\n西乐万\n络\n止痛药\n市场

请问是什么原因呢

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2015-9-13 12:12:42

提示: 作者被禁止或删除内容自动屏蔽

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-9-14 10:58:15

ryoeng 发表于 2015-9-13 12:12
参考一下。
https://rstudio-pubs-static.s3.amazonaws.com/42046_1145eaaa455840b7a2a0d8a74146dd3a.html

分词后是没有\n符号的就是创建tdm矩阵后出现了

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-9-14 11:04:06

我也遇到了同样的问题，而且你这里面的词语，例如“万\n计划” 原本在你的分词里应该是分开的吧，还是说你本来就应该是合在一起的？

去掉\n这个问题好解决，你分词后，用strsplit函数，用逗号分割一下，就能没有了\n，但是无关的两个分词合并到一切，我却不知道怎么解决。。。

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-9-14 12:35:16

我之前有过同样问题，tm降版成0.58后解决。

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2015-9-14 13:37:10

找到了问题所在，说是R语言版本过高，作者可能在R升级后没有维护，将R语言版本改为3.0.2，问题消失

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

相关推荐

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群