全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
6697 9
2015-09-13
中文分词后使用tm包的DocumentTermMatrix()创建矩阵后,得到的结果出现\n符号代码如下:
corpus <- Corpus(VectorSource(sample.words))  

sample.dtm <- DocumentTermMatrix(corpus,control=list(removePunctuation=TRUE,
    stopwords=TRUE,wordLengths=c(2,Inf)))
inspect(sample.dtm)


结果
     Terms
Docs  万\n关键字\n新\n举措 万\n规模 万\n号称 万\n计划 万\n络\n西乐 万\n络\n止痛药\n市场


请问是什么原因呢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-9-13 12:12:42
提示: 作者被禁止或删除 内容自动屏蔽
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-14 10:58:15
ryoeng 发表于 2015-9-13 12:12
参考一下。
https://rstudio-pubs-static.s3.amazonaws.com/42046_1145eaaa455840b7a2a0d8a74146dd3a.html
分词后是没有\n符号的 就是创建tdm矩阵后出现了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-14 11:04:06
我也遇到了同样的问题,而且你这里面的词语,例如“万\n计划” 原本在你的分词里应该是分开的吧,还是说你本来就应该是合在一起的?

去掉\n这个问题好解决,你分词后,用strsplit函数,用逗号分割一下,就能没有了\n,但是无关的两个分词合并到一切,我却不知道怎么解决。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-14 12:35:16
我之前有过同样问题,tm降版成0.58后解决。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-14 13:37:10
找到了问题所在,说是R语言版本过高,作者可能在R升级后没有维护,将R语言版本改为3.0.2,问题消失
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群