全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2162 8
2016-06-14
各位大神,请问一下大家在利用R做文本挖掘分类时,要产生DocumentTermMatrix,然后利用DocumentTermMatrix进行降维处理,从而实现分类。
可是我产生的dtm矩阵出现这样的情况
    Terms
Docs 阿玛施\n新春     癌\n种\n      爱国              爱心         安排
   1            0                  0                 0                     0           0
   2            1                  0                 0                     0           0
   3            0                  0                 0                     0           0
   4            0                  0                 0                     0           0
   5            0                  0                 0                     0           0

产生的矩阵含有\n标签,按理说“阿玛施”和“新春”是两个词才对,为什么将其当做一个词处理?
我看了一篇帖子,里面说在分词的时候加上segmentCN()设置一下参数returnType = 'tm',结果是这样的:
    Terms
Docs 阿玛施  新春     癌  种          爱国              爱心         安排
   1            0                  0                 0                     0           0
   2            1                  0                 0                     0           0
   3            0                  0                 0                     0           0
   4            0                  0                 0                     0           0
   5            0                  0                 0                     0           0

虽然\n标签没有了但是结果跟上面的结果一模一样啊,
其实   阿玛施 和  新春 应该是两个词   这里为什么把它当做一个词呢,  “癌”和“种”是单个字,在生成dtm矩阵的时候我就把它删除了 ,这里为什么还有呢
dtm<-DocumentTermMatrix(corpus, control=list(removePunctuation = TRUE,wordLengths = c(2, Inf)))

求大神赐教
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-6-14 23:59:01
检查你原始文件格式,是否带有空格等等
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-6-15 14:07:46
bbslover 发表于 2016-6-14 23:59
检查你原始文件格式,是否带有空格等等
大神 有空吗 我想具体问一下你,好像不是这个格式的原因
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-6-15 14:43:10
风雨兼程12 发表于 2016-6-15 14:07
大神 有空吗 我想具体问一下你,好像不是这个格式的原因
能把扣扣给我吗  我加你  具体问一下 谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-6-22 18:33:00
可以把这些字添加到用户字典中
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-6-23 09:09:56
吴_楚 发表于 2016-6-22 18:33
可以把这些字添加到用户字典中
用户字典里有呢  已经解决了 是tm包里面的一个bug造成的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群