DocumentTermMatrix转换出来总是乱码

3232

收藏 2018-01-02

做topicmodel的时候，生成的DTM这个矩阵总是乱码……到dtm前一步都是正常的，wordcorpus并不乱码。
已经转换成utf8了还是木有解决。。。求助！

代码如下：

#将纯文档文件转换为Corpus对象
resutf8<-toUTF8(res)
wordcorpus <- Corpus(VectorSource(resutf8))

#生成DTM
controllist<-list(wordLengths=c(2,Inf),removeNumbers=TRUE,weighting=weightTf,removePunctuation = TRUE,stopwords = stopwordsCN())
dtm <- DocumentTermMatrix(wordcorpus,control = controllist)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

AlexYoung757

2018-1-3 09:23:58

把结果贴出来看看，你说的乱码是什么样子的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

liyuell

2018-1-3 10:55:14

AlexYoung757 发表于 2018-1-3 09:23
把结果贴出来看看，你说的乱码是什么样子的

<<DocumentTermMatrix (documents: 10, terms: 13)>>
Non-/sparse entries: 34/96
Sparsity          : 74%
Maximal term length: 5
Weighting       : term frequency (tf)
Sample          :
Terms
Docs 鍑犲勾鍋氬嚭浣滅敤浼<90> 淇濇姢鍥<9b> 鍗<8a> 鍏ㄧ渷鍐冲畾鍐崇瓥
  1    0    0    0    0    0    0    0    0    0    0
  10    0    0    0    0    0    0    0    0    0    0
  2    1    1    1    2    1    1    1    1    1    1
  3    1    1    1    1    1    1    1    1    1    1
  4    0    0    0    0    0    0    0    1    0    0
  5    0    0    0    0    0    0    0    0    0    0
  6    0    0    0    0    0    0    0    0    0    0
  7    0    1    0    0    1    0    1    0    3    0
  8    0    0    0    0    0    1    0    0    0    0

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

liyuell

2018-1-3 11:57:45

刚刚又试了一下，如果设置wordLengths = c(4,4)就不会乱码，即词的长度必须一致，有大神知道这是为什么吗？！！！另外设置为4出来的却是2字的词，是不是和中英文编码之类的有关系？？？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AlexYoung757

2018-1-4 10:48:13

你试试用tmcn包吧不要直接用tm包创建tdm矩阵

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tsky

2019-5-25 16:04:38

楼主解决了吗？
我也碰到这个问题了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群