全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
3065 5
2018-01-02
做topicmodel的时候,生成的DTM这个矩阵总是乱码……到dtm前一步都是正常的,wordcorpus并不乱码。
已经转换成utf8了还是木有解决。。。求助!

代码如下:

#将纯文档文件转换为Corpus对象
resutf8<-toUTF8(res)
wordcorpus <- Corpus(VectorSource(resutf8))

#生成DTM
controllist<-list(wordLengths=c(2,Inf),removeNumbers=TRUE,weighting=weightTf,removePunctuation = TRUE,stopwords = stopwordsCN())
dtm <- DocumentTermMatrix(wordcorpus,control = controllist)  

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-1-3 09:23:58
把结果贴出来看看,你说的乱码是什么样子的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-1-3 10:55:14
AlexYoung757 发表于 2018-1-3 09:23
把结果贴出来看看,你说的乱码是什么样子的
<<DocumentTermMatrix (documents: 10, terms: 13)>>
Non-/sparse entries: 34/96
Sparsity           : 74%
Maximal term length: 5
Weighting          : term frequency (tf)
Sample             :
    Terms
Docs 鍑犲勾 鍋氬嚭 浣滅敤 浼<90> 淇濇姢 鍥<9b> 鍗<8a> 鍏ㄧ渷 鍐冲畾 鍐崇瓥
  1       0      0      0      0      0      0      0      0      0      0
  10      0      0      0      0      0      0      0      0      0      0
  2       1      1      1      2      1      1      1      1      1      1
  3       1      1      1      1      1      1      1      1      1      1
  4       0      0      0      0      0      0      0      1      0      0
  5       0      0      0      0      0      0      0      0      0      0
  6       0      0      0      0      0      0      0      0      0      0
  7       0      1      0      0      1      0      1      0      3      0
  8       0      0      0      0      0      1      0      0      0      0
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-1-3 11:57:45
刚刚又试了一下,如果设置wordLengths = c(4,4)就不会乱码,即词的长度必须一致,有大神知道这是为什么吗?!!!另外设置为4出来的却是2字的词,是不是和中英文编码之类的有关系???
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-1-4 10:48:13
你试试用tmcn包吧 不要直接用tm包创建tdm矩阵
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-5-25 16:04:38
楼主解决了吗?
我也碰到这个问题了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群