帖子很好,只是有个问题想请教一下,第二个pdf文档中,我自己在做实验的时候
txt<-Corpus(VectorSource(text))
txt<-tm_map(txt,removeNumbers)#去除数字
txt<-tm_map(txt,stripWhitespace)#去除多余空格
txt<-tm_map(txt,removePunctuation)#去除标点符号
txt<-tm_map(txt,removeWords, stopwords("english"))#将英文中的停词删掉
txt<-tm_map(txt,PlainTextDocument)#去掉空文件
前面这部分都没有问题,文档结果显示的是这个样子
<<VCorpus>>
Metadata: corpus specific: 0, document level (indexed): 0
Content: documents: 400
里面有400个文件,这个没有问题,可是为什么分词之后
txt<-segmentCN(as.character(txt))#将语料库中的中文时行分词
txt<-Corpus(VectorSource(txt))#出现了问题
现在形成的语料库显示的是
<<VCorpus>>
Metadata: corpus specific: 0, document level (indexed): 0
Content: documents: 3
只有3个文件,这是什么情况?
其实我有400个文档,我想形成的文档词条矩阵应该是400行的,而他只有3个文件,最后形成的文档也应该是3行的,这个怎么回事?跪求大神指导!!!