R中文文本挖掘tm包相关问题

pennyr617

1914

收藏 2019-01-07

用tm包做文本挖掘，想导入用Rwordseg包做过分词的中文到语料库中作文本聚类，请问导入对象可以是list的格式吗？具体导入的函数怎么写？因为用Rwordseg包分词过后的文本为list的格式，如下图所示：

附件列表

提问图片.png

原图尺寸 26.54 KB

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

fyc7346165

2019-1-7 15:37:25

用segmentCN函数作分词的时候，有一个returnType参数，需要把它设置为"tm"，这样得到的结果就可以直接用来构造DTM了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

pennyr617

2019-1-7 16:24:53

那建立语料库后每个文档的格式为一个向量格式，如下图所示，这样有没有问题？建立语料库的代码为ovid3 <- Corpus(VectorSource(seg),readerControl=list(language="zh"))

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

fyc7346165

2019-1-7 16:48:02

pennyr617 发表于 2019-1-7 16:24
那建立语料库后每个文档的格式为一个向量格式，如下图所示，这样有没有问题？建立语料库的代码为ovid3

你这个情况我不确认接下来会发生什么但是跟我不太一样，给你一个例子吧

复制代码

中文用tm的基本思想就是通过分词在文本中加入了很多空格，然后中文就可以跟英文一样的处理方式了
所以分词后不能写成

复制代码

而应该是

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

pennyr617

2019-1-8 16:10:01

非常感谢，我的问题已经解决了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群