全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1914 4
2019-01-07
用tm包做文本挖掘,想导入用Rwordseg包做过分词的中文到语料库中作文本聚类,请问导入对象可以是list的格式吗?具体导入的函数怎么写?因为用Rwordseg包分词过后的文本为list的格式,如下图所示:




附件列表
提问图片.png

原图尺寸 26.54 KB

提问图片.png

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-1-7 15:37:25
用segmentCN函数作分词的时候,有一个returnType参数,需要把它设置为"tm",这样得到的结果就可以直接用来构造DTM了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-1-7 16:24:53
那建立语料库后每个文档的格式为一个向量格式,如下图所示,这样有没有问题?建立语料库的代码为ovid3 <- Corpus(VectorSource(seg),readerControl=list(language="zh"))
tm分词对象.png


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-1-7 16:48:02
pennyr617 发表于 2019-1-7 16:24
那建立语料库后每个文档的格式为一个向量格式,如下图所示,这样有没有问题?建立语料库的代码为ovid3
你这个情况我不确认接下来会发生什么但是跟我不太一样,给你一个例子吧
复制代码
中文用tm的基本思想就是通过分词在文本中加入了很多空格,然后中文就可以跟英文一样的处理方式了
所以分词后不能写成
复制代码
而应该是
复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-1-8 16:10:01
非常感谢,我的问题已经解决了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群