关于中文文本挖掘的问题

8354

收藏 2013-02-05

各位大牛，求指教！问题如下：

在应用tm和rmmseg4j做中文分析
数据源是txt，一共52个文本

我的比较笨的办法是，
1.用txt1 = readLines("1.txt", encoding="gb2312")……重复52遍，把文本读入R，
2.用rmmseg4j对每一个文本分词；
3.用tm的corpus把所有文本拼起来凑成语料库
4.用tm的其他功能分析

我知道tm的corpus是可以用dirsource直接在硬盘里抓出文档来，建立语料库的，这很方便，
但是，mmseg4j好像不能直接对语料库做分词
如 mmseg4j(corpus)或者corpus<-tm_map(corpus,mmseg4j)都会报错
有什么更好的办法吗？
悬赏一周，谢谢指教！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

antili

2013-2-8 12:38:27

用java分词，写一个接口运用python做文本分类吧

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

complicated

2013-2-8 21:32:55

antili 发表于 2013-2-8 12:38
用java分词，写一个接口运用python做文本分类吧

谢谢，但是那样的话跟R还有多少关系咧。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

trier2006

2013-2-8 22:34:57

帮顶

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

complicated

2013-2-21 20:44:05

还是自己搞定的。。。把论坛币悬赏给自己好了

#数据导入
title = list.files(pattern = '*.txt');#获取指定文件夹下全部txt的文件标题
data = lapply(title, readLines)#读取内容,生成一个list
data<-gsub("\n","",data,fixed=TRUE)#干掉文本里的回车！否则每个回车就会被识别成一段文本
txt=lapply(data,mmseg4j)
cvs = Corpus(VectorSource(txt))#建成语料库

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jswu167

2013-2-24 23:11:02

dingding

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

夏夜风暖

2013-3-4 17:59:19

mark一下

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xiaoxiaoyudian

2014-1-15 11:54:13

研究研究

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

海的方向

2014-1-15 13:45:37

顶一下～帅～

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

海的方向

2014-1-16 15:38:05

用这个胡乱试了一个text，最后一步显示：cvs=Corpus(VectorSource(txt))
错误: 不是所有的is.Source(s)都是TRUE
此外: 警告信息：
In is.Source(s) : vectorized sources must have a positive length entry
出了啥问题？