全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
8354 17
2013-02-05
各位大牛,求指教!问题如下:

在应用tm和rmmseg4j做中文分析
数据源是txt,一共52个文本

我的比较笨的办法是,
1.用txt1 = readLines("1.txt", encoding="gb2312")……重复52遍,把文本读入R,
2.用rmmseg4j对每一个文本分词;
3.用tm的corpus把所有文本拼起来凑成语料库
4.用tm的其他功能分析


我知道tm的corpus是可以用dirsource直接在硬盘里抓出文档来,建立语料库的,这很方便,
但是,mmseg4j好像不能直接对语料库做分词
如 mmseg4j(corpus)或者corpus<-tm_map(corpus,mmseg4j)都会报错
有什么更好的办法吗?
悬赏一周,谢谢指教!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-2-8 12:38:27
用java分词,写一个接口运用python做文本分类吧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-2-8 21:32:55
antili 发表于 2013-2-8 12:38
用java分词,写一个接口运用python做文本分类吧
谢谢,但是那样的话跟R还有多少关系咧。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-2-8 22:34:57
帮顶
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-2-21 20:44:05
还是自己搞定的。。。把论坛币悬赏给自己好了

#数据导入
title = list.files(pattern = '*.txt');#获取指定文件夹下全部txt的文件标题
data = lapply(title, readLines)#读取内容,生成一个list
data<-gsub("\n","",data,fixed=TRUE)#干掉文本里的回车!否则每个回车就会被识别成一段文本
txt=lapply(data,mmseg4j)
cvs = Corpus(VectorSource(txt))#建成语料库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-2-24 23:11:02
dingding
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群