全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
18515 33
2013-02-16
悬赏 10 个论坛币 未解决
用Rweibo,对关注的网站进行了抓取,内容放入附件res.txt中,
使用Rwordseg进行分词,分词结果是对所有的字进行了拆分,代码如下:

res2<-as.character(res)
words1=unlist(lapply(X=res2,FUN=segmentCN))
word.result=lapply(X=words,FUN=strsplit,"")
v=table(unlist(word.result))
v1=sort(v,deceasing=T)
head(v1[1:100])
d=data.frame(word=names(v1),freq=v1 )

res.txt

大小:69.65 KB

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-2-17 02:13:53
最终还是解决了,主要原因是在使用strsplit的时候把原本已经划分好的词再次进行了拆分;代码如下
insertWords(c("专家滋询汇","多美滋","挺好的"))
res<-read.table("D:\\Documents\\res1.txt",header=T,stringsAsFactors=F)
res1<-as.character(res)
x2<-list(res1)
words<-segmentCN(unlist(x2))
str(words)
v1=sort(v,deceasing=T)
Dfrm<-data.frame(word=names(v1),freq=v1)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-4-18 23:43:50
wyfhdl 发表于 2013-2-17 02:13
最终还是解决了,主要原因是在使用strsplit的时候把原本已经划分好的词再次进行了拆分;代码如下
insertWo ...
为什么我这个Rwordseg包下载总出错呢?
Rweibo抓取之后想分词 但是这个总是出错,求解
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-4-19 11:15:16
xunxunyulove 发表于 2013-4-18 23:43
为什么我这个Rwordseg包下载总出错呢?
Rweibo抓取之后想分词 但是这个总是出错,求解
在上面菜单栏里面的程序包->R-Forge 然后install.packages("...")
或者直接在CRAN里面 下载win版本的ZIP包
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-4-20 20:54:10
wyfhdl 发表于 2013-4-19 11:15
在上面菜单栏里面的程序包->R-Forge 然后install.packages("...")
或者直接在CRAN里面 下载win版本的ZIP ...
谢谢,我这几天下载成功了 正在尝试怎么做分词,好难啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-4-20 22:34:38
xunxunyulove 发表于 2013-4-20 20:54
谢谢,我这几天下载成功了 正在尝试怎么做分词,好难啊
。。。估计你是对数据类型比较晕吧,多用mode() 看看你数据结构,一般都是通过外源导入,还有就是你在用read.table的时候注意下
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群