【Windows 7旗舰 R 3-1-3】使用segmentCN函数后只有文章中的英文被分出

woshizsz

4451

收藏 2015-04-06

悬赏 10 个论坛币未解决

利用Rwordseg包对抓到的网络评论分词，但是分出来的全是英文，中文被完全忽略，求助。

程序如下：
library(tm)
library(tmcn)
library(Rwordseg)

#Data.csv是数据
Data <- read.csv("Data.csv",head=TRUE,sep=",")
Review <- unlist(Data$cont)
Rev <- vector()

#将每部电影所有观众的评价评价合并到一个变量中
times <- floor(length(Review)/2000)
for (j in 1:times) {
  for(i in 1:2000) {
Rev[j] <- paste(Rev[j],as.character(Review[[i+(j-1)*2000+1]]))
  }
}

#分词并统计词频
review <- apply(Rev,segmentCN) ！问题在这，分词后出现的只有文字中的英文
review <- sapply(review,strsplit,"")
result <- table(unlist(reviwe))
statistics <- rev(sort(result))
words <- data.frame(word=names(statistics), freq=statistics)
words <- subset(words, nchar(as.character(words$word))>1 & words$freq>=100)
程序一直错，还是传附件吧

Data.xlsx
大小:(99.33 MB)

马上下载

Code.txt
大小:(581 Bytes)

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

woshizsz

2015-4-6 23:42:46

不知为何程序乱了.....

library(tm)
library(tmcn)
library(Rwordseg)

Data <- read.csv("Data.csv",head=TRUE,sep=",")
Review <- unlist(Data$cont)
Rev <- vector()

times <- floor(length(Review)/2000)
for (j in 1:times) {
  for(i in 1:2000) {
Rev[j] <- paste(Rev[j],as.character(Review[[i+(j-1)*2000+1]]))
  }
}

review <- apply(Rev,segmentCN)
review <- sapply(review,strsplit,"")
result <- table(unlist(reviwe))
statistics <- rev(sort(result))
words <- data.frame(word=names(statistics), freq=statistics)
words <- subset(words, nchar(as.character(words$word))>1 & words$freq>=100)