全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2970 0
2015-01-23
m <-readLines("C:/Users/jang/Desktop/totalp.txt")
query <- "环境 土壤 水质"
names(m) <- paste("专利", 1:length(m))
m <- c(m, query=query)
m <- Map(extractNoun, m)
m <- unique(m)
m.corp <- Corpus(VectorSource(m))
m.corp <- tm_map(m.corp, removePunctuation)
m.corp <- tm_map(m.corp, removeNumbers)
m.corp <- tm_map(m.corp,stemDocument)
konlp_tokenizer <- function(m){
  extractNoun(m)
}
tdmat <- TermDocumentMatrix(m.corp, control=list(tokenize=konlp_tokenizer, weighting = function(x) weightTfIdf(x, TRUE),
                                                    wordLengths=c(2,Inf)))

dmatmat <- as.matrix(tdmat)

docord <- t(dmatmat[,8820]) %*% dmatmat[,1:8819]
fit <-hclust(dist(t(dmatmat)), method = "ward")
plclust(fit)
rect.hclust(fit1, k = 60)

我把我收集的8819个专利,hclust分为60个块分为60个小块, 我想查看每个块里边有哪些专利,查看具体的分层数据需要怎么修改
谢谢高手指点
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群