全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1579 1
2015-08-30
这个是主题模型建立:
library(slam)
summary(col_sums(sample.dtm))
term_tfidf <- tapply(sample.dtm$v/row_sums( sample.dtm)[ sample.dtm$i],
                     sample.dtm$j, mean)*
  log2(nDocs( sample.dtm)/col_sums( sample.dtm > 0))
summary(term_tfidf)
sample.dtm <- sample.dtm[, term_tfidf >= 0.1]
sample.dtm <- sample.dtm[row_sums(sample.dtm) > 0,]
k <- length(unique(csv$type))
library(topicmodels)
SEED <- 2012
sample_TM <- list(
  VEM = LDA( sample.dtm, k=k, control = list(seed = SEED)),
  VEM_fixed = LDA( sample.dtm, k = k, control = list(estimate.alpha = FALSE, seed = SEED)),
  Gibbs = LDA( sample.dtm, k = k, method = "Gibbs", control = list(seed = SEED, burnin =
                                                                      1000, thin = 100, iter = 1000)),
  CTM = CTM( sample.dtm, k = k, control = list(seed = SEED, var = list(tol = 10^-4), em =
                                                  list(tol = 10^-3))))
sapply(sample_TM[1:2], slot, "alpha")
sapply(sample_TM, function(x) mean(apply(posterior(x)$topics,1, function(z)
  -sum(z*log(z)))))
Topic <- topics(sample_TM[["VEM"]], 1)
Terms <- terms(sample_TM[["VEM"]], 5)
Terms[, 1:6]
这一部分完了后是否就可以拿新文本进行测试了?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-9-24 20:22:38
问题解决了吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群