自动化特征工程：基于遗传编程（二）

1391

收藏 2017-10-23

续上一篇：https://bbs.pinggu.org/thread-6038753-1-1.html

# 编写plotTree函数，使用igraph包的方法，通过遍历特征表达式，实习二叉树的绘制
getSubTree <- function(treeExp, dstID=NULL){
  library(stringr)
  # 提取子集数量
  gSize <- str_count(treeExp, "<")
  # 随机选取一个子集，并返回提取下标
  if(is.null(dstID))
dstID <- round(runif(1, 1, gSize))
  loc_start = str_locate_all(treeExp,"<")[[1]][dstID,1]
  sumPair = 0
  for(i in loc_start:nchar(treeExp)){
tchar <- substr(treeExp, start = i, stop = i)
if(tchar=="<")sumPair=sumPair+1
else if (tchar==">")sumPair=sumPair-1
if(sumPair==0)break
  }
  nodeContext=substr(treeExp,start = loc_start+1, stop = i-1)
  isLeaf=is.na(str_locate(nodeContext,"<")[1,1])
  names(isLeaf)=NULL
  return(list(subStr=substr(treeExp, start = loc_start, stop = i),
            start=loc_start, end=i, nodeContext=nodeContext, isLeaf=isLeaf))
}

# 该函数用于以递归形式获取边集、点集
# treeExp:特征表达式
# id:初始节点号，通常为1
getEdgeVR <- function(treeExp,id=1){
  library(stringr)
  arrows=NULL
  idcount <<- idcount+1
  idList <<- c(idList,idcount)
  if (is.na(str_locate(treeExp,"<")[1,1])){
txt=treeExp
verNames<<-c(verNames,txt)
isLeaf<<-c(isLeaf,1)
return(id)
  }else{
s0=str_locate(treeExp,",")[1,1]
txt=substr(treeExp,start = 3,stop = s0-1)
verNames<<-c(verNames,txt)
  }
  isLeaf<<-c(isLeaf,0)
  subt=getSubTree(treeExp,1)
  arrows <- c(arrows,paste(id, "->", getEdgeVR(subt$nodeContext,id+1)))
  # 若有两个子节点
  if(substr(treeExp,start = subt$end+1,stop=subt$end+1)==","){
subt2=getSubTree(substr(treeExp,start = subt$end+2,
                        stop=nchar(treeExp)),1)
arrows <- c(arrows,paste(id,"->",getEdgeVR(subt2$nodeContext,idcount)))
  }
  return(arrows)
}

# 该函数基于特征表达式treeExp,绘制二叉树
plotTree <- function(treeExp){
  library(igraph)
  idcount<<-0
  idList<<-NULL
  verNames<<-NULL
  isLeaf<<-NULL
  arws=getEdgeVR(treeExp,1)
  p_vertices=data.frame(idList,verNames,isLeaf)
  p_edges <- NULL
  for(obj in arws){
tmp <- strsplit(obj," -> ")[[1]]
tmpN <- length(tmp)
p_edges <- rbind(p_edges,data.frame(from=tmp[1:(tmpN-1)],
                                    to=tmp[2:tmpN]))
  }

  p_edges=p_edges[complete.cases(p_edges),]
  p_edges=unique(p_edges)
  p_vertices.color=rep("Turquoise",nrow(p_vertices))
  p_vertices.color[p_vertices$isLeaf==1]="Orange"
  gg <- graph.data.frame(d=p_edges,directed=F,vertices=p_vertices)
  plot(gg,layout=layout.reingold.tilford,
   vertex.label=as.character(p_vertices$verNames),
   vertex.label.dist=0,vertex.color=p_vertices.color,
   vertex.label.color='Maroon',vertex.label.cex=1.2)
}
# 基于plotTree绘制特征表达式的二叉树
# plotTree(out)

# 产生初始种群
# 在遗传编程方法构建特征，需要产生初始种群，种群有N个个体定义，N表示种群规模
# 最佳个体表示特征的最佳组合，因此可用给定的m作为基因数量创建个体，每个基因由随机生成的特征表达式表示

# 产生k个(种群规模)个体函数genIndividuals，ksubs表示每个个体对应的固定基因数量或者长度
# 其中getAdjust函数计算个体适应度

genIndividuals <- function(k, ksubs, nMax=10)
  {
  individuals=NULL
  adjusts = NULL
  for (i in 1:k)
{
# 每个个体都从数据集的特征中产生表达树，并组合成个体
singleTerms <- NULL
for(j in 1:ksubs)
   {
   singleTerms <- c(singleTerms, randomGetTree("vdata",vfeatures))
}
individuals <- rbind(individuals,singleTerms)
adjusts=c(adjusts, getAdjust(singleTerms))
  }
  rownames(individuals)=NULL
  individuals=data.frame(individuals,stringsAsFactors = F)
  individuals$adjusts=adjusts
  return(individuals)
}

# 计算适应度：回归问题，通常计算交叉验证的误差平方和降低量作为适应度，
# 分类问题可以根据精度的提高量或者信息增益作为适应度
# 适应度越大表示个体对环境适应能力越强，就越可能携带优秀基因，即特征越有效

# treeExpArray是一组基因或特征表达式，算法依次将特征表达式转换为值

getAdjust <- function(treeExpArray)
  {
  tempData=NULL
  # for(i in 1:length(treeExpArray))
  # {
  # treeExp <- treeExpArray

  for(treeExp in treeExpArray)
{
feature=eval(parse(text = gsub('>', '', gsub('<', '', treeExp))))
if(is.na(sd(feature)) || is.nan(sd(feature)) || sd(feature)==0)
   {
   feature=rep(0,NROW(feature))
}
tempData <- cbind(tempData,feature)
  }

  colnames(tempData)=paste("X", 1:NROW(treeExpArray),sep="")
  tempData=data.frame(tempData)
  tempData$Y=vdata$Y
  newErr <- 0
  for(i in 1:13){
trainData=tempData[setdiff(1:13,i),]
testData=tempData[i,]
newfit <- lm(Y~., data=trainData)
testData$newPred <- predict(newfit,testData)
newErr <- newErr+sum(abs(testData$Y - testData$newPred)^2)
  }
  # stdErr是全局值，表示基于原始属性得到的误差平方和
  interval=stdErr - newErr
  if(interval<0) return(0)
  return(interval)
}

未完待续。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

[求助]请教过路的高手们

[求助]

论坛权力和论坛繁荣的关系

ZF最不应该弱视的一群人-----在读的脱产博士们

论坛学术—你需要什么？3万悬赏，百币奖励

看看我头像吧，那是一种亲切的感觉！

“垃圾大学”未必不出能人哟

最近看到sas画图娱乐比较火，用R的去pk一下

取消悬赏：未得到有效回复麻烦版主取消悬赏谢谢！

【股市雷达】精准医疗大爆发机构狂买一股(名单)

栏目导航

数据分析与数据挖掘

经管文库（原现金交易版）

学术道德监督

SPSS论坛

行业分析报告

商学院

热门文章

CDA数据分析脱产就业班于2026年3月7日开班！ ...

天堂的证据（〔美〕埃本·亚历山大）

半导体行业分析手册之二：混合键合设备，AI ...

芜湖造船厂为我国高端船舶制造自主创新再添 ...

表格结构数据特征与CDA数据分析师：精准适配 ...

CDA 认证考试大纲 2025 重磅更新：一二级考 ...

在概率与代码之间：Agent Skills 是 AI 的枷 ...

新宏观丨豆包，传统经济学与商学对全球性债 ...

失去的三十年：平成日本经济史（【日】野口 ...

硅光芯片代工爆发式增长，重构全球半导体产 ...

推荐文章

2026JG学术冬训营:从Stata初高到Python机器 ...

【必看】【本版版规，欢迎发悬赏贴求助】

【新课】26年3月｜Gemini辅助论文写作与数据 ...

关于如何利用文献的若干建议

关于学术研究和论文发表的一些建议

关于科研中如何学习基础知识的一些建议 (一 ...

一个自编的经济学建模小案例 --写给授课本科 ...

AI智能体赋能教学改革: 全国AI教育教学应用 ...

2025中国AIoT产业全景图谱报告-406页

关于文献求助的一些建议

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群